IPB

Здравствуйте, гость ( Вход | Регистрация )

21 страниц V   1 2 3 > »   
Reply to this topicStart new topic

Файл robots.txt , Назначение, синтаксис и прочее...

AleM
сообщение May 18 2006, 13:58
Сообщение #1


Ушёл в себя...
******

Группа: Members
Сообщений: 1327
Регистрация: 8.6.2005
Из: Днепропетровск




Что такое robots.txt и для чего он нужен

Файл robots.txt размещается в корневой директории сайта и описывает исключения для поисковых ботов. Придерживающийся стандартов бот проверяет сначала url "/robots.txt", если файл существует, то бот анализирует его содержимое на предмет наличия запретов к посещению определённых частей сайта. Имя файла не должно содержать заглавных букв. Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки (строки, содержащие только комментарии игнорируются ботами и не являются разделителями записей).

User-agent
Имя бота, к которому применяются правила исключений на сайте. Можно прописать несколько строк с User-agent, в этом случае правила, описанные в данной записи будут применяться указанными ботами. Для описывания правил ботам, для которых отдельная запись не составлена применяют следующий параметр: «*» (в файле robots.txt может быть только одна запись User-agent: *).

Disallow
В данном поле прописывается полный или частичный путь к месту на сайте, посещение которого запрещено для бота. В каждой записи должно присутствовать как минимум одно поле Disallow. Пустое поле Disallow подразумевает разрешение боту посещать все директории и файлы сайта. Не допускается использование в данном поле регулярных выражений и символов подстановки.


Примеры для http://site.ru/
(Показывает как можно сочетать директивы в файле robots.txt но не несущий смысловой нагрузки)

Код
User-agent: Yandex
Disallow: /test/
Disallow: /print.html
# Запрещает ботам Яндекса посещать папку http://site.ru/test/
# и файл http://site.ru/print.html

User-agent: Aport
User-agent: Googlebot
Disallow: /temp/img/
# Запрещает посещение ботами Google и Апорт http://site.ru/temp/img/

User-agent: StackRambler
Disallow:
# Для бота поисковой системы Рамблер разрешено посещение всех
# страниц и папок сайта

User-Agent: *
Disallow: /lesson.php?action=test
# Запрещает посещение всеми ботами, для которых не сделана
#отдельная запись,
# динамических страниц, начинающихся с http://site.ru/lesson.php?action=test
# например: http://site.ru/lesson.php?action=test&id=13
# чувствительно к порядку переменных в ссылке


Некоторые поисковые системы поддерживают дополнительные поля в файле robots.txt. Яндексом поддерживается директива Host, служащая для назначения основного зеркала:

Код
User-agent: Yandex
Disallow: /test/
Host: site.ru
# разрешено посещение всех страниц и папок на сайте, кроме http://site.ru/test/
# основным зеркалом назначено http://site.ru/

User-agent: *
Disallow:
# всем ботам, кроме бота Яндекса, разрешено посещение всех страниц и
# папок на сайте


Запретить сайт к индексации полностью можно с помощью такого файла robots.txt

Код
User-agent: *
Disallow: /


Наиболее актуальные для Рунета, на мой взгляд, боты:
(думаю, даже расшифровывать не требуется)
Yandex
Googlebot
StackRambler
Aport

Более полным списком не вижу смысла загромождать топик, кому интересно - обращайтесь в личку - вышлю.

Рекомендации по запрету к индексации
Что не следует указывать в файле robots.txt:
- папки с административными файлами
- файлы, о которых посторонним вообще знать не стоит
Прописывание путей к данным частям сайта может породить нездоровый интерес и попытки совершения зловредных действий, рады которым Вы уж точно не будете. К тому же есть и альтернативные способы запрета посещения и индексации ботами страниц.

Стоит запретить к индексации:
- документы "для печати"
- папки со скриптами
- папки с картинками (если у Вас не предвидится целевой аудитории с поиска по картинкам)
- сервисные страницы, такие как, например, страница с формой отправки письма администрации, схема проезда

Ошибки, допускаемые при составлении robots.txt
Как не надо делать:
Имя файла содержит заглавные буквы – Robots.txt или ROBOTS.TXT
Файл robots.txt размещается не в корневой директории
Пустая строка после поля User-agent
Отсутствие директивы Disallow
Использование в поле Disallow символов подстановки или регулярных выражений, например: "?", "*"
Больше одной строки "Disallow: *"


Пример ничего не запрещающего robots.txt
(основное зеркало site.ru)

Код
User-agent: *
Disallow:

User-agent: Yandex
Disallow:
Host: site.ru


Список не полный и будет дополняться по мере поступления идей с ошибками.

Сообщение отредактировал AleM - Aug 11 2006, 11:54
Go to the top of the page
 
+Quote Post
teg
сообщение May 18 2006, 14:20
Сообщение #2


Гуру
******

Группа: Members
Сообщений: 1201
Регистрация: 11.1.2006
Из: Нижний Новгород




+5, ясно, просто, доходчиво
не мешало бы имена ботов некоторые написать )
Go to the top of the page
 
+Quote Post
AleM
сообщение May 18 2006, 14:44
Сообщение #3


Ушёл в себя...
******

Группа: Members
Сообщений: 1327
Регистрация: 8.6.2005
Из: Днепропетровск




Учитывая пожелания teg назвал основных ботов по именам.
Go to the top of the page
 
+Quote Post
uniks
сообщение May 18 2006, 16:46
Сообщение #4


Магистр
*******

Группа: Junior Admin
Сообщений: 5659
Регистрация: 23.9.2005
Из: Иркутск




Напиши, что рекомендуется запрещать: скрипты, картинки и.т.д с примером, так будет доходчевее.
Go to the top of the page
 
+Quote Post
AleM
сообщение May 18 2006, 17:46
Сообщение #5


Ушёл в себя...
******

Группа: Members
Сообщений: 1327
Регистрация: 8.6.2005
Из: Днепропетровск




2 uniks
Примеров же привёл вроде бы предостаточно.
Я конечно понимаю, что найдутся и те, которые неувидят их, но не писать же на каждый случай пример? Так страниц на десять растянуть можно будет smile.gif
Go to the top of the page
 
+Quote Post
evguenyk
сообщение May 18 2006, 19:30
Сообщение #6


Синий Орел (печать Майя)
*******

Группа: Members
Сообщений: 2038
Регистрация: 10.5.2006
Из: Саратов




хорошо расписал... 5+
у меня есть вопрос, на который никак не могу найти ответа..
есть site.ru и есть куча sub.site.ru (контент разный), мне нужно, чтобы это определялось как разные сайты. насколько я пока понял (по опыту других своих сайтов) - если просто не писать роботс.тхт, то всё будет респект... но можно ли как-то это сделать при помощи роботс, чтоб уж наверняка..
Go to the top of the page
 
+Quote Post
rahowa
сообщение May 18 2006, 19:57
Сообщение #7


мАхновец
******

Группа: Members
Сообщений: 846
Регистрация: 21.12.2005
Из: Москва




Цитата(AleM @ May 18 2006, 14:58)
Рекомендации по запрету к индексации
Стоит запретить к индексации:
  - документы "для печати"


Почему?
Go to the top of the page
 
+Quote Post
cd-info
сообщение May 18 2006, 20:38
Сообщение #8


webmaster
*******

Группа: Старожилы
Сообщений: 2247
Регистрация: 13.4.2006
Из: город Горький




Хочу от гугля спрятать продажную страницу.

User-agent: Googlebot
Dissalow: /contract.html

так правильно???
Go to the top of the page
 
+Quote Post
AleM
сообщение May 18 2006, 21:35
Сообщение #9


Ушёл в себя...
******

Группа: Members
Сообщений: 1327
Регистрация: 8.6.2005
Из: Днепропетровск




2 rahowa
Потому что страница для печати обычно делается без навигации, но зачастую более релевантна запросу чем основная.

2 cd-info
Да, правильно, есле запрет касается только Гугля.
Go to the top of the page
 
+Quote Post
Cron
сообщение May 18 2006, 22:08
Сообщение #10


разнорабочий
******

Группа: Старожилы
Сообщений: 959
Регистрация: 6.1.2006
Из: зона отчуждения




Ага, я тоже не понял, про версию для печати. Она же может быть вообще хорошо релевантна, а не только по сравнению с непечатной версией. А немножко навигации прикрутить можно. Типа логический путь документа на сайте.
Go to the top of the page
 
+Quote Post
Vox
сообщение May 18 2006, 23:30
Сообщение #11


newbie
**

Группа: Members
Сообщений: 66
Регистрация: 22.3.2006
Из: Москва




Цитата(Cron @ May 18 2006, 23:08)
Ага, я тоже не понял, про версию для печати. Она же может быть вообще хорошо релевантна, а не только по сравнению с непечатной версией. А немножко навигации прикрутить можно. Типа логический путь документа на сайте.
*

Страница для печати может попасть в выдачу, и зашедший на нее пользователь не сможет двигаться дальше по сайту. Например в соседние разделы. А если прикручивать всю навигацию - это уже не будет страница для печати smile.gif

ИМХО, лучше запрещать.
Go to the top of the page
 
+Quote Post
rahowa
сообщение May 19 2006, 13:28
Сообщение #12


мАхновец
******

Группа: Members
Сообщений: 846
Регистрация: 21.12.2005
Из: Москва




Цитата(AleM @ May 18 2006, 22:35)
2 rahowa
Потому что страница для печати обычно делается без навигации, но зачастую более релевантна запросу чем основная.

2 cd-info
Да, правильно, есле запрет касается только Гугля.
*


Хм... всегде есть кнопка посмотреть полную версию и перейти на сайт, если посетителя заинтересует материал уж он то найдет куда ткнуть чтоб почитать остальное.
Go to the top of the page
 
+Quote Post
Nov
сообщение May 19 2006, 14:22
Сообщение #13


Worlds Collider
******

Группа: Moderators
Сообщений: 1578
Регистрация: 25.4.2005




если сайт сделан на xsl , страницы генерятся из кусков,
адресная строка выглядит следующим образом - www.sitename/directory/katalogi/
(т.е. нет традиционного .хтмл или .пхп в адресе)

а мне нужно ету страницу запретить к индексации

стоит ли тогда писать

User-agent: *
Dissalow: /directory/katalogi/
Go to the top of the page
 
+Quote Post
Topcrust
сообщение May 19 2006, 14:46
Сообщение #14


newbie
**

Группа: Members
Сообщений: 80
Регистрация: 20.3.2006




Имеет ли значение последовательность:
Код
User-Agent: *
Disallow:

User-Agent: Yandex
Disallow:
Host: site.ru

или
Код
User-Agent: Yandex
Disallow:
Host: site.ru

User-Agent: *
Disallow:
Go to the top of the page
 
+Quote Post
teg
сообщение May 19 2006, 15:30
Сообщение #15


Гуру
******

Группа: Members
Сообщений: 1201
Регистрация: 11.1.2006
Из: Нижний Новгород




Цитата(Topcrust @ May 19 2006, 12:46)
Имеет ли значение последовательность:
Код
User-Agent: *
Disallow:

User-Agent: Yandex
Disallow:
Host: site.ru

или
Код
User-Agent: Yandex
Disallow:
Host: site.ru

User-Agent: *
Disallow:

*

если не ошибаюсь - сначала лучше конкретику, а потом все остальное, тобиш 2 вариант
Go to the top of the page
 
+Quote Post
SCORPION
сообщение May 20 2006, 12:33
Сообщение #16


Местный житель
******

Группа: Moderators
Сообщений: 1751
Регистрация: 4.11.2005
Из: МТ




Хорошая тема! Респект AleM!
Go to the top of the page
 
+Quote Post
cd-info
сообщение May 20 2006, 19:17
Сообщение #17


webmaster
*******

Группа: Старожилы
Сообщений: 2247
Регистрация: 13.4.2006
Из: город Горький




А МОЖНО ЛИ С ПОМОЩЬЮ ЭТОГО ФАЙЛА РАЗДЕЛИТЬ ЗЕРКАЛА?

У меня 2 сайта.

site.ru и site.narod.ru

site.narod.ru стал зеркалом site.ru, я хочу чтобы эти 2 сайта были в серпе.
Как поступить?

Загрузить на site.narod.ru вот такой тест, поможет?

User-Agent: Yandex
Disallow:
Host: site.narod.ru
Go to the top of the page
 
+Quote Post
mark
сообщение May 20 2006, 19:58
Сообщение #18


In Web We Trust
*******

Группа: Moderators
Сообщений: 6306
Регистрация: 28.3.2005
Из: Диван




2cd-info
не стоит, зеркальщика заклинить может, и как он поведет себя и что сделает зеркалом не извесно, лучше выжимай из зеркала все бонусы на основной, да и в серпе зеркало не нужно
Go to the top of the page
 
+Quote Post
cd-info
сообщение May 20 2006, 22:16
Сообщение #19


webmaster
*******

Группа: Старожилы
Сообщений: 2247
Регистрация: 13.4.2006
Из: город Горький




Цитата(mark @ May 20 2006, 20:58)
2cd-info
не стоит, зеркальщика заклинить может, и как он поведет себя и что сделает зеркалом не извесно, лучше выжимай из зеркала все бонусы на основной, да и в серпе зеркало не нужно
*


да это понятно.
Но бывает так что сайт влетает в даун, проблема хостера и т.д... а тут хоть site.narod.ru работать будет.
Всёж narod самый надёжный хостинг из безплатных хоть и с кучей минусов.
Кстати это только Яндекс зазеркалил site.narod.ru в остальных идут раздельно. smile.gif
Go to the top of the page
 
+Quote Post
cd-info
сообщение May 20 2006, 22:24
Сообщение #20


webmaster
*******

Группа: Старожилы
Сообщений: 2247
Регистрация: 13.4.2006
Из: город Горький




Цитата(cd-info @ May 20 2006, 20:17)
А МОЖНО ЛИ С ПОМОЩЬЮ ЭТОГО ФАЙЛА РАЗДЕЛИТЬ ЗЕРКАЛА?

У меня 2 сайта.

site.ru и site.narod.ru

site.narod.ru стал зеркалом site.ru, я хочу чтобы эти 2 сайта были в серпе.
Как поступить?

Загрузить на site.narod.ru вот такой тест, поможет?

User-Agent: Yandex
Disallow:
Host: site.narod.ru
*


а всё же поможет это или нет?
Go to the top of the page
 
+Quote Post

21 страниц V   1 2 3 > » 
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 



RSS Текстовая версия Сейчас: 30th July 2010 - 18:42
  Rambler's Top100