Файл robots.txt
  • User-agent: Yandex
    Disallow:
    Host: site.at.ua

    Відправив на Yandex
    Але пише Индексирование сайта запрещено в robots.txt
    Що я зробив неправильно?
  • User-Agent: Yandex
    Disallow: /forum/print.php
    Disallow: /servers/players.php
    Host: begame.net

    User-Agent: Googlebot
    Disallow: /forum/print.php
    Disallow: /servers/players.php

    User-Agent: StackRambler
    Disallow: /forum/print.php
    Disallow: /servers/players.php

    User-Agent: *
    Disallow: /forum/print.php
    Disallow: /servers/players.php

    парни, подскажите что не так здесь. Смотрю что гугл упорно индексирует файлы, которые выделил как не нужные. Мне надо чтоб весь сайт индексировался всеми поисковиками кроме страниц /servers/players.php и /forum/print.php
  • Подскажите по моим настройкам файла.
    У меня следующие директивы, они были сделаны не мной, а канторой которая продвигает мне сайт. Хочу узнать мнение разбирающихся людей. Все ли верно?

    User-agent: *
    Disallow: /*?_openstat
    Disallow: /*?from=begun
    Disallow: /*?banner_id
    Disallow: /bitrix/
    Disallow: /search/
    Disallow: /news/
    Host: www.site.ru

    Sitemap: www.site.ru/sitemap.xml

    User-agent: gigabot
    Disallow: /

    User-agent: Gigabot/2.0
    Disallow: /

    User-agent: msnbot
    Disallow: /

    User-agent: msnbot/1.0
    Disallow: /

    User-agent: ia_archiver
    Disallow: /

    User-agent: libwww-perl
    Disallow: /

    User-agent: NetStat.Ru Agent
    Disallow: /

    User-agent: WebAlta Crawler/1.3.25
    Disallow: /

    User-agent: Yahoo!-MMCrawler/3.x
    Disallow: /

    User-agent: MMCrawler/3.x
    Disallow: /

    User-agent: NG/2.0
    Disallow: /

    User-agent: slurp
    Disallow: /

    User-agent: aipbot
    Disallow: /

    User-agent: Alexibot
    Disallow: /

    User-agent: GameSpyHTTP/1.0
    Disallow: /

    User-agent: Aqua_Products
    Disallow: /

    User-agent: asterias
    Disallow: /

    User-agent: b2w/0.1
    Disallow: /

    User-agent: BackDoorBot/1.0
    Disallow: /

    User-agent: becomebot
    Disallow: /

    User-agent: BlowFish/1.0
    Disallow: /

    User-agent: Bookmark search tool
    Disallow: /

    User-agent: BotALot
    Disallow: /

    User-agent: BotRightHere
    Disallow: /

    User-agent: BuiltBotTough
    Disallow: /

    User-agent: Bullseye/1.0
    Disallow: /

    User-agent: BunnySlippers
    Disallow: /

    User-agent: CheeseBot
    Disallow: /

    User-agent: CherryPicker
    Disallow: /

    User-agent: CherryPickerElite/1.0
    Disallow: /

    User-agent: CherryPickerSE/1.0
    Disallow: /

    User-agent: Copernic
    Disallow: /

    User-agent: CopyRightCheck
    Disallow: /

    User-agent: cosmos
    Disallow: /

    User-agent: Crescent
    Disallow: /

    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
    Disallow: /

    User-agent: DittoSpyder
    Disallow: /

    User-agent: EmailCollector
    Disallow: /

    User-agent: EmailSiphon
    Disallow: /

    User-agent: EmailWolf
    Disallow: /

    User-agent: EroCrawler
    Disallow: /

    User-agent: ExtractorPro
    Disallow: /

    User-agent: FairAd Client
    Disallow: /

    User-agent: Fasterfox
    Disallow: /

    User-agent: Flaming AttackBot
    Disallow: /

    User-agent: Foobot
    Disallow: /

    User-agent: Gaisbot
    Disallow: /

    User-agent: GetRight/4.2
    Disallow: /

    User-agent: Harvest/1.5
    Disallow: /

    User-agent: hloader
    Disallow: /

    User-agent: httplib
    Disallow: /

    User-agent: HTTrack 3.0
    Disallow: /

    User-agent: humanlinks
    Disallow: /

    User-agent: IconSurf
    Disallow: /

    User-agent: InfoNaviRobot
    Disallow: /

    User-agent: Iron33/1.0.2
    Disallow: /

    User-agent: JennyBot
    Disallow: /

    User-agent: Kenjin Spider
    Disallow: /

    User-agent: Keyword Density/0.9
    Disallow: /

    User-agent: larbin
    Disallow: /

    User-agent: LexiBot
    Disallow: /

    User-agent: libWeb/clsHTTP
    Disallow: /

    User-agent: LinkextractorPro
    Disallow: /

    User-agent: LinkScan/8.1a Unix
    Disallow: /

    User-agent: LinkWalker
    Disallow: /

    User-agent: LNSpiderguy
    Disallow: /

    User-agent: lwp-trivial
    Disallow: /

    User-agent: lwp-trivial/1.34
    Disallow: /

    User-agent: Mata Hari
    Disallow: /

    User-agent: Microsoft URL Control
    Disallow: /

    User-agent: Microsoft URL Control - 5.01.4511
    Disallow: /

    User-agent: Microsoft URL Control - 6.00.8169
    Disallow: /

    User-agent: MIIxpc
    Disallow: /

    User-agent: MIIxpc/4.2
    Disallow: /

    User-agent: Mister PiX
    Disallow: /

    User-agent: moget
    Disallow: /

    User-agent: moget/2.1
    Disallow: /

    User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
    Disallow: /

    User-agent: MSIECrawler
    Disallow: /

    User-agent: NetAnts
    Disallow: /

    User-agent: NICErsPRO
    Disallow: /

    User-agent: Offline Explorer
    Disallow: /

    User-agent: Openbot
    Disallow: /

    User-agent: Openfind
    Disallow: /

    User-agent: Openfind data gatherer
    Disallow: /

    User-agent: Oracle Ultra Search
    Disallow: /

    User-agent: PerMan
    Disallow: /

    User-agent: ProPowerBot/2.14
    Disallow: /

    User-agent: ProWebWalker
    Disallow: /

    User-agent: psbot
    Disallow: /

    User-agent: Python-urllib
    Disallow: /

    User-agent: QueryN Metasearch
    Disallow: /

    User-agent: Radiation Retriever 1.1
    Disallow: /

    User-agent: RepoMonkey
    Disallow: /

    User-agent: RepoMonkey Bait & Tackle/v1.01
    Disallow: /

    User-agent: RMA
    Disallow: /

    User-agent: searchpreview
    Disallow: /

    User-agent: SiteSnagger
    Disallow: /

    User-agent: SpankBot
    Disallow: /

    User-agent: spanner
    Disallow: /

    User-agent: SurveyBot
    Disallow: /

    User-agent: suzuran
    Disallow: /

    User-agent: Szukacz/1.4
    Disallow: /

    User-agent: Teleport
    Disallow: /

    User-agent: TeleportPro
    Disallow: /

    User-agent: Telesoft
    Disallow: /

    User-agent: The Intraformant
    Disallow: /

    User-agent: TheNomad
    Disallow: /

    User-agent: TightTwatBot
    Disallow: /

    User-agent: toCrawl/UrlDispatcher
    Disallow: /

    User-agent: True_Robot
    Disallow: /

    User-agent: True_Robot/1.0
    Disallow: /

    User-agent: turingos
    Disallow: /

    User-agent: TurnitinBot
    Disallow: /

    User-agent: TurnitinBot/1.5
    Disallow: /

    User-agent: URL Control
    Disallow: /

    User-agent: URL_Spider_Pro
    Disallow: /

    User-agent: URLy Warning
    Disallow: /

    User-agent: VCI
    Disallow: /

    User-agent: VCI WebViewer VCI WebViewer Win32
    Disallow: /

    User-agent: Web Image Collector
    Disallow: /

    User-agent: WebAuto
    Disallow: /

    User-agent: WebBandit
    Disallow: /

    User-agent: WebBandit/3.50
    Disallow: /

    User-agent: WebCapture 2.0
    Disallow: /

    User-agent: WebCopier
    Disallow: /

    User-agent: WebCopier v.2.2
    Disallow: /

    User-agent: WebCopier v3.2a
    Disallow: /

    User-agent: WebEnhancer
    Disallow: /

    User-agent: WebSauger
    Disallow: /

    User-agent: Website Quester
    Disallow: /

    User-agent: Webster Pro
    Disallow: /

    User-agent: WebStripper
    Disallow: /

    User-agent: WebZip
    Disallow: /

    User-agent: WebZip
    Disallow: /

    User-agent: WebZip/4.0
    Disallow: /

    User-agent: WebZIP/4.21
    Disallow: /

    User-agent: WebZIP/5.0
    Disallow: /

    User-agent: Wget
    Disallow: /

    User-agent: wget
    Disallow: /

    User-agent: Wget/1.5.3
    Disallow: /

    User-agent: Wget/1.6
    Disallow: /

    User-agent: WWW-Collector-E
    Disallow: /

    User-agent: Xenu's
    Disallow: /

    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /

    User-agent: Zeus
    Disallow: /

    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /

    User-agent: Zeus Link Scout
    Disallow: /

    User-agent: Teoma
    Disallow: /

    User-agent: MLBot
    Disallow: /

    User-agent: yacybot
    Disallow: /

    User-agent: YodaoBot
    Disallow: /

    User-agent: daumoa
    Disallow: /

    User-agent: OOZBOT
    Disallow: /

    User-agent: Charlotte
    Disallow: /

    User-agent: daumoa
    Disallow: /

    User-agent: oBot
    Disallow: /

    User-agent: discobot
    Disallow: /

    User-agent: EvilRobot
    Disallow: /

    User-agent: NaverBot
    Disallow: /

    User-agent: Baiduspider
    Disallow: /
  • Есть вопрос про звездочки, они нужны?
    User-agent: Yandex
    Disallow: /files/*
    Disallow: /resourses/
    Disallow: /i/*
    Disallow: /registration/
    Disallow: /preg/
    Disallow: /profile/*
    Disallow: /confirm/
    Disallow: /exit/
    Disallow: /login/
    Disallow: /reset/
    Disallow: /pcounter/
    Disallow: /*?print=now
    Host: www.saite.ru

    User-agent: *
    Disallow: /files/*
    Disallow: /resourses/
    Disallow: /i/*
    Disallow: /registration/
    Disallow: /preg/
    Disallow: /profile/*
    Disallow: /confirm/
    Disallow: /exit/
    Disallow: /login/
    Disallow: /reset/
    Disallow: /pcounter/
    Disallow: /*?print=now

    Sitemap: http://www.example.com/sitemap.xml
  • Звёздочка это "жадный квантификатор" и означает любое количество любых символов и вынуждает захватить всё, что находится в данной директории.
  • Кто подскажет, что делать в такой ситуации:
    на сайте есть не совсем логичная струкутура site.ru/home/company и еще дальше могут быть вложенности. Но проблема в том, что site.ru/home/ и site.ru дубли. И ясно, что надо site.ru/home/ закрыть от индексации. Но если я правильно понимаю, то написать
    Disallow: /home/
    это значит закрыть и все остальные вложенности?
    Есть ли вариант закрыть только эту страницу?
    Или достаточно просто удалить урл в панели для вебмастера? Или 301 редирект решит проблему?
  • Есть ли вариант закрыть только эту страницу?

    Используйте спецсимвол '$'.
  • Такой вопрос. Изначально сайт был закрыт к индексации в роботсе. Потом открыл, сделав роботс таким:

    User-agent: *
    Disallow:
    Host: site.ru

    Добавил сайт в яндекс, но он стал говорить, что сайт закрыт от индексации. Прошло несколько апов, ситуация не поменялась. Теперь специально для яндекса сделал такой роботс:

    User-agent: *
    Disallow:

    User-agent: Yandex
    Disallow:
    Host: site.ru

    Результата - ноль. Самое интересное, что в вебмастере роботс отображается такой, какой он есть реально на сайте, то есть не запрещающий, однако яндекс считает, что сайт по-прежнему закрыт. В чем может быть проблема? Может, написать яндексоидам?
  • Добавил сайт в яндекс, но он стал говорить, что сайт закрыт от индексации.

    Закрыт или всё-таки "Указанный URL запрещен к индексации"?
  • имеет ли место следуюющий код?

    Код
    User-agent: *
    Disallow:

    Host: site.ru


    Тоесть директива Host только для Яндекса


    Или лучше написать вот так?

    Код
    User-agent: *
    Disallow:

    User-agent: Yandex
    Disallow:

    Host: site.ru

  • Давайте начнём с того, что в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после директив Disallow (Allow).
  • Закрыт или всё-таки "Указанный URL запрещен к индексации"?

    Пишет "документ запрещен к индексации в файле robots.txt"
  • Так что, чуваки, никто с данным траблом не сталкивался? Чтобы в роботсе сайт был открытым, а яндекс считал, что он закрыт в роботсе?
  • подскажите как запретить поддомен для индексации?
    для него нужен отдельный роботс? или как?
  • запрещенные в роботс.тхт страницы ,после аппдейта, все равно висят в индексе Яндекса , через какое время они должны уйти?

    Результаты проверки URL показывает , что эти страницы не индексируются , но когда они уйдут из панели?

    Джумла = Дубля
  • Ускоритель процесса удаления страниц из базы Яндекса: http://webmaster.yandex.ru/delurl.xml
  • Ускоритель процесса удаления страниц из базы Яндекса: http://webmaster.yandex.ru/delurl.xml


    дубли вылетели
  • Приветствую
    Проблема такова: переход по ссылке, где в конце каждого урл есть "/" и "#" приводит к тому, что попадаешь на такую же страницу, если бы "/" и "#" не было. Т.е., это фактически дубли страниц. А убирать эти символы в конце урлов крайне нежелательно.
    Вопрос: возможно ли такие нежелательные урлы закрыть в robots.txt и как?
  • Всем привет, увидел у товарища такую штуку в корне вордпреса

    User-agent: *
    Allow: /
    Disallow: /*.html$


    И что-то меня это здорово напрягает, если
    allow: /
    тоже что и
    disallow: /

    , то получается что запрещено все страницы типа
    Код
    site.ru/page.html
    ?

    А страницы у него все типа site.ru/page.html
  • веселенький сегодня день, поступил другой сайт, смотрю robotsи вижу Disallow: /.htaccess
    меня это развеселило B-)

Привет, незнакомец!

Похоже, Вы новенький! Чтобы начать обсуждение, кликните на одну из кнопок ниже ;)

Войти с помощью OpenID

Категории

В этой теме: