Файл robots.txt
  • хочу убрать дубль - index.php
    все страницы на сайте имеют такой вид:
    http://www.site.ru/index.php?option=com_co...&Itemid=201

    такой роботс правильно написан?

    Disallow: /index.php?option=com_frontpage&Itemid=1
    Allow: /index.php?option
    Disallow: /index.php
    Disallow: /index2.php

    Sitemap: http://www.site.ru/index2.php?option=com_s...p&no_html=1
    Host: www.site

  • 1kov, не хватает записи User-agent, лишняя пустая строка между Disallow и Sitemap.
  • 1kov, не хватает записи User-agent, лишняя пустая строка между Disallow и Sitemap.

    ну это концовка стандартного джумловского роботса, я лишнее не стал выкладывать. Насчет строчки понял.
    А Allow и Disallow не противоречат друг другу? по логике страницы не должны вылететь...
  • Код
    User-agent: *
    Disallow: /search.php


    Правильно ли, что закроются все страницы с адресом /search.php?bla-bla-bla ?
  • А Allow и Disallow не противоречат друг другу? по логике страницы не должны вылететь...

    Нет не противоречат, но есть небольшая оговорка, вначале пишите Disallow а ниже Allow, тоесть вначале запрещаете а потом (что вам нужно) разрешаете.
  • Код
    User-agent: *
    Disallow: /search.php


    Правильно ли, что закроются все страницы с адресом /search.php?bla-bla-bla ?

    нет, только одна =)
    Код
    User-agent: *
    Disallow: /search.php*

    так надо
  • Нет не противоречат, но есть небольшая оговорка, вначале пишите Disallow а ниже Allow, тоесть вначале запрещаете а потом (что вам нужно) разрешаете.

    Наоборот, сначала Allow, а потом уже Disallow.
    Если же первым указать Disallow, то разрешающая директива не отработает.
    Источник - http://help.yandex.ru/webmaster/?id=996567#996571
  • Код
    User-agent: *
    Disallow: /search.php* # блокирует доступ к страницам, начинающимся с '/search.php'
    Disallow: /search.php   # то же самое
  • спасибо

    а для папок нужно просто слешем? /tmp/
  • Serg_pnz
    Если нужно запретить папку tmp и её содержимое:
    Disallow: /tmp/

    Если нужно запретить только папку tmp:
    Disallow: /tmp/$
  • На моём сайте в файле robots.txt указано:
    User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /components/
    Disallow: /images/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Сайту 4 месяца, проиндексировано очень мало страниц(около 20). Сайт использует компонент virtuemart . + У меня сайт расклеен, к примеру сайт site.com и www.site.com. Подскажите, что исправить в robots.txt?
    Будет ли правильным вариант:
    User-agent: *
    Disallow:
    Host: site.ru
  • Будет ли правильным вариант:
    User-agent: *
    Disallow:
    Host: site.ru


    Директиву Host понимает только Яндекс, на мой взгляд, лучше вот так:

    Код
    User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /components/
    Disallow: /images/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/

    User-agent: Yandex
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /components/
    Disallow: /images/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Host: site.ru
    Sitemap: http://site.ru/sitemap.xml


    Сформировать и разместить в корне файл sitemap.xml
    Правила его формирования можно просмотреть здесь: http://www.sitemaps.org/ru/

    Сайту 4 месяца, проиндексировано очень мало страниц(около 20).

    Выскажу предположение, что одним изменением robots.txt ситуацию с индексированием исправить не получится.
  • Скажите, на двух сайтах стояло в роботсе:

    Disallow: /

    это значит запрет инексации в всего сайта.

    Сейчас прописали заместо этого:

    Disallow: /cgi-bin/

    host: www.site.ru

    скажите, ведь эту папку обязательно закрыввать или нет, что она вообще значит?

    Просто сайт не попадает в Яндекс уже вторую неделю, хотя вебмастер показывает 11 внешних статейных ссылок, правда продвигать его начали когда еще стоял запрет на индексацию, но сейчас его сняли, а сайта нет в индексе, только домен, давно уже проиндексирован( тоже новый ) контент уникальный
  • Deus, данную папку (cgi-bin - папка cgi-скриптов) закрывать от индексации необязательно, но если на вашем сайте нет необходимости держать открытыми для индексации данную папку и скрипты в ней, то почему бы и не закрыть.
    Две недели в общем то не срок, но кто мешает задать вопрос первоисточнику, а именно саппорту Яндекса?
  • Привет всем. Может здесь кто ответит. Сайт на dle. Яша индексирует страницы вида:

    - www.site.ru/nazvanie_page.html

    а так же и

    - www.site.ru/category/nazvanie_page.html

    В итоге получаются дубли. Мне нужно оставить к индексации только страницы вида:

    - www.site.ru/category/nazvanie_page.html

    Но как запретить в robots.txt индексировать эти страницы:

    - www.site.ru/nazvanie_page.html

    Я не знаю! Подскажите пожалуйста?! :\">
  • Вопрос решён!!!
  • Здравствуйте!
    есть дубли страниц вида:

    ***.aspx?page=1&cat=6
    ***.aspx?cat=6

    ***.aspx?page=1
    ***.aspx

    Достаточно для запрета к индексации дублей вида page=1 такой строчки в robots?

    Disallow: /*?page=1*

    Нужно учитывать что страницы
    ***.aspx?page=2&cat=6
    ***.aspx?page=3&cat=6
    ***.aspx?page=2
    ***.aspx?page=3
    и т.д. дублями уже не являются
  • Не совсем понял, что является дублем чего, а что не является таковым и что нужно запретить от индексации, а что не запрещать.
  • ***.aspx?cat=6 основная страница
    ***.aspx?page=1&cat=6 страница открывается когда переходишь со 2/3/4 (***.aspx?page=2&cat=6, ***.aspx?page=3&cat=6) страницы на первую

    ***.aspx?page=1&cat=6 является дублем ***.aspx?cat=6

    Точнее
    ***.aspx?cat=6 на нее ведут ссылки
    ***.aspx?page=1&cat=6 закрыть от индексации
    ***.aspx?page=2&cat=6 нужная страница
    ***.aspx?page=3&cat=6 нужная страница

    Та же ситуация с другими категориями:
    ***.aspx?cat=7
    ***.aspx?page=1&cat=7 закрыть от индексации
    ***.aspx?page=2&cat=7 нужная страница
    ***.aspx?page=3&cat=7 нужная страница

    И так далее по всем категориям cat=

    Достаточно для запрета к индексации дублей page=1 такой строчки в robots?

    Disallow: /*?page=1*
  • Disallow: /*?page=1*

    Такая конструкция заодно запретит и страницы ***.aspx?page=10&cat=6, ***.aspx?page=11&cat=6, ***.aspx?page=100&cat=6.
    Лучше вот так Disallow: /*?page=1&
    Если у вас конечно нет страниц, где параметр page=1 стоит в середине (***.aspx?cat=6&page=1&j=2) или в конце (***.aspx?cat=6&page=1)
    Если и такие варианты надо запретить, тогда так:

    Disallow: /*?*page=1$ - запретит страницы с параметром page=1 в конце URL
    Disallow: /*?*page=1& - ну а здесь все остальные варианты нахождения параметра

Привет, незнакомец!

Похоже, Вы новенький! Чтобы начать обсуждение, кликните на одну из кнопок ниже ;)

Войти с помощью OpenID

Категории

В этой теме: