Яндекс/Google игнорирует robots.txt

Скрыть страницы от индексации... Время от времени слышу или читаю такое утверждение – что гугл или яндекс игнорирует файл роботс.
На самом деле это не так, или – не совсем так.

Введение в проблему: файл robots.txt должен располагаться в корне сайта, все про файл можно прочитать в стандартном хелпе Яндекса: http://help.yandex.ru/webmaster/?id=996567 Вебмастера частенько про него забывают, а оптимизаторы – оптимизаторы возлагают на него излишние надежды. Например, надеются, что прописывание правильного хоста в файле склеит версии cайта с www и без.

Основное назначение файла – запрет индексации определенных страниц или разделов сайта. При этом указывать их в роботсе можно как абсолютным адресом, так и по маске, подробнее читайте по ссылке вверху. Стоит упомянуть, что в этом же разделе помощи от яндекса можно поэкспериментировать с роботсом: http://webmaster.yandex.ru/robots.xml Не исправляя его физически на сервере, скачать, внести в виртуальную копию исправления/дополнения и тут же проверить, как они сработают… или не сработают. Соответственно, идеальный вариант реально залить на сервер.

Как быстро-быстро создать много-много страниц на сайте (подсказка строителю ГС): как раз не пользоваться роботсом. Завести что-то типа блога на вордпресс, в нем к каждому посту указывать по десятке тагов и дело в шляпе… Создание каждой странички будет генерировать десятка полтора страниц в поиске. Видимость большого сайта для тех оптимизаторов, кто предположительно будет покупать у вас ссылки…

Как помочь поднять позиции своего сайта при помощи роботс? Как раз пользоваться роботсом. А именно – закрывать в нем дубли.

А почему же яндекс игнорирует мои запреты в роботс? Вероятно, потому что он редко проводит переиндексацию вашего сайта. Если будете ждать у моря погоды у яндекса переиндексации, можете сидеть перед монитором полгода…

Помогите яндексу и себе, идите сюда: http://webmaster.yandex.ru/delurl.xml Не надо вводить никакой каптчи… Но, увы, урл за урлом придется вносить по одному… При этом страница либо должна физически отсутствовать (не открываться), либо должна быть запрещена в robots.txt… Сколько потом ждать удаления? Обычно дней 7-10…

А почему яндекс все удалил, а гугл никак не удаляет? Гугл обращает внимание на роботс, обращает… Но если он уже проиндексировал страницы, и вы надеетесь, что после внесения запрета в роботс они исчезнут… Опять же – долго будете ждать… Хотя гугл способен понимать, что страницы в индексе не все равноценны, он не удаляет полные или частичные дубли, а… прячет их в supplemental index, дополнительный поиск. И это досадно. Для того, чтобы гугл удалил из поиска уже проиндексированные им страницы, надо авторизоваться (о как, в яндексе не надо!), внести сайт в вебмастер гугла https://www.google.com/webmasters/tools/home?hl=ru , подтвердить права (разместить на сервере генерируемый гулом файлик), нажать последовательно в вебмастере гугла после выбора подтвержденного сайта: Конфигурация сайта, Доступ для сканера, Удалить урл, Создать запрос на удаление… Внести адрес страницы, которую вы хотите удалить и нажать еще раз на подтверждение…

Все это гораздо дольше, чем в яндексе. Плюс осложняется тем, что адрес страницы, которую вы хотите удалить, надо еще получить… Прямо их строки поиска она не копируется, у гугла там редирект… У яндекса зачастую тоже редирект, но какой-то особо умный, при копировании он сразу преображается в настоящий адрес, а гугл тупит…

Ну-с, написал я это потому, что как раз заметил: на сегодня в поиске яндекса с этого сайта участвует 68 страниц, реально создано – 90, а в гугле… аж 211. Если попробовать просмотреть эти 211, то увидим, что в основном-то поиске всего 72, то есть яндекс и гугл реально ищут и находят практически одно и то же: 68 и 72, ну и зачем мне эти сопли? (оптимизаторский сленг для supplemental index)

Только что отправил на удаление в гугле 50 дублей… Давайте глянем, сколько времени ему понадобится…

google webmaster

P.S. от 29 мая: чего-то реально грустно с этим гуглом, блин… Сегодня говорит, что в индексе 325 страниц, но при попытке просмотреть их тут же извиняется, что на самом деле 82, а остальное – “в опущенных результатах”:) Пока что яндекс, получается, адекватнее гугла…

Зашел в вебмастер – неее, те, что я ранее отправил на удаление – удалили… Число страниц вновь выросло потому, что я пишу новые сообщения, в них стоят новые метки, и гугл все это дело… да, он считает ссылки на странице важнее запретов в роботс… А после прямого запрета через вебмастер уже удаляет… Значит, надо прямо на странице запретить переходить по меткам!

_______________________

Дополняю страницу 11 июня 2011. Ее нашли в поисковике по запросу [robots.txt для yandex google].

Друзья мои, хотите указать в файле роботс одновременно указания для нескольких поисковиков? Тогда первой строчкой должно быть написано: User-agent: *

Хотите отдельно дать указания яндексу? Пропишите: User-agent: Yandex

Отдельно для гугла это будет: User-agent: Googlebot

Проще всего заглянуть в существующий роботс: http://follow-up.ru/robots.txt

VN:F [1.9.7_1111]
Rating: 9.0/10 (2 votes cast)
VN:F [1.9.7_1111]
Rating: +1 (from 1 vote)
Яндекс/Google игнорирует robots.txt, 9.0 out of 10 based on 2 ratings

Leave a Reply

Your email address will not be published.