Яндекс/Google игнорирует robots.txt

Скрыть страницы от индексации... Время от времени слышу или читаю такое утверждение – что гугл или яндекс игнорирует файл роботс.
На самом деле это не так, или – не совсем так.
Continue Reading →

VN:F [1.9.7_1111]
Rating: 9.0/10 (2 votes cast)
VN:F [1.9.7_1111]
Rating: +1 (from 1 vote)

Сео-подлости 404-й ошибки

Спросили тут у меня, что такое “директ 404″…

И, разумеется, имелась в виду редирект браузера на страницу, отвечающую ошибке 404…

Что это? Зачем это нужно?

Если очень коротко: 404 – отсутствующая страница. Если вы напишете в адресной строке адрес страницы, которой на сайте нет, вам должна быть показана именно она. Обычно это страница в дизайне сайта, на которой крупно указано, что вы ошиблись и пытаетесь найти несуществующее.

Люди порою недооценивают важность этой страницы, потому что, например, считают, что на их-то сайте такая страница не нужна.

Но, знаете… нужна всем. По нескольким причинам. Основная – вы не можете отвечать за все случайные сбои при печатании кем-то адреса – палец соскользнул и пользователь ввел не тот адрес… Или у вас сайт настолько разросся, что вы просто не успеваете отслеживать все адреса – где-то удалили страницу или изменили ее адрес, а с других ваших страниц или тем более с других сайтов стоят ссылки. И?

ВАРИАНТ 1, ИДЕАЛЬНЫЙ

Красивая страница ошибки 404 Вы позаботились о том, что на вашей странице ошибки приятное глазу объяснение ситуации и приглашение перейти по меню или еще как-то на другие страницы сайта. Это уважение к посетителям.

ВАРИАНТ 2, ХОСТЕР НЕ ОШИБАЕТСЯ

Вы профукали возможность удержать посетителя, и по битой ссылке ваш сайт перезагружается на страницу 404 ошибки, созданную хостером. Самый неприятный при этом минус – меняется адрес в строке браузера. Нажатие кнопки возврата ничего не дает – браузер возвращается на неправильный адрес, а с него – на страницу хостера. Неопытный пользователь просто плюнет на ваш сайт. Опытный – плюнет с удовольствием:) Если хостер достаточно великодушен – он воткнет куда-нибудь ссылку на главную страницу вашего сайта. И все же это – отстой!

ВАРИАНТ 3, БЕЛЫЙ ЛИСТ
404

За вас подумал Билл Гейтс. Отстой.

ВАРИАНТ 4, “УМНАЯ” CMS, “УМНЫЙ” ХОСТЕР РЕДИРЕКТЯТ НА ПЕРВУЮ СТРАНИЦУ ВАШЕГО САЙТА

Здесь есть два подварианта: вам реально редиректят, с изменением урла в браузерной строке, либо визуально редиректят, а урл оставляют прежним. Оба подварианта при кажущемся удобстве являются очень подлыми как в смысле понимания происходящего как пользователем, так и поисковиком.

Пользователь считает, что он перешел на внутреннюю страницу. И бывает забавно, если битая ссылка стоит с главной. Он нажимает на нее, ему показывается та же главная, а урл в строке браузера сменился на внутреннюю. Ты просто зависаешь на некоторое время, пытаясь понять, что же происходит:)

Если же мы говорим о поисковике, то с его точки зрения страница, скорее всего, существует. Почему же нет? Ссылка на нее есть, она открывается. А то, что текст совпадает с главной – так это проблема вебмастера, потому что… потому что это дубль и позиции сайта из-за него за-ни-жа-ют-ся!

ВАРИАНТ 5, “УМНЫЙ” ВЕБМАСТЕР

Практически это тоже подвариант предыдущего пункта. Но, если там вебмастер как бы не виноват, за него решили, то тут – его воля. Многие цмски разрешают указать в настройках, какую страницу сайта открывать в случае отсутствия запрашиваемой. Собственно, это отличная возможность красиво нарисовать свою 404-ую, но некоторые, не мудрствуя, ставят туда либо главную страницу сайта, либо страницу с картой сайта.

Проблема опять же в том, что мы сами себе создаем дубли на сайте. Достаточно поставить с нескольких источников ссылки на ваш сайт на несуществующие страницы, рано ли поздно ли они проиндексируются, затем войдут в индекс страницы, на которые ведут эти ссылки и – позиции акцептора снизятся.

Позволю себе сделать здесь дополнение: даже если вы нарисовали в цмске красивую 404-ю, и указали ее в настройках, возможно, система открывает пользователю эту страницу, но поисковикам не отдается сообщение об ошибке. Проверьте, что все работает как надо.

Несуществующие физически страницы не должны ни в коем случае отдавать сообщение, что они существуют. Проверить это можно, например, на сайте http://bertal.ru/ Если страница на самом деле существует, она должна отдавать код 200 ОК, если на самом деле не существует – ошибку 404. Любые другие варианты надо разбирать и исправлять.

Стандартное решение в этом варианте – добавить строчку в файл .htaccess с указанием адреса страницы ошибки: ErrorDocument 404 /404.html Вместо 404.html может быть указана любая ваша страница.

________________________________________

Реалии сео таковы, что для того, чтобы выйти в топ, надо строить все более и более качественные сайты – как в смысле повышения качества наполняющих их текстов, так и с точки зрения юзабилити, с технической стороны…

Напоследок дам подсказку, как достаточно просто найти битые ссылки на своем сайте. Да и не только на своем. Да и не только битые ссылки… Ответ: скачать, установить себе программу XENU и прогнать домен при ее помощи.

О некоторых особенностях программы xenu.

Удачи в продвижении!

VN:F [1.9.7_1111]
Rating: 10.0/10 (1 vote cast)
VN:F [1.9.7_1111]
Rating: +1 (from 1 vote)

Отличная индексация ссылок из блогов в ротапост

Это без шуток.

Щас мы тут всё осветим и всех просветим... После того, как число купленных ссылок в ротапост превысило 300, я решил проверить их индексацию. Вообще-то интереснее проверить эффект ссылок, потому что сам по себе факт индексации говорит еще мало о чем. И все же.

Проверять начал с самых первых, за два дня (есть же еще много и другой работы) проверил вплоть до 18 ноября. Ну а сегодня был апдейт, и я решил далее не проверять, поскольку картина как-то уже получилась бы несколько смазанной – все же логичнее смотреть между апами.

Замечу, что нередко в момент подтверждения размещения уже видно, что ссылка в индексе. Необходимость проверки была обусловлена еще неприятным предположением, что яндекс может очень быстро индексировать часто обновляющиеся блоги, но после некоторого времени выбрасывать неинтересное для поиска из индекса. Общее впечатление после проверки – да нет, все нормально…

Еще есть один непонятный пока мне момент. Проверял я одновременно кнопкой бара от page promoter в самом яндексе. Так вот: иногда бар показывает, что ссылка не в индексе, а поиск в яндексе – что все ок, и кэш есть. Иногда наоборот… Если у кого-то есть нормальная гипотеза – почему так, послушаю с удовольствием.

Ну и сами цифры, проверка была, напоминаю, 22-23 декабря:

всего взято ссылок находится в индексе %
сентябрь 2010 35 28 80%
октябрь 2010 94 90 96%
ноябрь, до 18-го 53 46 87%
всего из проверенного 182 164 90%

Я не поленюсь проверить эти цифры через полгода, год:)

VN:F [1.9.7_1111]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.7_1111]
Rating: 0 (from 0 votes)

Удалить https из индекса

Тссс!Задача появилась как следствие распи… равнодушного отношения вебмастера клиента к своим прямым обязанностям.

Этот долбо… молодой неопытный специалист в меню сайта в одном месте по непонятным мне соображениям поставил вместо http:// и так далее лишнюю буковку: https://

Робо-яндекс бодро сбегал ссылкой глупою по сайту… Не увидел там ошибки, дублей в индекс покидал…
Весь сайт проиндексировался дважды: как http-версия и как https-версия.

И все позиции нафиг просели…

Как удалить дубли?

Ну, первым делом мы поправили меню. Ок… кроме того, что из индекса дубли не ушли.

Попробовали покидать в deleteurl – нет оснований для удаления!

Поставили через .htaccess редирект 301. Онлайн всё перекидывает, как полагается, но время идет, а в индексе остаются дубли! И опять нет оснований для удаления у ***** яндекса…

Дело в том, кто не знает, что удалить страницу из индекса можно, только:
1)удалив ее физически,
2)поставив запрет на индексацию в robots.txt
3)поставив запрет на индексацию в мета-теге страницы

Но как физически удалять тематическую страницу сайта, особенно продвигаемую?

И как закрыть в роботс, если там пишется только относительный путь, типа /page15.html?

У меня появилась идея, не нашедшая отклика в тревожной душе заказчика: поочередно ставить метатег noindex на всех страницах-дублях, выкидывать их из индекса через deleteurl, по факту вылета из индекса удалять метатег и снова вводить в индекс.

Вот как хитроумно мыслил я проблему обойти!

Я ходил к друзьям сеошным, и ответ давали быстро:

на хостинге обязано быть две папки – под http и под https, просто кинь роботс с Disallow: / в папку версии https!

Только нет такой там папки! В общем, дело было швах…

Но подумал я внезапно – неужели я был первый, кто с проблемою столкнулся, и поискал в сети…

И поиском нашел простое, но такое изящное решение:

В .htaccess указать, что для https-версии роботс имеет другое название. Да-да-дА-ДА! Я всю свою сео-жизнь думал, что название файла роботс должно быть robots.txt и никак не иначе, а оказывается, все это регулируется невидимым для посетителей сайта .htaccess!!!

Конкретная инструкция:

Для второго своего, ненормального роботс создаем текстовый файлик, например, под названием robots-https.txt Прописываем необходимые инструкции, для меня это всего-то пара строчек

User-agent: *
Disallow: /

Размещаем в корне сайта.

А в .htaccess прописываем правило

RewriteEngine on
RewriteCond %{HTTPS} on
RewriteRule ^robots.txt$ robots-https.txt

______________________________________

Ха! Это работает на ура!

P.S. Пока писал пост, задумался – а что мешает таким образом скрыть от взгляда пытливых посетителей обычный роботс? ДА НИЧЕГО!

VN:F [1.9.7_1111]
Rating: 5.5/10 (4 votes cast)
VN:F [1.9.7_1111]
Rating: +5 (from 5 votes)