Как проверить robots.txt и зачем он нужен?
Текстовый файл, содержащий инструкции для поисковых роботов и расположенный в корневом каталоге на вашем сайте носит название Robots.txt. С его помощью становится возможным запрещение индексации выбранных вами страниц или разделов на вашем сайте, в также определение основного зеркала сайта. Также он поможет в указании путей к файлу sitemap. Robots.txt может быть очень полезным, например, для закрытия тех. разделов сайта от индексации. Ведь если у вас открыты эти страницы, то робот поисковой системы может удалить их. А вместе с ними поисковик может закрыть от пользователей и нужные страницы вашего сайта.
Проверка
Возникает естественный вопрос: как проверить robots.txt? Чтобы узнать правильность настроек, воспользуйтесь Яндексом. Зайдите в вебмастер с названием Анализ robots.txt. Там вписываете в поле имя домена, который нужно проверить и смотрите список ошибок. Теперь вы знаете, как проверить robots.txt.
Создание robots.txt
Для создания файла robots.txt воспользуйтесь обычным блокнотом, поместив его в корневой каталог сайта. Робот поисковой системы в первую очередь прочтет этот файл с инструкциями, когда зайдет на ваш сайт.
Настройка
Для того чтобы настроить robots.txt, используются директивы User-agent и Disallow. С помощью User-agent можно определить поискового робота, выполняющего запрет на индексацию, прописанный в Disallow. К примеру, вы настроили robots.txt так: User-agent:* Disallow:/. При этом будет запрещен к индексации весь ваш сайт для каких бы то ни было поисковых систем.. Если же вслед за Disallow прописан дальнейший путь к файлу или каталогу, робот автоматически перестает их индексировать. Если вы хотите, чтобы строка работала, прописывайте в ней только один путь. Если же вам требуется открыть файл к индексации, нужно воспользоваться командой Allow.
Дополнительные директивы
Если у вас на сайте имеется не одно зеркало, то в robots.txt нужно использовать директиву Host, указывающую на основное зеркало сайта. Именно оно и будет всплывать в выдачах поисковиков.
Другая директива — Sitemap помогает роботу определить местонахождение файла с картой вашего сайта.
С помощью директивы Crawl-delay можно задержать поискового робота между загрузкой страниц сайта. Это эффективно, если у вас на сайте имеется много страниц. При выставленной директиве Crawl-delay: 5 будет пятисекундная пауза между загрузками страниц.
За периодичностью загрузки роботом страниц следит директива Request-rate. Если вы выставите Request-rate: 1/10, то страница будет загружаться один раз в 10 секунд.
Директивой Visit-time определяется промежуток времени, когда поисковому роботу можно загружать страницы. Время выставляется по Гринвичу Visit-time: 0400-0600.
Ошибки настройки
Важно знать, как проверить robots.txt еще и потому, что ошибка настройки файла robots.txt может открыть поисковику страницы, которые содержат конфиденциальную информацию, при этом может быть запрет к индексации нужных страниц.
Тема освещена наиболее широко — автору +..