Robots.txt – специальный файл, который ограничивает доступ поисковым роботам к определенным страницам или разделам сайта. Любой поисковый робот при посещении любого сайта первым делом обращается к этому файлу, а уже только потом начинает сканировать сайт. Размещается файл Robots.txt в корневом каталоге сайта (он должен быть доступен по адресу сайт.org/Robots.txt).
Размещение данного файла не обязательно, но крайне желательно, если вам важна индексируемость вашего сайта, а также переходы посетителей с поисковых систем. В этой статье я расскажу о настройке файла robots.txt для блогов на движке Wordpress, а также опишу основные директивы этого файла.
Файл Robots.txt состоит из записей и каждая запись начинается с директивы, указывающей действия для поисковой системы. Вот эти директивы мы сейчас и рассмотрим.
Директивы файла Robots.txt
User-agent – так называемый сетевой протокол. Простыми словами, роботы каждой поисковой системы имеют сетевую подпись, с помощью которой можно определить, что это за поисковая система.
Disallow – запрет индексации страницы, раздела сайта, либо всего сайта.
Allow – разрешает доступ к странице либо разделу сайта. Используется в тех случаях, если, к примеру, вам надо запретить доступ роботам к разделу /photo/, но нужно разрешить проиндексировать какую-нибудь страницу с фотографией в разделе фото /photo/robots.jpeg.
Crawl-delay – с помощью этой директивы можно установить задержку между загрузками роботами страниц. В принципе, бесполезная директива, так как поисковые машины сами делают задержку в несколько секунд между загрузкой страниц.
Host – помогает поисковику определить, какой использовать домен, с www или него.
Примеры использования файла Robots.txt
Запрет индексации всего сайта всем поисковым роботам:
PHP код:
User-agent: *
Disallow: /
Значение «*» возле User-agent означает, что нижестоящие директивы указывают действия всех роботов. Слеш (/) говорит о том, что доступ запрещается к корневой директории сайта.
Запрет доступа поисковому роботу яндекса к разделу форум:
PHP код:
User-agent: yandex
Disallow: /forum/
Устанавливаем задержку в 5 секунд при загрузке страниц всем поисковым роботам:
PHP код:
User-agent: *
Crawl-delay: 5
Разрешаем доступ к единственной странице /news/i_am_webmaster.html в разделе /news/:
PHP код:
Allow: /news/i_am_webmaster.html
Disallow: /news/
Указываем Яндексу, что использовать нужно домен без www:
PHP код:
User-agent: yandex
Host: webmasters.ru
В Robots.txt также можно добавить ссылку на карту сайта, выглядеть это будет вот так:
PHP код:
Sitemap: webmasters.ru/sitemap.xml
Зачем нужен Robots.txt
В первую очередь, файл Robots.txt нужен для того, чтобы исключить дублированный контент в пределах одного домена, а также исключить не представляющие особого интереса для поисковых систем страницы, такие как форма регистрации пользователей, страница голосований, форма входа в панель управления и другие страницы, не несущие особой смысловой нагрузки.
Дело в том, что если вы разрешите поисковым роботам индексировать все подряд, то при большем количестве дублированного контента в пределах домена, а также при наличии большого количество ненужных страниц, вы можете попасть под фильтры поисковых систем, а то и вообще в бан.
Настройка Robots.txt для Wordpress
В движке Wordpress нет встроенного файла Robots.txt, поэтому нужно его добавить самостоятельно. К применению на своих блогах я бы рекомендовал следующий формат Robots.txt (но вы можете его редактировать как угодно). Теги я не закрывал и комментарии тоже.
Очень полезная статья. Раньше я не придавал этому большого значения, но потом, когда начал расследовать причины тормозов сайтов на VDS, решил запретить роботам все ненужные страницы. И нагрузка кстати снизилась, причем заметно...