Robots.txt – специальный файл, который ограничивает доступ поисковым роботам к определенным страницам или разделам сайта. Любой поисковый робот при посещении любого сайта первым делом обращается к этому файлу, а уже только потом начинает сканировать сайт. Размещается файл Robots.txt в корневом каталоге сайта (он должен быть доступен по адресу сайт.org/Robots.txt).
Размещение данного файла не обязательно, но крайне желательно, если вам важна индексируемость вашего сайта, а также переходы посетителей с поисковых систем. В этой статье я расскажу о настройке файла robots.txt для блогов на движке Wordpress, а также опишу основные директивы этого файла.
Файл Robots.txt состоит из записей и каждая запись начинается с директивы, указывающей действия для поисковой системы. Вот эти директивы мы сейчас и рассмотрим.
Директивы файла Robots.txt
User-agent – так называемый сетевой протокол. Простыми словами, роботы каждой поисковой системы имеют сетевую подпись, с помощью которой можно определить, что это за поисковая система.
Disallow – запрет индексации страницы, раздела сайта, либо всего сайта.
Allow – разрешает доступ к странице либо разделу сайта. Используется в тех случаях, если, к примеру, вам надо запретить доступ роботам к разделу /photo/, но нужно разрешить проиндексировать какую-нибудь страницу с фотографией в разделе фото /photo/robots.jpeg.
Crawl-delay – с помощью этой директивы можно установить задержку между загрузками роботами страниц. В принципе, бесполезная директива, так как поисковые машины сами делают задержку в несколько секунд между загрузкой страниц.
Host – помогает поисковику определить, какой использовать домен, с www или него.
Примеры использования файла Robots.txt
Запрет индексации всего сайта всем поисковым роботам:
PHP код:Значение «*» возле User-agent означает, что нижестоящие директивы указывают действия всех роботов. Слеш (/) говорит о том, что доступ запрещается к корневой директории сайта.User-agent: *
Disallow: /
Запрет доступа поисковому роботу яндекса к разделу форум:
PHP код:Устанавливаем задержку в 5 секунд при загрузке страниц всем поисковым роботам:User-agent: yandex
Disallow: /forum/
PHP код:Разрешаем доступ к единственной странице /news/i_am_webmaster.html в разделе /news/:User-agent: *
Crawl-delay: 5
PHP код:Указываем Яндексу, что использовать нужно домен без www:Allow: /news/i_am_webmaster.html
Disallow: /news/
PHP код:В Robots.txt также можно добавить ссылку на карту сайта, выглядеть это будет вот так:User-agent: yandex
Host: webmasters.ru
PHP код:Зачем нужен Robots.txtSitemap: webmasters.ru/sitemap.xml
В первую очередь, файл Robots.txt нужен для того, чтобы исключить дублированный контент в пределах одного домена, а также исключить не представляющие особого интереса для поисковых систем страницы, такие как форма регистрации пользователей, страница голосований, форма входа в панель управления и другие страницы, не несущие особой смысловой нагрузки.
Дело в том, что если вы разрешите поисковым роботам индексировать все подряд, то при большем количестве дублированного контента в пределах домена, а также при наличии большого количество ненужных страниц, вы можете попасть под фильтры поисковых систем, а то и вообще в бан.
Настройка Robots.txt для Wordpress
В движке Wordpress нет встроенного файла Robots.txt, поэтому нужно его добавить самостоятельно. К применению на своих блогах я бы рекомендовал следующий формат Robots.txt (но вы можете его редактировать как угодно). Теги я не закрывал и комментарии тоже.
PHP код:User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Allow: /wp-content/uploads/
Disallow: /wp-content/
Disallow: /page/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Sitemap: http://VashSait.ru/sitemap.xml
Host: VashSait.ru
- 28.05.2010 20:29
Последний раз редактировалось grazer; 28.05.2010 в 20:31.
- 29.05.2010 00:23
Очень полезная статья. Раньше я не придавал этому большого значения, но потом, когда начал расследовать причины тормозов сайтов на VDS, решил запретить роботам все ненужные страницы. И нагрузка кстати снизилась, причем заметно...
- 01.06.2010 13:28
Есть еще неплохой ресурс по теме от Ктулху :) - http://robotstxt.org.ru/
- 08.08.2010 15:22
можно ещё для Яху доступ закрыть совсем.
ибо его бот весьма неплохо нагружает сайт - 12.08.2010 11:40
Яху закрывать доступ лучше с htaccess
а robots.txt крутая штука когда научишься правильно использовать! - 12.08.2010 12:12Junior Member

- Регистрация: 17.07.2010
- Сообщений: 4
- Репутация: 10
полезно
спасибо :)
Вроде знаеш - а всегда под руками нету этих записей :) - 16.08.2010 21:03
- 19.09.2010 15:20
Я вот вообще не применяю это Robots.txt и считаю что он не нужен
- 22.09.2010 13:28
- 22.09.2010 15:40
Тэги топика:
Похожие темы
| Темы | Раздел | Ответов | Последний пост |
|---|---|---|---|
Robots.txt в Вордпрессе | Софт, скрипты, сервисы | 50 | 27.07.2011 17:48 |
Robots.txt. Индексация ТОЛЬКО главной страницы | Прочее | 16 | 01.05.2010 11:37 |
Файл robots.txt – важная часть блога | Дайджест блогосферы | 11 | 15.01.2010 23:43 |
Интересные темы
определение дублей страниц
Какими методами можно провести определение дублей страниц, что и как для этого нужно делать.
wp trackback
Как исправить ошибку со страничкой, в адресе которой есть wp trackback, читайте подробнее здесь.







