Robots.txt

**grazer** · 28.05.2010 20:29

Robots.txt – специальный файл, который ограничивает доступ поисковым роботам к определенным страницам или разделам сайта. Любой поисковый робот при посещении любого сайта первым делом обращается к этому файлу, а уже только потом начинает сканировать сайт. Размещается файл Robots.txt в корневом каталоге сайта (он должен быть доступен по адресу сайт.org/Robots.txt).

Размещение данного файла не обязательно, но крайне желательно, если вам важна индексируемость вашего сайта, а также переходы посетителей с поисковых систем. В этой статье я расскажу о настройке файла robots.txt для блогов на движке Wordpress, а также опишу основные директивы этого файла.

Файл Robots.txt состоит из записей и каждая запись начинается с директивы, указывающей действия для поисковой системы. Вот эти директивы мы сейчас и рассмотрим.

Директивы файла Robots.txt

User-agent – так называемый сетевой протокол. Простыми словами, роботы каждой поисковой системы имеют сетевую подпись, с помощью которой можно определить, что это за поисковая система.

Disallow – запрет индексации страницы, раздела сайта, либо всего сайта.

Allow – разрешает доступ к странице либо разделу сайта. Используется в тех случаях, если, к примеру, вам надо запретить доступ роботам к разделу /photo/, но нужно разрешить проиндексировать какую-нибудь страницу с фотографией в разделе фото /photo/robots.jpeg.

Crawl-delay – с помощью этой директивы можно установить задержку между загрузками роботами страниц. В принципе, бесполезная директива, так как поисковые машины сами делают задержку в несколько секунд между загрузкой страниц.

Host – помогает поисковику определить, какой использовать домен, с www или него.

Примеры использования файла Robots.txt

Запрет индексации всего сайта всем поисковым роботам:

PHP код:

 User-agent: *

 Disallow: /

Значение «*» возле User-agent означает, что нижестоящие директивы указывают действия всех роботов. Слеш (/) говорит о том, что доступ запрещается к корневой директории сайта.

Запрет доступа поисковому роботу яндекса к разделу форум:

PHP код:

 User-agent: yandex

 Disallow: /forum/

Устанавливаем задержку в 5 секунд при загрузке страниц всем поисковым роботам:

PHP код:

 User-agent: *

Crawl-delay: 5

Разрешаем доступ к единственной странице /news/i_am_webmaster.html в разделе /news/:

PHP код:

  Allow: /news/i_am_webmaster.html

 Disallow: /news/

Указываем Яндексу, что использовать нужно домен без www:

PHP код:

 User-agent: yandex

 Host: webmasters.ru

В Robots.txt также можно добавить ссылку на карту сайта, выглядеть это будет вот так:

PHP код:

 Sitemap: webmasters.ru/sitemap.xml

Зачем нужен Robots.txt

В первую очередь, файл Robots.txt нужен для того, чтобы исключить дублированный контент в пределах одного домена, а также исключить не представляющие особого интереса для поисковых систем страницы, такие как форма регистрации пользователей, страница голосований, форма входа в панель управления и другие страницы, не несущие особой смысловой нагрузки.

Дело в том, что если вы разрешите поисковым роботам индексировать все подряд, то при большем количестве дублированного контента в пределах домена, а также при наличии большого количество ненужных страниц, вы можете попасть под фильтры поисковых систем, а то и вообще в бан.

Настройка Robots.txt для Wordpress

В движке Wordpress нет встроенного файла Robots.txt, поэтому нужно его добавить самостоятельно. К применению на своих блогах я бы рекомендовал следующий формат Robots.txt (но вы можете его редактировать как угодно). Теги я не закрывал и комментарии тоже.

PHP код:

 User-agent: *

Disallow: /cgi-bin/

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-includes/

Disallow: /xmlrpc.php

Disallow: /wp-admin

Allow: /wp-content/uploads/

Disallow: /wp-content/

Disallow: /page/

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Disallow: /?s=

Disallow: /*?*

Disallow: /*?

Sitemap: http://VashSait.ru/sitemap.xml

Host: VashSait.ru

**Crasher69** · 29.05.2010 00:23

Очень полезная статья. Раньше я не придавал этому большого значения, но потом, когда начал расследовать причины тормозов сайтов на VDS, решил запретить роботам все ненужные страницы. И нагрузка кстати снизилась, причем заметно...

**Rulik** · 01.06.2010 13:28

Есть еще неплохой ресурс по теме от Ктулху :) - http://robotstxt.org.ru/

**Delet_ER** · 08.08.2010 15:22

можно ещё для Яху доступ закрыть совсем.
ибо его бот весьма неплохо нагружает сайт

**wlad2** · 12.08.2010 11:40

Яху закрывать доступ лучше с htaccess
а robots.txt крутая штука когда научишься правильно использовать!

**Romashka91** · 12.08.2010 12:12

полезно
спасибо :)
Вроде знаеш - а всегда под руками нету этих записей :)

**grazer** · 16.08.2010 21:03

Сообщение от Romashka91

Вроде знаеш - а всегда под руками нету этих записей

Вот для этих целей и придумали закладки в браузере и сервисы закладок, чтобы всегда полезная информация была под рукой.

**Kras** · 19.09.2010 15:20

Я вот вообще не применяю это Robots.txt и считаю что он не нужен

**Rulik** · 22.09.2010 13:28

Сообщение от Kras

Я вот вообще не применяю это Robots.txt и считаю что он не нужен

Когда вылезут дубли страниц, тогда поменяешь свое мнение. Конечно, если у тебя сайт не на html :)

**terehoff** · 22.09.2010 15:40

Сообщение от Kras

Я вот вообще не применяю это Robots.txt и считаю что он не нужен

Посмотри на любой крупный проект - роботс везде есть.

	28.05.2010 20:29 #1
grazer Super Moderator Регистрация: 03.09.2009 Сообщений: 5,201 Записей в дневнике: 83 Репутация: 2382 Webmoney BL: ?	Robots.txt – специальный файл, который ограничивает доступ поисковым роботам к определенным страницам или разделам сайта. Любой поисковый робот при посещении любого сайта первым делом обращается к этому файлу, а уже только потом начинает сканировать сайт. Размещается файл Robots.txt в корневом каталоге сайта (он должен быть доступен по адресу сайт.org/Robots.txt). Размещение данного файла не обязательно, но крайне желательно, если вам важна индексируемость вашего сайта, а также переходы посетителей с поисковых систем. В этой статье я расскажу о настройке файла robots.txt для блогов на движке Wordpress, а также опишу основные директивы этого файла. Файл Robots.txt состоит из записей и каждая запись начинается с директивы, указывающей действия для поисковой системы. Вот эти директивы мы сейчас и рассмотрим. Директивы файла Robots.txt User-agent – так называемый сетевой протокол. Простыми словами, роботы каждой поисковой системы имеют сетевую подпись, с помощью которой можно определить, что это за поисковая система. Disallow – запрет индексации страницы, раздела сайта, либо всего сайта. Allow – разрешает доступ к странице либо разделу сайта. Используется в тех случаях, если, к примеру, вам надо запретить доступ роботам к разделу /photo/, но нужно разрешить проиндексировать какую-нибудь страницу с фотографией в разделе фото /photo/robots.jpeg. Crawl-delay – с помощью этой директивы можно установить задержку между загрузками роботами страниц. В принципе, бесполезная директива, так как поисковые машины сами делают задержку в несколько секунд между загрузкой страниц. Host – помогает поисковику определить, какой использовать домен, с www или него. Примеры использования файла Robots.txt Запрет индексации всего сайта всем поисковым роботам: PHP код: `User-agent: * Disallow: /` Значение «» возле User-agent означает, что нижестоящие директивы указывают действия всех роботов. Слеш (/) говорит о том, что доступ запрещается к корневой директории сайта. Запрет доступа поисковому роботу яндекса к разделу форум: PHP код: `User-agent: yandex Disallow: /forum/` Устанавливаем задержку в 5 секунд при загрузке страниц всем поисковым роботам: PHP код: `User-agent: Crawl-delay: 5` Разрешаем доступ к единственной странице /news/i_am_webmaster.html в разделе /news/: PHP код: `Allow: /news/i_am_webmaster.html Disallow: /news/` Указываем Яндексу, что использовать нужно домен без www: PHP код: `User-agent: yandex Host: webmasters.ru` В Robots.txt также можно добавить ссылку на карту сайта, выглядеть это будет вот так: PHP код: `Sitemap: webmasters.ru/sitemap.xml` Зачем нужен Robots.txt В первую очередь, файл Robots.txt нужен для того, чтобы исключить дублированный контент в пределах одного домена, а также исключить не представляющие особого интереса для поисковых систем страницы, такие как форма регистрации пользователей, страница голосований, форма входа в панель управления и другие страницы, не несущие особой смысловой нагрузки. Дело в том, что если вы разрешите поисковым роботам индексировать все подряд, то при большем количестве дублированного контента в пределах домена, а также при наличии большого количество ненужных страниц, вы можете попасть под фильтры поисковых систем, а то и вообще в бан. Настройка Robots.txt для Wordpress В движке Wordpress нет встроенного файла Robots.txt, поэтому нужно его добавить самостоятельно. К применению на своих блогах я бы рекомендовал следующий формат Robots.txt (но вы можете его редактировать как угодно). Теги я не закрывал и комментарии тоже. PHP код: `User-agent: * Disallow: /cgi-bin/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-includes/ Disallow: /xmlrpc.php Disallow: /wp-admin Allow: /wp-content/uploads/ Disallow: /wp-content/ Disallow: /page/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: /?feed= Disallow: /?s= Disallow: /?* Disallow: /*? Sitemap: http://VashSait.ru/sitemap.xml Host: VashSait.ru` Последний раз редактировалось grazer; 28.05.2010 в 20:31. Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет. Пишу про SEO в 2025 в телеграме, подписывайтесь (cнг/бурж seo).
0 grazer

	29.05.2010 00:23 #2
Crasher69 Опытный Регистрация: 08.09.2009 Сообщений: 437 Записей в дневнике: 5 Репутация: 175 Webmoney BL: ?	Очень полезная статья. Раньше я не придавал этому большого значения, но потом, когда начал расследовать причины тормозов сайтов на VDS, решил запретить роботам все ненужные страницы. И нагрузка кстати снизилась, причем заметно...
0 Crasher69

	01.06.2010 13:28 #3
Rulik Опытный Регистрация: 04.09.2009 Сообщений: 251 Репутация: 80	Есть еще неплохой ресурс по теме от Ктулху :) - http://robotstxt.org.ru/ SEO блог \| Блог о музыке
0 Rulik

	08.08.2010 15:22 #4
Delet_ER Захаров Вадим Регистрация: 03.07.2010 Сообщений: 500 Репутация: 326 Webmoney BL: ?	можно ещё для Яху доступ закрыть совсем. ибо его бот весьма неплохо нагружает сайт delexp.net - мой seo блог \| Как заработать в интернете \|\| Зарабатываем на Mercedes e63 amg
0 Delet_ER

	12.08.2010 11:40 #5
wlad2 Студент Регистрация: 21.12.2009 Сообщений: 55 Репутация: 22	Яху закрывать доступ лучше с htaccess а robots.txt крутая штука когда научишься правильно использовать! если ведешь твиттер, попробуй мой плагин Twitter-WALLF
0 wlad2

Robots.txt

Опции темы

Тэги топика:

Похожие темы

Robots.txt в Вордпрессе

Robots.txt. Индексация ТОЛЬКО главной страницы

Файл robots.txt – важная часть блога

Интересные темы

определение дублей страниц

wp trackback

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры

	12.08.2010 12:12 #6
Romashka91 Junior Member Регистрация: 17.07.2010 Сообщений: 4 Репутация: 10	полезно спасибо :) Вроде знаеш - а всегда под руками нету этих записей :)
0 Romashka91

	16.08.2010 21:03 #7
grazer Super Moderator Регистрация: 03.09.2009 Сообщений: 5,201 Записей в дневнике: 83 Репутация: 2382 Webmoney BL: ?	Сообщение от Romashka91 Вроде знаеш - а всегда под руками нету этих записей Вот для этих целей и придумали закладки в браузере и сервисы закладок, чтобы всегда полезная информация была под рукой. Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет. Пишу про SEO в 2025 в телеграме, подписывайтесь (cнг/бурж seo).
0 grazer

	19.09.2010 15:20 #8
Kras Студент Регистрация: 14.04.2010 Сообщений: 78 Репутация: 9	Я вот вообще не применяю это Robots.txt и считаю что он не нужен Мои Услуги по продвижению сайтов в Интернете в Орске и всей России
0 Kras

	22.09.2010 13:28 #9
Rulik Опытный Регистрация: 04.09.2009 Сообщений: 251 Репутация: 80	Сообщение от Kras Я вот вообще не применяю это Robots.txt и считаю что он не нужен Когда вылезут дубли страниц, тогда поменяешь свое мнение. Конечно, если у тебя сайт не на html :) SEO блог \| Блог о музыке
0 Rulik

	22.09.2010 15:40 #10
terehoff Я из admitad :) Регистрация: 15.07.2009 Сообщений: 2,605 Записей в дневнике: 18 Репутация: 1150 Webmoney BL: ?	Сообщение от Kras Я вот вообще не применяю это Robots.txt и считаю что он не нужен Посмотри на любой крупный проект - роботс везде есть.
0 terehoff

Темы	Раздел	Ответов	Последний пост
Robots.txt в Вордпрессе	Софт, скрипты, сервисы	50	27.07.2011 17:48
Robots.txt. Индексация ТОЛЬКО главной страницы	Прочее	16	01.05.2010 11:37
Файл robots.txt – важная часть блога	Дайджест блогосферы	11	15.01.2010 23:43