Robots.txt

(Ответов: 12, Просмотров: 4643)
Страница 1 из 2 12 Последняя
  1. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 5,201
    • Записей в дневнике: 83
    • Репутация: 2381
    • Webmoney BL: ?
    Robots.txt – специальный файл, который ограничивает доступ поисковым роботам к определенным страницам или разделам сайта. Любой поисковый робот при посещении любого сайта первым делом обращается к этому файлу, а уже только потом начинает сканировать сайт. Размещается файл Robots.txt в корневом каталоге сайта (он должен быть доступен по адресу сайт.org/Robots.txt).


    Размещение данного файла не обязательно, но крайне желательно, если вам важна индексируемость вашего сайта, а также переходы посетителей с поисковых систем. В этой статье я расскажу о настройке файла robots.txt для блогов на движке Wordpress, а также опишу основные директивы этого файла.

    Файл Robots.txt состоит из записей и каждая запись начинается с директивы, указывающей действия для поисковой системы. Вот эти директивы мы сейчас и рассмотрим.

    Директивы файла Robots.txt

    User-agent – так называемый сетевой протокол. Простыми словами, роботы каждой поисковой системы имеют сетевую подпись, с помощью которой можно определить, что это за поисковая система.

    Disallow – запрет индексации страницы, раздела сайта, либо всего сайта.

    Allow – разрешает доступ к странице либо разделу сайта. Используется в тех случаях, если, к примеру, вам надо запретить доступ роботам к разделу /photo/, но нужно разрешить проиндексировать какую-нибудь страницу с фотографией в разделе фото /photo/robots.jpeg.

    Crawl-delay – с помощью этой директивы можно установить задержку между загрузками роботами страниц. В принципе, бесполезная директива, так как поисковые машины сами делают задержку в несколько секунд между загрузкой страниц.

    Host – помогает поисковику определить, какой использовать домен, с www или него.

    Примеры использования файла Robots.txt

    Запрет индексации всего сайта всем поисковым роботам:

    PHP код:
    User-agent: *
     
    Disallow: / 
    Значение «*» возле User-agent означает, что нижестоящие директивы указывают действия всех роботов. Слеш (/) говорит о том, что доступ запрещается к корневой директории сайта.

    Запрет доступа поисковому роботу яндекса к разделу форум:

    PHP код:
    User-agentyandex
     Disallow
    : /forum
    Устанавливаем задержку в 5 секунд при загрузке страниц всем поисковым роботам:

    PHP код:
    User-agent: *
    Crawl-delay
    Разрешаем доступ к единственной странице /news/i_am_webmaster.html в разделе /news/:

    PHP код:
     Allow: /news/i_am_webmaster.html
     Disallow
    : /news
    Указываем Яндексу, что использовать нужно домен без www:

    PHP код:
    User-agentyandex
     Host
    webmasters.ru 
    В Robots.txt также можно добавить ссылку на карту сайта, выглядеть это будет вот так:

    PHP код:
    Sitemapwebmasters.ru/sitemap.xml 
    Зачем нужен Robots.txt

    В первую очередь, файл Robots.txt нужен для того, чтобы исключить дублированный контент в пределах одного домена, а также исключить не представляющие особого интереса для поисковых систем страницы, такие как форма регистрации пользователей, страница голосований, форма входа в панель управления и другие страницы, не несущие особой смысловой нагрузки.

    Дело в том, что если вы разрешите поисковым роботам индексировать все подряд, то при большем количестве дублированного контента в пределах домена, а также при наличии большого количество ненужных страниц, вы можете попасть под фильтры поисковых систем, а то и вообще в бан.

    Настройка Robots.txt для Wordpress

    В движке Wordpress нет встроенного файла Robots.txt, поэтому нужно его добавить самостоятельно. К применению на своих блогах я бы рекомендовал следующий формат Robots.txt (но вы можете его редактировать как угодно). Теги я не закрывал и комментарии тоже.

    PHP код:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-login.php
    Disallow
    : /wp-register.php
    Disallow
    : /wp-includes/
    Disallow: /xmlrpc.php
    Disallow
    : /wp-admin
    Allow
    : /wp-content/uploads/
    Disallow: /wp-content/
    Disallow: /page/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow/*?*
    Disallow: /*?
    Sitemap: http://VashSait.ru/sitemap.xml
    Host: VashSait.ru 
    Последний раз редактировалось grazer; 28.05.2010 в 20:31.
    Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет.
    Найти меня можно в телеграме, подписывайтесь (cнг/бурж seo).
    • 0
  2. Опытный Аватар для Crasher69
    • Регистрация: 08.09.2009
    • Сообщений: 437
    • Записей в дневнике: 5
    • Репутация: 175
    • Webmoney BL: ?
    Очень полезная статья. Раньше я не придавал этому большого значения, но потом, когда начал расследовать причины тормозов сайтов на VDS, решил запретить роботам все ненужные страницы. И нагрузка кстати снизилась, причем заметно...
    • 0
  3. Опытный Аватар для Rulik
    • Регистрация: 04.09.2009
    • Сообщений: 251
    • Репутация: 80
    Есть еще неплохой ресурс по теме от Ктулху :) - http://robotstxt.org.ru/
    • 0
  4. Захаров Вадим Аватар для Delet_ER
    • Регистрация: 03.07.2010
    • Сообщений: 500
    • Репутация: 326
    • Webmoney BL: ?
    можно ещё для Яху доступ закрыть совсем.
    ибо его бот весьма неплохо нагружает сайт
    • 0
  5. Студент Аватар для wlad2
    • Регистрация: 21.12.2009
    • Сообщений: 55
    • Репутация: 22
    Яху закрывать доступ лучше с htaccess
    а robots.txt крутая штука когда научишься правильно использовать!
    если ведешь твиттер, попробуй мой плагин Twitter-WALLF
    • 0
  6. Junior Member
    • Регистрация: 17.07.2010
    • Сообщений: 4
    • Репутация: 10
    полезно
    спасибо :)
    Вроде знаеш - а всегда под руками нету этих записей :)
    • 0
  7. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 5,201
    • Записей в дневнике: 83
    • Репутация: 2381
    • Webmoney BL: ?
    Цитата Сообщение от Romashka91 Посмотреть сообщение
    Вроде знаеш - а всегда под руками нету этих записей
    Вот для этих целей и придумали закладки в браузере и сервисы закладок, чтобы всегда полезная информация была под рукой.
    Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет.
    Найти меня можно в телеграме, подписывайтесь (cнг/бурж seo).
    • 0
  8. Студент Аватар для Kras
    • Регистрация: 14.04.2010
    • Сообщений: 78
    • Репутация: 9
    Я вот вообще не применяю это Robots.txt и считаю что он не нужен
    • 0
  9. Опытный Аватар для Rulik
    • Регистрация: 04.09.2009
    • Сообщений: 251
    • Репутация: 80
    Цитата Сообщение от Kras Посмотреть сообщение
    Я вот вообще не применяю это Robots.txt и считаю что он не нужен
    Когда вылезут дубли страниц, тогда поменяешь свое мнение. Конечно, если у тебя сайт не на html :)
    • 0
  10. Я из admitad :) Аватар для terehoff
    • Регистрация: 15.07.2009
    • Сообщений: 2,605
    • Записей в дневнике: 18
    • Репутация: 1150
    • Webmoney BL: ?
    Цитата Сообщение от Kras Посмотреть сообщение
    Я вот вообще не применяю это Robots.txt и считаю что он не нужен
    Посмотри на любой крупный проект - роботс везде есть.
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
Robots.txt в Вордпрессе
Софт, скрипты, сервисы 50 27.07.2011 17:48
Robots.txt. Индексация ТОЛЬКО главной страницы
Прочее 16 01.05.2010 11:37
Файл robots.txt – важная часть блога
Дайджест блогосферы 11 15.01.2010 23:43

Интересные темы

определение дублей страниц

Какими методами можно провести определение дублей страниц, что и как для этого нужно делать.

wp trackback

Как исправить ошибку со страничкой, в адресе которой есть wp trackback, читайте подробнее здесь.

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры