Тонкости настройки robots.txt для разных CMS [Конкурсная статья]

(Ответов: 71, Просмотров: 18443)
Страница 1 из 8 123 Последняя
  1. Гуру Аватар для MacLeo
    • Регистрация: 01.06.2010
    • Сообщений: 1,617
    • Записей в дневнике: 1
    • Репутация: 586
    Золотой пост
    Привет пользователям Webmasters.RU и всем кто читает эту статью. Написана она специально для конкурса «Статейный конкурс с призовым фондом 1000 у.е.»

    Теперь ближе к теме. В интернете существует очень много статей о создании robots.txt для различных движков. Практически во всех статьях robots.txt составлен по разному и это вводит людей в заблуждение. В данной статье я покажу как я составляю robots.txt для своих сайтов.

    В основном я работаю с CMS DLE, так как считаю его самым удобным для своего использования, да и привык я к нему очень, а значит уже набил руку и неплохо разбираюсь. Помимо DLE, я еще напишу о WP, а так же о Bullet Energy (это форум который тесно интегрирован с DLE, дополнение к нему небольшое, но весьма существенное).

    Начнем мы с CMS DLE и форума CMS Bullet Energy ( кстати, пишу о нем так как сам его использую и считаю самым лучшим форумом для CMS DLE, стоит отметить и то, что форум условно бесплатный).

    В моем robots.txt будет две директивы User-agent: Общая директива User-agent: * для всех роботов, и отдельная директива для Яндекса User-agent: Yandex.

    И так, приступим.
    Первым делом всегда закрываю редирект внешних ссылок. В DLE, стандартно, он имеет вид site.ru/engine/go.php, а это значит что первая строка у нас будет такого вида:
    Код:
    Disallow: /engine/go.php
    Так же я закрываю страницу с статистикой сайта, так как там будут ссылки на все комментарии, новости, пользователей – а все это создаст много дублей, чего нам не нужно:
    Код:
    Disallow: /statistics.html
    Дальше закрываем страницы с информацией о пользователе, которые имеют вид
    index.php?subaction=userinfo&user=admin. Так же сразу пропишем страницы с выводом последних новостей, комментариев, регистрации, добавления новостей, «Забыли пароль», ссылки на личные сообщения.
    Код:
    Disallow: /*subaction=userinfo
    Disallow: /*subaction=newposts
    Disallow: /*do=lastcomments
    Disallow: /*do=feedback
    Disallow: /*do=register
    Disallow: /*do=lostpassword
    Disallow: /*do=addnews
    Disallow: /*do=stats
    Disallow: /*do=pm
    Для тех кто не очень разбирается, поясню что такое «*» - этот знак означает любую последовательность символов. То есть что бы на месте * не было, но если дальше будет то, что мы прописали – в индекс оно не попадет.
    В DLE есть 2 вида ссылок по которым можно попасть в профиль пользователя, так что нужно закрыть и второй вид:
    Код:
    Disallow: /user/
    Дальше предпочитаю закрывать страницы с архивами, которые так же дублируют контент сайта:
    Код:
    Disallow: /year/
    Пояснение:year в данном случае определенный год – 2011, 2012, 2013 и тд. Сюда Вы подставляете те года, с которых у Вас публикуются новости. И помните, для каждого года – своя строка.

    Следующей командой мы закроем сразу несколько ссылок вида site.ru/index.php?do= В основном это ссылки на регистрацию, добавление новостей, различные модули которые дублируют контент и не нужны нам.

    Код:
    Disallow: /index.php?do=
    Дальше я закрываю страницы сайта от индексации. Это достаточно выгодно так как в поиске будут попадаться лишь страницы с полным видом новостей, где пользователь сможет получить максимум информации которую он искал. Если не закрывать страницы сайта, с поиска люди могут попадать к примеру на 5-6 страницу сайта, и им придется еще и там искать то что им нужно. Мало кому захочется это делать, он закроет сайт и пойдет дальше. Так что этой командой мы так же немного уменьшим процент отказов. И еще один положительный момент, нам не придется закрывать категории от индексации, а лучше оптимизируем их и получим дополнительный трафик.

    Код:
    Disallow: *page/
    Естественно для User-agent: Yandex нам следует указать главное зеркало.
    Код:
    Host: site.ru (или же www.site.ru)
    Ну и не стоит забывать о карте сайта:

    Код:
    Sitemap: http://forpda.net/sitemap.xml
    Вот собственно и все, в результате у нас должен появится robots.txt такого вида:

    Код:
    User-agent: *
    Disallow: /engine/go.php
    Disallow: /statistics.html
    Disallow: /*subaction=userinfo
    Disallow: /*subaction=newposts
    Disallow: /*do=lastcomments
    Disallow: /*do=feedback
    Disallow: /*do=register
    Disallow: /*do=lostpassword
    Disallow: /*do=addnews
    Disallow: /*do=stats
    Disallow: /*do=pm
    Disallow: /2011/
    Disallow: /2010/
    Disallow: /2012/
    Disallow: /2013/
    Disallow: /index.php?do=
    Disallow: *page/
    
    User-agent: Yandex
    Disallow: /engine/go.php
    Disallow: /statistics.html
    Disallow: /*subaction=userinfo
    Disallow: /*subaction=newposts
    Disallow: /*do=lastcomments
    Disallow: /*do=feedback
    Disallow: /*do=register
    Disallow: /*do=lostpassword
    Disallow: /*do=addnews
    Disallow: /*do=stats
    Disallow: /*do=pm
    Disallow: /2011/
    Disallow: /2010/
    Disallow: /2012/
    Disallow: /2013/
    Disallow: /index.php?do=
    Disallow: *page/
    Host: site.ru
    
    Sitemap: http://site.ru/sitemap.xml
    Прошу заметить, в данном Robots.txt указаны одинаковые запреты для всех поисковых систем.

    А теперь о форуме Bullet_Energy, так как он тесно интегрирован с CMS DLE, все ссылки у них идентичны. Но есть и свои ссылки, в частности одна, на которую нам следует обратить внимание. Форум дает возможность разметить ссылку в каждой новости, клик по которой создаст тему с обсуждением данной новости на форуме. В итоге у Вас будет очень много страниц с ошибками, точней страниц будет столько, сколько новостей на сайте. Чтобы уберечь свой сайт от этого, к обеим директориям следует добавить строку:

    Код:
    Disallow: /forum/discussion
    Robots.txt составлен для актуальной на этот момент версии DLE 9.6


    Теперь приступим за WordPress. Здесь, как и в DLE, мы будем использовать те же 2 директории User-agent: *,User-agent: Yandex.

    И так, для начала мы закроем страницы входа и регистрации на сайте которые имеют вид site.ru/wp-login.php и site.ru/wp-register.php

    То есть прописываем 2 строки:

    Код:
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Дальше нужно закрыть страницы rss ленты и запретить индексацию trackback. Значит прописываем еще несколько строк:

    Код:
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Дальше нужно запретить индексировать те страницы новости, если появляется много комментариев, и они создают дубли этой страницы:

    Код:
    Disallow: */comments
    Disallow: */comment-page
    Так же как и в случае с Robots.txt для DLE, мы закрываем страницы сайта от индексации которые имеют вид: site.ru/page/3; и закрываем страницы категорий вида site.ru/category/nasha-cat/page/3
    Код:
    Disallow: /page/*
    Disallow: /category/*/*
    Так же очень многие используют на своих блогах страницы с архивами и метки, которые так же приводят к дублированию страниц. Их так же мы закрываем:
    Код:
    Disallow: /year/*
    Disallow: /tag/*
    Примечание: year в данном случае определенный год – 2011, 2012, 2013 и тд. Сюда Вы подставляете те года, с которых у Вас публикуются новости. И помните, для каждого года – своя строка.
    Ну и не стоит забывать о поиске и другом мусоре который присутствует в WP. Закрываем подобные страницы:

    Код:
    Disallow: /*?
    Ну и конечно же следует закрыть системные папки:

    Код:
    Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Последнюю строку можно еще доработать. В папке wp-content лежат еще папки плагинов, кеша, тем и картинок.
    Их можно запретить так же. Но я бы рекомендовал не закрывать картинки к индексации, так как они могут принести дополнительный трафик. По этому лучше будет отдельно исключить папки plugins, cache, themes:

    Код:
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Опять-таки не забываем указать главное зеркало и ссылку на файл sitemap

    Код:
    Host: site.ru (или www.site.ru)
    Sitemap: http://site.ru/sitemap.xml
    В итоге у нас получился такой Robots.txt для WP
    Код:
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: */comment-page
    Disallow: /page/
    Disallow: /category/*/
    Disallow: /2012/
    Disallow: /tag/
    Disallow: /*?
    Disallow: /wp-content/
    Disallow: /wp-includes/
    Allow: /wp-content/uploads
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    
    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: */comment-page
    Disallow: /page/
    Disallow: /category/*/
    Disallow: /2012/
    Disallow: /tag/
    Disallow: /*?
    Disallow: /wp-content/
    Disallow: /wp-includes/
    Allow: /wp-content/uploads
    Host: site.ru (или www.site.ru)
    Sitemap: http://site.ru/sitemap.xml
    Robots.txt составлен для актуальной на этот момент версии WP 3.4.1

    Вот собственно и все, другими CMS я не пользуюсь и ничего о них не могу написать.
    Всем спасибо за внимание, буду рад услышать дополнения/исправления.
    Последний раз редактировалось MacLeo; 23.07.2012 в 17:07. Причина: Дополнил, убрал лишнее
    • 41

    Спасибо сказали:

    a.kravtsov1987(16.01.2014), Aaron Hill(20.02.2014), akrustam(24.07.2012), Andoner(23.07.2012), b00mer(23.07.2012), BastLegenda(09.06.2013), bljaher(11.07.2014), chater(25.07.2012), CuxpecT(23.07.2012), dmg.shark(23.07.2012), edger(25.07.2012), epp(23.07.2014), feuer81(30.09.2012), giga(29.07.2012), Green-Seo(23.07.2012), IceSkip(02.09.2012), JumJum(15.05.2013), kari74(23.07.2012), Kopylov(21.07.2012), mmi(22.04.2013), narolskay(23.07.2012), Nickson(21.07.2012), OKyJIucT(24.07.2012), oleg_ug(23.07.2012), Orcstation(21.07.2012), piratstvo(23.07.2012), Psihard(12.05.2014), ROMASA464(01.09.2013), Saros777(24.07.2012), SeoDevil(20.04.2013), shabananton(24.07.2012), sprigan(20.04.2013), stickman(11.01.2013), Talismanchik(14.07.2013), timur141194(25.07.2012), Vadik(03.04.2013), Vasily888(31.01.2016), vefaro(24.02.2016), wolf28(21.07.2012), zhalkij(11.07.2014), zhurik(28.03.2013), Zzzadruga(02.04.2013), Вадим(21.07.2012),
  2. Зашёл почитать Аватар для Kopylov
    • Регистрация: 29.06.2011
    • Сообщений: 584
    • Репутация: 109
    • Webmoney BL: ?
    Для вордпресс может лучше так :
    Allow: /wp-content/uploads/ (открываем картинки к индексации)
    Disallow: /wp-content/
    Цитата Сообщение от MacLeo Посмотреть сообщение
    Кстати, прошу заметить, нигде я не использовал директивы Allow так как считаю их ненужными. Логично ведь, если мы их не запретили, значит им можно индексироваться, ведь так?
    Disallow: /wp-content/ вроде эта директива запрещает индексацию всех подпапок.
    • 4

    Спасибо сказали:

    MacLeo(21.07.2012), Psihard(12.05.2014), quadrat(24.07.2012), zhurik(28.03.2013),
  3. Гуру Аватар для MacLeo
    • Регистрация: 01.06.2010
    • Сообщений: 1,617
    • Записей в дневнике: 1
    • Репутация: 586
    Kopylov, просмотрел, спасибо, исправился. Раньше как то делал без Allow, видимо как то по другому делал, а забыл :)
    • 0
  4. Человечный Android Аватар для wolf28
    • Регистрация: 21.11.2011
    • Сообщений: 1,111
    • Репутация: 275
    отлично написано: все очень доступно и по полочкам:)
    • -1
  5. Не перестаю учиться! Аватар для blazhnov
    • Регистрация: 10.08.2011
    • Сообщений: 387
    • Репутация: 70
    MacLeo, спасибо за статью. У меня один вопрос, касающийся защиты сайта на WP. Довольно часто сайты на WP взламывают, пытаясь подобрать логин и пароль админа, либо же изменить электронный ящик, на который админка высылает пароль на сайт в случае его утери. Для начала взлома сайта хакеру нужна страница ввода логина-пароля или страница запроса нового пароля. Используя ваш файл robots.txt злоумышленник видит адреса этих страниц.

    На своих проектах я всегда переименовываю стандартные адреса страниц входа в админку и запроса нового пароля и не прописываю их в роботсе. Зачем запрещать эти страницы к индексированию, если ссылок на них нигде нет? Как поисковик попадет на нее, чтобы проиндексировать?

    За статью еще раз спасибо.
    • 1

    Спасибо сказали:

    MacLeo(22.07.2012),
  6. Гуру Аватар для MacLeo
    • Регистрация: 01.06.2010
    • Сообщений: 1,617
    • Записей в дневнике: 1
    • Репутация: 586
    blazhnov, спасибо за замечание, не подумал немного :)
    Убрал wp-admin, добавил блокировку страниц сайта, страниц сайта в категориях, меток и архивов
    • 0
  7. Критик Аватар для Gami
    • Регистрация: 06.07.2010
    • Сообщений: 248
    • Репутация: 30
    Если не изменяет память, тема поднималась неоднократно. Некоторые предыдущие ТС и автор MacLeo советуют закрыть метки и рубрики (Disallow: /tag/* Disallow: /category/*/*), чего делать категорический не рекомендую. В моем случае, после закрытия, трафик с поисковиков уже через 10 дней упал на 30%. Рассчитывал, что восстановится, но чуда не произошло. Для ГС это существенное падение показателей, для нормального сайта также не рекомендую закрывать метки и рубрики. Чтоб правильно выдавались рубрики и метки в поиске, и привлекали посетителей, рекомендую не полениться и прописать описание рубрик и меток.
    • 0

    Спасибо сказали:

    zhalkij(11.07.2014),
  8. Студент Аватар для MtvKat
    • Регистрация: 20.06.2011
    • Сообщений: 84
    • Репутация: 12
    Статья интересная, прочитал с любопытством. После прочтения вопрос возник, по поводу системной папки /engine/, разве ее закрывать не нужно?
    Последний раз редактировалось MtvKat; 23.07.2012 в 11:09.
    • 0
  9. Опытный Аватар для krockki
    • Регистрация: 14.04.2011
    • Сообщений: 386
    • Репутация: 86
    Автор конечно молодец, но с таким материалом имхо не выиграешь. Много пропущенных элементов в роботсе для DLE, которые повторяют материал на сайте или выдают не нужный.

    Для WP также можно использовать другой Роботс (я им пользуюсь 2 года) в сочетании с плагинами.

    Материал просто написан на скорую руку, таких в интернете полно. Чисто мое мнение, не сочтите как оскорбление.
    • 2

    Спасибо сказали:

    MacLeo(23.07.2012), OKyJIucT(23.07.2012),
  10. Гуру Аватар для dmg.shark
    • Регистрация: 10.04.2010
    • Сообщений: 2,312
    • Репутация: 728
    • Webmoney BL: ?
    Цитата Сообщение от Kopylov Посмотреть сообщение
    Allow: /wp-content/uploads/ (открываем картинки к индексации)
    Disallow: /wp-content/
    и что? индексирует? :)

    у меня за 3 года существования сайта на WP и картинок в его статьях, при не закрытом ./wp-content/ картинки так и не проиндексировались :)
    • 1

    Спасибо сказали:

    bleik(23.07.2012),
Страница 1 из 8 123 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
SEO оптимизация форумов. Конкурсная статья
Оптимизация, SEO 25 17.08.2012 14:09
Азы Внутренней перелинковки сайта - asold (конкурсная статья)
Оптимизация, SEO 2 19.02.2012 21:38
Продвижение сайта в Twitter (конкурсная статья)
Социальные сети 13 03.11.2011 16:34
Признаки трастового сайта (конкурсная статья)
Обучающие статьи 14 26.10.2011 02:00
SEO оптимизация флеш сайтов - Конкурсная статья
Оптимизация, SEO 7 29.06.2011 01:44

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры