Тонкости настройки robots

(Ответов: 3, Просмотров: 2397)
  1. Web-разработка Аватар для semyon
    • Регистрация: 20.06.2011
    • Сообщений: 1,781
    • Репутация: 549
    • Webmoney BL: ?
    Понимаю, что вопрос разжеван, но на популярных ресурсах статьи по теме датированы 11 годом, с которого многое могло поменяться, вопрос именно по Джумле, но хочется разобраться в целом, поэтому опубликовал не в Джумле.
    Проблема: дубли. много дублей. ссылки дублей выглядят примерно так:
    сайт.рф/категория/категория/статья.хтмл
    сайт.рф/категория/статья.хтмл
    сайт.рф/статья.хтмл
    и еще 2-3 дубля с каким-то map и без хтмл

    Хочу решить это все дело с помощью роботс, но почитал хелпы по нему, понял, что Яндекс выставляет приоритет на использование директив в зависимости от того, что сначала идет в файле(инфа 2011 года). Так ли это сейчас?

    Т.е. мне надо будет писать сначала
    allow: сайт.рф/категория/категория/
    allow: сайт.рф/категория1/категория2/
    allow: сайт.рф/категория3/категория4/
    А потом
    disallow:сайт.рф/

    В итоге получу открытыми к индексации лишь страницы с двумя категориями. Так?

    Как на такое отреагирует Гугл?

    UPD А также заметил, что это 1000 моё сообщение. Юбилей :)
    Последний раз редактировалось semyon; 25.01.2013 в 13:47.
    • 0
  2. Работаем с Shop-Script Аватар для Павел Joofaq
    • Регистрация: 13.05.2011
    • Сообщений: 914
    • Репутация: 277
    • Webmoney BL: ?
    Здравствуйте, Semion! Я уже много расписывал на этом форуме о дублях в Joomla. Расскажу и Вам))

    Итак, для начала я Вам посоветую не использовать для борьбы с дублями только robots.txt. Мне кажется, что нужно бороться, так сказать, на корню!

    1. Первое, что нужно сделать - это (желательно) не использовать сторонние компоненты для генерации ЧПУ. Я всё делаю через стандартный SEF Joomla.

    2. Для начала убираем www и дубли с index.php в .htaccess. Код, указанный ниже, на моем сервере работает нормально. Если у Вас будут проблемы, то пробуйте другие варианты:

    Код:
    RewriteEngine On
    RewriteCond %{HTTP_HOST} ^www.joofaq.ru$ [NC]
    RewriteRule ^(.*)$ http://joofaq.ru/$1 [R=301,L]
    RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/
    RewriteRule ^index\.php$ http://joofaq.ru/ [R=301,L]
    3. Теперь нужно избавиться от ID материалов (ссылки вида _sayt.ru/categoriya/20-material.html, где 20 - это и есть ID материала). Описанное ниже решение, работает только на Joomla 1.6/1.7/2.5

    Вот подробный мануал по избавлению от этих цифр: _http://alex-leo.ru/joomla/116-ybiraem-id-iz-statei-joomla

    4. Я использую плагин от sherza _http://joomlaforum.ru/index.php/topic,201567.0.html

    Это просто супер плагин, способный вылечить от 90 процентов всех дублей на сайте с Joomla 1.5 и Joomla 2.5. Кроме того, у них на сайте разработчика этого плагина есть форум, где Вам бесплатно помогут с настройкой этого плагина. Я там три дня мучил модератора по настройке плагина для нормальной работы joomla с галереей JoomGallery - и не заплатил ни копейки! Вот сайт _http://hekima.ru/shnodoubles

    3. После проделанного выше, Вам остается лишь добавить в robots.txt некоторые пункты, чтобы не проскакивали системные страницы. Вот robots.txt моего блога _Joofaq.ru с пояснениями:

    Код:
    User-agent: *
    Allow: /index.php?option=com_xmap&view=xml&id=1    //  разрешаю индексировать карту сайта Xmap
    Allow: /*?start=       //   разрешаю индексировать пагинацию страниц
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /feed/
    Disallow: /component/
    Disallow: /*?     //  запрещаю все страницы, в которых встречается символ "?"
    Disallow: /*limit=       //  это опять же для пагинации. Запрет всех страниц с "limit="
    Host: joofaq.ru        //   главное зеркало сайта. У меня без WWW
    
    Sitemap: http://joofaq.ru/index.php?option=com_xmap&view=xml&id=1  // карта сайта
    4. Вот, кстати, классная тема для настройки robots.txt на Joomla _http://joomlaforum.ru/index.php/topic,193446.0.html

    В этой теме Вы увидите, что нужно прописать для некоторых сторонних расширений, чтобы лишние страницы не попали в выдачу.

    Всё вышеперечисленное я делал не только на сайте, на котором нет сторонних расширений, но и на многих других проектах. При этом не возникало проблем с такими компонентами, как Virtuemart, Zoo, K2, JBZoo, JoomGallery и многих других похожих.

    Спасибо за внимание! Надеюсь, что Вам поможет эта статья!
    Последний раз редактировалось Павел Joofaq; 25.01.2013 в 15:38.
    • 3

    Спасибо сказали:

    Hydra(17.06.2014), Mohatma(08.02.2013), semyon(25.01.2013),
  3. Web-разработка Аватар для semyon
    • Регистрация: 20.06.2011
    • Сообщений: 1,781
    • Репутация: 549
    • Webmoney BL: ?
    Павел Joofaq, спасибо большое. При создании темы не показало подобных тем с ответом на мой вопрос.
    Решил проблему с дублями плагином, который ставит редирект 301 со всех дублей на одну страницу с урлом нужной категории.
    Медленней грузиться стал, но решил разом все проблемы с дублями.
    (Если такой плагин с бОльшим быстродействием посоветует кто, будет здорово)
    • 0
  4. Работаем с Shop-Script Аватар для Павел Joofaq
    • Регистрация: 13.05.2011
    • Сообщений: 914
    • Репутация: 277
    • Webmoney BL: ?
    Странно, я даже не заметил никаких тормозов при работе с плагином shnodoubles. Вы можете скинуть мне сайт в личку, может там что-то другое тормозит работу? Или скрипты конфликтуют?

    Кстати, попробуйте расписать свою проблему на форуме _http://hekima.ru/forum/index/Shnodoubles

    Я думаю, что Вам там обязательно помогут.

    ---------- Сообщение добавлено 17:24 ---------- Предыдущее 16:48 ----------

    К сожалению, сейчас не успеваю полностью изучить Ваш сайт, так как нужно отъехать. Но мельком глянул, и вот, что сразу же бросается в глаза: Общая оценка PageSpeed для страницы составляет 33 (из 100). Если Вы не в курсе, то PageSpeed - это плагин для Google Chrome, с помощью которого можно определить скорость загрузки сайта и найти множество проблем, которые мешают браузеру открывать сайт быстрее.

    Если Вы мне доверяете, то можете скинуть данные для доступа в админку на этот сайт. Так я бы смог более подробно изучить проблему и помочь.
    • 1

    Спасибо сказали:

    semyon(25.01.2013),

Похожие темы

Темы Раздел Ответов Последний пост
Тонкости настройки robots.txt для разных CMS [Конкурсная статья]
Оптимизация, SEO 71 11.07.2014 13:23
Тонкости авторегистрации в AllSubmitter
Софт, скрипты, сервисы 5 10.01.2012 16:30
млм и его тонкости
Дайджест блогосферы 0 29.11.2010 11:37

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры