Дублированный контент – реальная проблема для поисковых систем, поскольку они часто не могут отличить, где оригинальный текст, а где дубль. Учитывая особенности некоторых CMS и из-за неопытности вебмастеров-новичков, одна страница может продублироваться раз 6-7 в пределах домена. А что будет, если у вас часть контента своруют, а посетители вашего сайта начнут ссылаться на разные страницы с одним и тем же контентом. Как в таком большом количество материалов поисковым системам разобраться где первоисточник? Как поисковику определить, что именно вот эта страница именно на этом сайте должна быть в топе? Давайте разберемся с причинами дублирования, а потом найдем способы избавиться от дублей.
Причины дублирования контента
Существуют десятки причин, которые вызывают дубли страниц. Большинство из них решается на техническом уровне, как, к примеру, если статья появилась на странице example.com/keyword-x/ и example.com/article-category/keyword-x/. Но об этом поговорим ниже, сейчас мы рассматриваем причины.
ID сессии
Часто, когда нужно отследить действия пользователя, либо для хранения информации о вещах, которые они добавили в корзину, используются сессии. При переходе на каждую следующую страницу к текущему URL страницы добавляется ID сессии. Поскольку большинство обычных покупателей онлайн-магазинов слабо разбираются в принципах работы сайтов, они могут сослаться на ваш сайт с ID сессии в URL. Если вы это не предусмотрели, то новая страница может появится в индексе. А если несколько десятков посетителей оставят ссылки на вас с другими сессиями? Представляете, какое количество дублей будет?
Особенности CMS
Если установить wordpress без каких-либо дополнительных действий с ней, а сами посты полностью выводить на главную страницу, то считайте сами сколько может быть дублей:Т.е. запись, выведенная полностью на главную страницу вполне может продублироваться на более 10 страницах сайта вашего домена, не считая тех, кто любит копипастить.
- Главная страница
- Страница категории
- Страница с тегами
- Страница архивов
- Страница записей автора
- Страницы комментариев записи
- Версия для печати
- Страницы без слеша в конце URL
- Страница без www и т.д.
Копирование контента
Хотя копипаст и плохо индексируется, да и часто выпадает из индекса, он еще не до конца умер, да и не думаю, что полностью умрет. По-прежнему с других сайтов воруют контент, иногда руками, иногда парсерами. Чем популярнее у вас сайт, тем чаще будут растаскивать контент. К этому нужно быть готовым и продолжать развивать свой сайт, т.к. нет смысла тратить время на борьбу с копипастерами.
URL с параметрами
Многие не очень популярные CMS могут иметь вот такую структуру URL-адресов: ?id=1&cat=2, где id – идентификатор поста, а cat – идентификатор категории. Причем если поменять идентификаторы местами, то вы все равно попадете на нужную страницу. Но поисковые системы этого не понимают, для них урлы ?id=1&cat=2 и /?cat=2&id=1 – разные страницы с одинаковым контентом.
Страницы комментариев
Есть различные плагины, с помощью которых можно большое количество комментариев на одной странице разбить на несколько страниц для более быстрой загрузки страницы. Это приводит к дублированию контента на страницах URL +/comment-page-1/, /comment-page-2/ и т.д.
Страницы для печати
Никогда не создавал страниц для печати на своих сайтах, если честно. Но те, кто создают, часто не задумываются о том, что страница не для печати и для печати содержат одинаковый контент. И снова поисковой системе нужно пытаться определить, где же первоисточник.
WWW и не-WWW
Забавно, но поисковые системы (особенно идиот-яндекс) до сих пор часто ошибочно начинают считать домены с WWW и не-WWW – разными сайтами. Я никогда в своих доменах не использую WWW – все домены у меня без этих 3 бесполезных букв. Но солнце-яндекс упорно пытается мне доказать, что главное зеркало у меня с WWW, либо вообще выбросить сайт без WWW из поиска.
Как определить, есть ли в пределах сайта дублированный контент
Google Webmaster Tools
Google Webmaster Tools – один из лучших инструментов по поиску дублированного контента в пределах вашего домена. Переходим на страницу Diagnostics -> HTML Suggestions и видим следующее:
Если у страниц есть одинаковые мета-теги описания – это не очень хорошо. Мета-теги должны быть уникальными. Если они повторяются, возможно, где-то на сайте есть дубли страниц.
Воспользуемся поиском
Есть несколько операторов поиска, с помощью которых можно найти дублированный контент, который Google уже проиндексировал. Если вы хотите найти в поиске все URL адреса вашего сайта example.com, содержащие в заголовки ключевое слово «Keyword X», то вам нужно набрать в поиске запрос:Код HTML:Если же вам нужно найти дубли страницы вашего сайта с заголовком «Привет, я новичек в оптимизации» в интернете, то вам нужно сделать вот такой запрос:site:example.com intitle:"Keyword X"Код HTML:Google отобразит вам ссылки на все страницы в поиске, в заголовке которых содержится фраза «Привет, я новичек в оптимизации».intitle:" Привет, я новичек в оптимизации"
Найти дубли можно и по-другому. Попробуйте ввести в поиск запрос в виде одного любого предложения вашей статьи. И Google отобразит все дубли страницы в поиске:
Как решить проблему с дублированным контентом?
Не создавать его.Сделать robots.txt
- Отключить ID сессии в ваших URL-адресах.
- Вместо страницы для печати можно использовать отдельный файл CSS.
- Отключить вывод комментариев на нескольких страницах.
- Зафиксировать параметры URL в одном порядке.
- Установить редирект с www на не-www.
- Не отдавать полные посты на главную страницу сайта, только анонсы.
Нужно закрыть все лишние страницы сайта от индексации. Идеальный robots.txt для для wordpress выглядит вот так:
Код HTML:Пользоваться тегом rel="canonical"User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads # Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # Internet Archiver Wayback Machine User-agent: ia_archiver Disallow: / # digg mirror User-agent: duggmirror Disallow: / Sitemap: http://vash-site.ru/sitemap.xml User-agent: Yandex Crawl-delay: 5 Disallow: /tag
Если не получается избавиться от дублей и закрыть их от индексации, то на страницах дублей в разделе <head> можно указать оригиналы страницы:Код HTML:, где example.com/keyword-x/ - оригинал страницы.<a link rel="canonical" href=http://example.com/keyword-x/></a>
4. Если не подходят перечисленные способы
Со страниц дублей можно ссылаться на оригинальные страницы с помощью «хлебных крошек», чтобы поисковым системам было проще разобраться в структуре сайта. Выглядит это приблизительно вот так:
Главная >> Категория >> Интересный заголовок поста
А какие интересные решения защиты от дублирования контента можете добавить вы?
- 26.09.2011 00:03
Последний раз редактировалось grazer; 14.05.2012 в 18:19.
Спасибо сказали:
Boss199999(26.09.2011), Dager(17.05.2012), eholin(21.05.2012), Livas(15.05.2012), MasterAL(26.04.2012), Matsa(05.03.2012), Orcstation(17.05.2012),Rj.DiNex(26.09.2011),SEOvsSMO(26.09.2011), vo100k(19.04.2012), - 26.09.2011 01:06Banned

- Регистрация: 09.08.2011
- Сообщений: 662
- Репутация: 62
Merci, буквально сегодня была ложная паника с robots.txt :)
- 26.09.2011 01:52Banned

- Регистрация: 21.09.2011
- Сообщений: 27
- Репутация: 6
Очень интересная статья, но первый раз вижу такой роботс для WP.
Спасибо сказали:
Denis Creative(17.05.2012), - 30.09.2011 21:16
Благодарен за статью, актуальная, попробую поменять robots и посмотреть на результат
- 30.09.2011 22:00
последние 4 месяца яндекс стал выискивать на сайте дубли страниц, самое интересное что трафик возрос от этого на 50%, все бы хорошо, но проблема появилась - вконтактовские коменты написанные по сути к одному материалу раскиданы на несколько урлов..
в выдаче присутствуют вперемешку и дубли и реальные страницы, значит если убрать дубли то потеряется треть трафика, правильно? - 05.03.2012 03:06
- 17.04.2012 18:35
Хз, интересная статья. Такой вопрос, даже с закрытым роботсом чегойто попали в индексацию гугля фиды. Как можно избавиться от такого непотребства. Так же вопрос по картинкам их нужно закрывать или нет? Кстати у одной даже ПР-ка появилась.
- 14.05.2012 13:49
Спасибо за интересную статью. Нужно будет обязательно попробовать убрать дубли на своём блоге стареньком. У меня там 121 пост + 1 страница статическая, а в Гугле аж 394 стр., а Яндексе 276 стр. Сайт работает с 2009 года и там всегда такая ситуация была с дублями, пора уже и почистить. :)
P.S.Я наверное плохой оптимизатор, потому что всё равно немного опасаюсь не будет ли негативных последствий после таких действий. Боюсь, чтобы санкций на меня поисковики не навешали - 15.05.2012 02:03Дипломник

- Регистрация: 30.09.2011
- Сообщений: 196
- Репутация: 14
если активирую хлебные крошки на страницах single
выведу меню рубрики
Это значит, что на одной странице будут присутствовать 2 ссылки на 1 страницу и так по всему блогу, если учесть что на нем опубликовано 100 постов, сколько лишних ссылок?
Я прав в своих рассуждениях? - 17.05.2012 17:38
Ihor, Вы запутались. В данном случае проблема сводится не к количеству лишних ссылок, а к тому, что на различных URL адресах расположена одинаковая информация.
К примеру, создана Запись "Привет, Мир" с уникальным текстовым наполнением. Дублями же будет отображение текста из этой записи в архивах, категориях и т.д.
Хлебные крошки ничему не повредят, а наоборот улучшат юзабилити сайта. При активации данного плагина в навигации ссылка на страницу, где находится пользователь не создаётся. И чтобы избежать наличия ссылки в записи на саму себя подправьте single.php, сделав вывод заглавия записи такого формата:Код:<h2><?php the_title(); ?></h2>
Тэги топика:
Похожие темы
| Темы | Раздел | Ответов | Последний пост |
|---|---|---|---|
Санкции за дублированный контент — МИФ | Общие вопросы поисковой оптимизации | 144 | 29.09.2011 13:17 |
Бан от Яндекс, не могу найти причины | Поисковые системы | 17 | 07.08.2011 00:25 |
Причины деклайнов? (расскажите) | Партнерские программы | 7 | 13.09.2009 15:56 |
Интересные темы
определение дублей страниц
Какие сервисы или программы могут помочь в определении дублей страниц, читайте все подробности здесь.
wp trackback
Опытные вебмастера рассказывают о том, как грамотно написать файл robots.txt, например wp trackback.





