Дублированный контент: причины и решения

**grazer** · 26.09.2011 00:03

Дублированный контент – реальная проблема для поисковых систем, поскольку они часто не могут отличить, где оригинальный текст, а где дубль. Учитывая особенности некоторых CMS и из-за неопытности вебмастеров-новичков, одна страница может продублироваться раз 6-7 в пределах домена. А что будет, если у вас часть контента своруют, а посетители вашего сайта начнут ссылаться на разные страницы с одним и тем же контентом. Как в таком большом количество материалов поисковым системам разобраться где первоисточник? Как поисковику определить, что именно вот эта страница именно на этом сайте должна быть в топе? Давайте разберемся с причинами дублирования, а потом найдем способы избавиться от дублей.

Причины дублирования контента

Существуют десятки причин, которые вызывают дубли страниц. Большинство из них решается на техническом уровне, как, к примеру, если статья появилась на странице example.com/keyword-x/ и example.com/article-category/keyword-x/. Но об этом поговорим ниже, сейчас мы рассматриваем причины.

ID сессии

Часто, когда нужно отследить действия пользователя, либо для хранения информации о вещах, которые они добавили в корзину, используются сессии. При переходе на каждую следующую страницу к текущему URL страницы добавляется ID сессии. Поскольку большинство обычных покупателей онлайн-магазинов слабо разбираются в принципах работы сайтов, они могут сослаться на ваш сайт с ID сессии в URL. Если вы это не предусмотрели, то новая страница может появится в индексе. А если несколько десятков посетителей оставят ссылки на вас с другими сессиями? Представляете, какое количество дублей будет?

Особенности CMS

Если установить wordpress без каких-либо дополнительных действий с ней, а сами посты полностью выводить на главную страницу, то считайте сами сколько может быть дублей:

Главная страница
Страница категории
Страница с тегами
Страница архивов
Страница записей автора
Страницы комментариев записи
Версия для печати
Страницы без слеша в конце URL
Страница без www и т.д.

Т.е. запись, выведенная полностью на главную страницу вполне может продублироваться на более 10 страницах сайта вашего домена, не считая тех, кто любит копипастить.

Копирование контента

Хотя копипаст и плохо индексируется, да и часто выпадает из индекса, он еще не до конца умер, да и не думаю, что полностью умрет. По-прежнему с других сайтов воруют контент, иногда руками, иногда парсерами. Чем популярнее у вас сайт, тем чаще будут растаскивать контент. К этому нужно быть готовым и продолжать развивать свой сайт, т.к. нет смысла тратить время на борьбу с копипастерами.

URL с параметрами

Многие не очень популярные CMS могут иметь вот такую структуру URL-адресов: ?id=1&cat=2, где id – идентификатор поста, а cat – идентификатор категории. Причем если поменять идентификаторы местами, то вы все равно попадете на нужную страницу. Но поисковые системы этого не понимают, для них урлы ?id=1&cat=2 и /?cat=2&id=1 – разные страницы с одинаковым контентом.

Страницы комментариев

Есть различные плагины, с помощью которых можно большое количество комментариев на одной странице разбить на несколько страниц для более быстрой загрузки страницы. Это приводит к дублированию контента на страницах URL +/comment-page-1/, /comment-page-2/ и т.д.

Страницы для печати

Никогда не создавал страниц для печати на своих сайтах, если честно. Но те, кто создают, часто не задумываются о том, что страница не для печати и для печати содержат одинаковый контент. И снова поисковой системе нужно пытаться определить, где же первоисточник.

WWW и не-WWW

Забавно, но поисковые системы (особенно идиот-яндекс) до сих пор часто ошибочно начинают считать домены с WWW и не-WWW – разными сайтами. Я никогда в своих доменах не использую WWW – все домены у меня без этих 3 бесполезных букв. Но солнце-яндекс упорно пытается мне доказать, что главное зеркало у меня с WWW, либо вообще выбросить сайт без WWW из поиска.

Как определить, есть ли в пределах сайта дублированный контент

Google Webmaster Tools

Google Webmaster Tools – один из лучших инструментов по поиску дублированного контента в пределах вашего домена. Переходим на страницу Diagnostics -> HTML Suggestions и видим следующее:

Если у страниц есть одинаковые мета-теги описания – это не очень хорошо. Мета-теги должны быть уникальными. Если они повторяются, возможно, где-то на сайте есть дубли страниц.

Воспользуемся поиском

Есть несколько операторов поиска, с помощью которых можно найти дублированный контент, который Google уже проиндексировал. Если вы хотите найти в поиске все URL адреса вашего сайта example.com, содержащие в заголовки ключевое слово «Keyword X», то вам нужно набрать в поиске запрос:

Код HTML:

site:example.com intitle:"Keyword X"

Если же вам нужно найти дубли страницы вашего сайта с заголовком «Привет, я новичек в оптимизации» в интернете, то вам нужно сделать вот такой запрос:

Код HTML:

intitle:" Привет, я новичек в оптимизации"

Google отобразит вам ссылки на все страницы в поиске, в заголовке которых содержится фраза «Привет, я новичек в оптимизации».

Найти дубли можно и по-другому. Попробуйте ввести в поиск запрос в виде одного любого предложения вашей статьи. И Google отобразит все дубли страницы в поиске:

Как решить проблему с дублированным контентом?

Не создавать его.

Отключить ID сессии в ваших URL-адресах.
Вместо страницы для печати можно использовать отдельный файл CSS.
Отключить вывод комментариев на нескольких страницах.
Зафиксировать параметры URL в одном порядке.
Установить редирект с www на не-www.
Не отдавать полные посты на главную страницу сайта, только анонсы.

Сделать robots.txt
Нужно закрыть все лишние страницы сайта от индексации. Идеальный robots.txt для для wordpress выглядит вот так:

Код HTML:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /* 
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
Sitemap: http://vash-site.ru/sitemap.xml
 
User-agent: Yandex
Crawl-delay: 5
 
Disallow: /tag

Пользоваться тегом rel="canonical"
Если не получается избавиться от дублей и закрыть их от индексации, то на страницах дублей в разделе <head> можно указать оригиналы страницы:

Код HTML:

<a link rel="canonical" href=http://example.com/keyword-x/></a>

, где example.com/keyword-x/ - оригинал страницы.

4. Если не подходят перечисленные способы

Со страниц дублей можно ссылаться на оригинальные страницы с помощью «хлебных крошек», чтобы поисковым системам было проще разобраться в структуре сайта. Выглядит это приблизительно вот так:

Главная >> Категория >> Интересный заголовок поста

А какие интересные решения защиты от дублирования контента можете добавить вы?

**~~Rj.DiNex~~** · 26.09.2011 01:06

Merci, буквально сегодня была ложная паника с robots.txt :)

**~~SEOvsSMO~~** · 26.09.2011 01:52

Очень интересная статья, но первый раз вижу такой роботс для WP.

**alexeyvip** · 30.09.2011 21:16

Благодарен за статью, актуальная, попробую поменять robots и посмотреть на результат

**iavtomoto** · 30.09.2011 22:00

последние 4 месяца яндекс стал выискивать на сайте дубли страниц, самое интересное что трафик возрос от этого на 50%, все бы хорошо, но проблема появилась - вконтактовские коменты написанные по сути к одному материалу раскиданы на несколько урлов..
в выдаче присутствуют вперемешку и дубли и реальные страницы, значит если убрать дубли то потеряется треть трафика, правильно?

**Matsa** · 05.03.2012 03:06

Сообщение от grazer

Страницы без слеша в конце URL

А разьве по умолчанию в CMS он не без сплеша?

**numinoross** · 17.04.2012 18:35

Хз, интересная статья. Такой вопрос, даже с закрытым роботсом чегойто попали в индексацию гугля фиды. Как можно избавиться от такого непотребства. Так же вопрос по картинкам их нужно закрывать или нет? Кстати у одной даже ПР-ка появилась.

**dezfor** · 14.05.2012 13:49

Спасибо за интересную статью. Нужно будет обязательно попробовать убрать дубли на своём блоге стареньком. У меня там 121 пост + 1 страница статическая, а в Гугле аж 394 стр., а Яндексе 276 стр. Сайт работает с 2009 года и там всегда такая ситуация была с дублями, пора уже и почистить. :)

P.S.Я наверное плохой оптимизатор, потому что всё равно немного опасаюсь не будет ли негативных последствий после таких действий. Боюсь, чтобы санкций на меня поисковики не навешали

**Ihor** · 15.05.2012 02:03

если активирую хлебные крошки на страницах single
выведу меню рубрики
Это значит, что на одной странице будут присутствовать 2 ссылки на 1 страницу и так по всему блогу, если учесть что на нем опубликовано 100 постов, сколько лишних ссылок?
Я прав в своих рассуждениях?

**dezfor** · 17.05.2012 17:38

Ihor, Вы запутались. В данном случае проблема сводится не к количеству лишних ссылок, а к тому, что на различных URL адресах расположена одинаковая информация.
К примеру, создана Запись "Привет, Мир" с уникальным текстовым наполнением. Дублями же будет отображение текста из этой записи в архивах, категориях и т.д.

Хлебные крошки ничему не повредят, а наоборот улучшат юзабилити сайта. При активации данного плагина в навигации ссылка на страницу, где находится пользователь не создаётся. И чтобы избежать наличия ссылки в записи на саму себя подправьте single.php, сделав вывод заглавия записи такого формата:

Код:

 <h2><?php the_title(); ?></h2>

	26.09.2011 01:06 #2
~~Rj.DiNex~~ Banned Регистрация: 09.08.2011 Сообщений: 662 Репутация: 62	Merci, буквально сегодня была ложная паника с robots.txt :)
0 Rj.DiNex

	30.09.2011 21:16 #4
alexeyvip Дипломник Регистрация: 10.09.2011 Сообщений: 167 Репутация: 8	Благодарен за статью, актуальная, попробую поменять robots и посмотреть на результат Увеличь заработок на контекстной рекламе! Рекомендую посетить интересный киноблог
0 alexeyvip

	30.09.2011 22:00 #5
iavtomoto Гуру Регистрация: 16.04.2011 Сообщений: 653 Репутация: 151	последние 4 месяца яндекс стал выискивать на сайте дубли страниц, самое интересное что трафик возрос от этого на 50%, все бы хорошо, но проблема появилась - вконтактовские коменты написанные по сути к одному материалу раскиданы на несколько урлов.. в выдаче присутствуют вперемешку и дубли и реальные страницы, значит если убрать дубли то потеряется треть трафика, правильно? -----
0 iavtomoto

	05.03.2012 03:06 #6
Matsa Гуру Регистрация: 11.02.2012 Сообщений: 1,344 Репутация: 558 Webmoney BL: ?	Сообщение от grazer Страницы без слеша в конце URL А разьве по умолчанию в CMS он не без сплеша? Читаю https://bankstoday.net/ и стал разбираться в экономике и финансах
0 Matsa

	17.04.2012 18:35 #7
numinoross Гуру Регистрация: 12.07.2011 Сообщений: 735 Репутация: 170	Хз, интересная статья. Такой вопрос, даже с закрытым роботсом чегойто попали в индексацию гугля фиды. Как можно избавиться от такого непотребства. Так же вопрос по картинкам их нужно закрывать или нет? Кстати у одной даже ПР-ка появилась.
0 numinoross

Дублированный контент: причины и решения

Опции темы

Спасибо сказали:

Спасибо сказали:

Тэги топика:

Похожие темы

Санкции за дублированный контент — МИФ

Бан от Яндекс, не могу найти причины

Причины деклайнов? (расскажите)

Интересные темы

определение дублей страниц

wp trackback

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры

	14.05.2012 13:49 #8
dezfor Новичок Регистрация: 11.07.2009 Сообщений: 22 Репутация: 9	Спасибо за интересную статью. Нужно будет обязательно попробовать убрать дубли на своём блоге стареньком. У меня там 121 пост + 1 страница статическая, а в Гугле аж 394 стр., а Яндексе 276 стр. Сайт работает с 2009 года и там всегда такая ситуация была с дублями, пора уже и почистить. :) P.S.Я наверное плохой оптимизатор, потому что всё равно немного опасаюсь не будет ли негативных последствий после таких действий. Боюсь, чтобы санкций на меня поисковики не навешали
0 dezfor

	15.05.2012 02:03 #9
Ihor Дипломник Регистрация: 30.09.2011 Сообщений: 196 Репутация: 14	если активирую хлебные крошки на страницах single выведу меню рубрики Это значит, что на одной странице будут присутствовать 2 ссылки на 1 страницу и так по всему блогу, если учесть что на нем опубликовано 100 постов, сколько лишних ссылок? Я прав в своих рассуждениях?
0 Ihor

	17.05.2012 17:38 #10
dezfor Новичок Регистрация: 11.07.2009 Сообщений: 22 Репутация: 9	Ihor, Вы запутались. В данном случае проблема сводится не к количеству лишних ссылок, а к тому, что на различных URL адресах расположена одинаковая информация. К примеру, создана Запись "Привет, Мир" с уникальным текстовым наполнением. Дублями же будет отображение текста из этой записи в архивах, категориях и т.д. Хлебные крошки ничему не повредят, а наоборот улучшат юзабилити сайта. При активации данного плагина в навигации ссылка на страницу, где находится пользователь не создаётся. И чтобы избежать наличия ссылки в записи на саму себя подправьте single.php, сделав вывод заглавия записи такого формата: Код: <h2><?php the_title(); ?></h2>
0 dezfor

Темы	Раздел	Ответов	Последний пост
Санкции за дублированный контент — МИФ	Общие вопросы поисковой оптимизации	144	29.09.2011 13:17
Бан от Яндекс, не могу найти причины	Поисковые системы	17	07.08.2011 00:25
Причины деклайнов? (расскажите)	Партнерские программы	7	13.09.2009 15:56