Дублированный контент – реальная проблема для поисковых систем, поскольку они часто не могут отличить, где оригинальный текст, а где дубль. Учитывая особенности некоторых CMS и из-за неопытности вебмастеров-новичков, одна страница может продублироваться раз 6-7 в пределах домена. А что будет, если у вас часть контента своруют, а посетители вашего сайта начнут ссылаться на разные страницы с одним и тем же контентом. Как в таком большом количество материалов поисковым системам разобраться где первоисточник? Как поисковику определить, что именно вот эта страница именно на этом сайте должна быть в топе? Давайте разберемся с причинами дублирования, а потом найдем способы избавиться от дублей.
Причины дублирования контента
Существуют десятки причин, которые вызывают дубли страниц. Большинство из них решается на техническом уровне, как, к примеру, если статья появилась на странице example.com/keyword-x/ и example.com/article-category/keyword-x/. Но об этом поговорим ниже, сейчас мы рассматриваем причины.
ID сессии
Часто, когда нужно отследить действия пользователя, либо для хранения информации о вещах, которые они добавили в корзину, используются сессии. При переходе на каждую следующую страницу к текущему URL страницы добавляется ID сессии. Поскольку большинство обычных покупателей онлайн-магазинов слабо разбираются в принципах работы сайтов, они могут сослаться на ваш сайт с ID сессии в URL. Если вы это не предусмотрели, то новая страница может появится в индексе. А если несколько десятков посетителей оставят ссылки на вас с другими сессиями? Представляете, какое количество дублей будет?
Особенности CMS
Если установить wordpress без каких-либо дополнительных действий с ней, а сами посты полностью выводить на главную страницу, то считайте сами сколько может быть дублей:
Главная страница
Страница категории
Страница с тегами
Страница архивов
Страница записей автора
Страницы комментариев записи
Версия для печати
Страницы без слеша в конце URL
Страница без www и т.д.
Т.е. запись, выведенная полностью на главную страницу вполне может продублироваться на более 10 страницах сайта вашего домена, не считая тех, кто любит копипастить.
Копирование контента
Хотя копипаст и плохо индексируется, да и часто выпадает из индекса, он еще не до конца умер, да и не думаю, что полностью умрет. По-прежнему с других сайтов воруют контент, иногда руками, иногда парсерами. Чем популярнее у вас сайт, тем чаще будут растаскивать контент. К этому нужно быть готовым и продолжать развивать свой сайт, т.к. нет смысла тратить время на борьбу с копипастерами.
URL с параметрами
Многие не очень популярные CMS могут иметь вот такую структуру URL-адресов: ?id=1&cat=2, где id – идентификатор поста, а cat – идентификатор категории. Причем если поменять идентификаторы местами, то вы все равно попадете на нужную страницу. Но поисковые системы этого не понимают, для них урлы ?id=1&cat=2 и /?cat=2&id=1 – разные страницы с одинаковым контентом.
Страницы комментариев
Есть различные плагины, с помощью которых можно большое количество комментариев на одной странице разбить на несколько страниц для более быстрой загрузки страницы. Это приводит к дублированию контента на страницах URL +/comment-page-1/, /comment-page-2/ и т.д.
Страницы для печати
Никогда не создавал страниц для печати на своих сайтах, если честно. Но те, кто создают, часто не задумываются о том, что страница не для печати и для печати содержат одинаковый контент. И снова поисковой системе нужно пытаться определить, где же первоисточник.
WWW и не-WWW
Забавно, но поисковые системы (особенно идиот-яндекс) до сих пор часто ошибочно начинают считать домены с WWW и не-WWW – разными сайтами. Я никогда в своих доменах не использую WWW – все домены у меня без этих 3 бесполезных букв. Но солнце-яндекс упорно пытается мне доказать, что главное зеркало у меня с WWW, либо вообще выбросить сайт без WWW из поиска.
Как определить, есть ли в пределах сайта дублированный контент
Google Webmaster Tools
Google Webmaster Tools – один из лучших инструментов по поиску дублированного контента в пределах вашего домена. Переходим на страницу Diagnostics -> HTML Suggestions и видим следующее:
Если у страниц есть одинаковые мета-теги описания – это не очень хорошо. Мета-теги должны быть уникальными. Если они повторяются, возможно, где-то на сайте есть дубли страниц.
Воспользуемся поиском
Есть несколько операторов поиска, с помощью которых можно найти дублированный контент, который Google уже проиндексировал. Если вы хотите найти в поиске все URL адреса вашего сайта example.com, содержащие в заголовки ключевое слово «Keyword X», то вам нужно набрать в поиске запрос:
Код HTML:
site:example.com intitle:"Keyword X"
Если же вам нужно найти дубли страницы вашего сайта с заголовком «Привет, я новичек в оптимизации» в интернете, то вам нужно сделать вот такой запрос:
Код HTML:
intitle:" Привет, я новичек в оптимизации"
Google отобразит вам ссылки на все страницы в поиске, в заголовке которых содержится фраза «Привет, я новичек в оптимизации».
Найти дубли можно и по-другому. Попробуйте ввести в поиск запрос в виде одного любого предложения вашей статьи. И Google отобразит все дубли страницы в поиске:
Как решить проблему с дублированным контентом?
Не создавать его.
Отключить ID сессии в ваших URL-адресах.
Вместо страницы для печати можно использовать отдельный файл CSS.
Отключить вывод комментариев на нескольких страницах.
Зафиксировать параметры URL в одном порядке.
Установить редирект с www на не-www.
Не отдавать полные посты на главную страницу сайта, только анонсы.
Сделать robots.txt Нужно закрыть все лишние страницы сайта от индексации. Идеальный robots.txt для для wordpress выглядит вот так:
Пользоваться тегом rel="canonical" Если не получается избавиться от дублей и закрыть их от индексации, то на страницах дублей в разделе <head> можно указать оригиналы страницы:
Код HTML:
<a link rel="canonical" href=http://example.com/keyword-x/></a>
, где example.com/keyword-x/ - оригинал страницы.
4. Если не подходят перечисленные способы
Со страниц дублей можно ссылаться на оригинальные страницы с помощью «хлебных крошек», чтобы поисковым системам было проще разобраться в структуре сайта. Выглядит это приблизительно вот так:
Главная >> Категория >> Интересный заголовок поста
А какие интересные решения защиты от дублирования контента можете добавить вы?
Последний раз редактировалось grazer; 14.05.2012 в 18:19.
последние 4 месяца яндекс стал выискивать на сайте дубли страниц, самое интересное что трафик возрос от этого на 50%, все бы хорошо, но проблема появилась - вконтактовские коменты написанные по сути к одному материалу раскиданы на несколько урлов.. в выдаче присутствуют вперемешку и дубли и реальные страницы, значит если убрать дубли то потеряется треть трафика, правильно?
Хз, интересная статья. Такой вопрос, даже с закрытым роботсом чегойто попали в индексацию гугля фиды. Как можно избавиться от такого непотребства. Так же вопрос по картинкам их нужно закрывать или нет? Кстати у одной даже ПР-ка появилась.
Спасибо за интересную статью. Нужно будет обязательно попробовать убрать дубли на своём блоге стареньком. У меня там 121 пост + 1 страница статическая, а в Гугле аж 394 стр., а Яндексе 276 стр. Сайт работает с 2009 года и там всегда такая ситуация была с дублями, пора уже и почистить. :)
P.S.Я наверное плохой оптимизатор, потому что всё равно немного опасаюсь не будет ли негативных последствий после таких действий. Боюсь, чтобы санкций на меня поисковики не навешали
если активирую хлебные крошки на страницах single выведу меню рубрики Это значит, что на одной странице будут присутствовать 2 ссылки на 1 страницу и так по всему блогу, если учесть что на нем опубликовано 100 постов, сколько лишних ссылок? Я прав в своих рассуждениях?
Ihor, Вы запутались. В данном случае проблема сводится не к количеству лишних ссылок, а к тому, что на различных URL адресах расположена одинаковая информация. К примеру, создана Запись "Привет, Мир" с уникальным текстовым наполнением. Дублями же будет отображение текста из этой записи в архивах, категориях и т.д.
Хлебные крошки ничему не повредят, а наоборот улучшат юзабилити сайта. При активации данного плагина в навигации ссылка на страницу, где находится пользователь не создаётся. И чтобы избежать наличия ссылки в записи на саму себя подправьте single.php, сделав вывод заглавия записи такого формата: