Дублированный контент: причины и решения

(Ответов: 9, Просмотров: 4464)
  1. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 5,201
    • Записей в дневнике: 83
    • Репутация: 2381
    • Webmoney BL: ?
    Дублированный контент – реальная проблема для поисковых систем, поскольку они часто не могут отличить, где оригинальный текст, а где дубль. Учитывая особенности некоторых CMS и из-за неопытности вебмастеров-новичков, одна страница может продублироваться раз 6-7 в пределах домена. А что будет, если у вас часть контента своруют, а посетители вашего сайта начнут ссылаться на разные страницы с одним и тем же контентом. Как в таком большом количество материалов поисковым системам разобраться где первоисточник? Как поисковику определить, что именно вот эта страница именно на этом сайте должна быть в топе? Давайте разберемся с причинами дублирования, а потом найдем способы избавиться от дублей.

    Причины дублирования контента

    Существуют десятки причин, которые вызывают дубли страниц. Большинство из них решается на техническом уровне, как, к примеру, если статья появилась на странице example.com/keyword-x/ и example.com/article-category/keyword-x/. Но об этом поговорим ниже, сейчас мы рассматриваем причины.

    ID сессии

    Часто, когда нужно отследить действия пользователя, либо для хранения информации о вещах, которые они добавили в корзину, используются сессии. При переходе на каждую следующую страницу к текущему URL страницы добавляется ID сессии. Поскольку большинство обычных покупателей онлайн-магазинов слабо разбираются в принципах работы сайтов, они могут сослаться на ваш сайт с ID сессии в URL. Если вы это не предусмотрели, то новая страница может появится в индексе. А если несколько десятков посетителей оставят ссылки на вас с другими сессиями? Представляете, какое количество дублей будет?

    Особенности CMS

    Если установить wordpress без каких-либо дополнительных действий с ней, а сами посты полностью выводить на главную страницу, то считайте сами сколько может быть дублей:
    • Главная страница
    • Страница категории
    • Страница с тегами
    • Страница архивов
    • Страница записей автора
    • Страницы комментариев записи
    • Версия для печати
    • Страницы без слеша в конце URL
    • Страница без www и т.д.
    Т.е. запись, выведенная полностью на главную страницу вполне может продублироваться на более 10 страницах сайта вашего домена, не считая тех, кто любит копипастить.

    Копирование контента

    Хотя копипаст и плохо индексируется, да и часто выпадает из индекса, он еще не до конца умер, да и не думаю, что полностью умрет. По-прежнему с других сайтов воруют контент, иногда руками, иногда парсерами. Чем популярнее у вас сайт, тем чаще будут растаскивать контент. К этому нужно быть готовым и продолжать развивать свой сайт, т.к. нет смысла тратить время на борьбу с копипастерами.

    URL с параметрами

    Многие не очень популярные CMS могут иметь вот такую структуру URL-адресов: ?id=1&cat=2, где id – идентификатор поста, а cat – идентификатор категории. Причем если поменять идентификаторы местами, то вы все равно попадете на нужную страницу. Но поисковые системы этого не понимают, для них урлы ?id=1&cat=2 и /?cat=2&id=1 – разные страницы с одинаковым контентом.

    Страницы комментариев

    Есть различные плагины, с помощью которых можно большое количество комментариев на одной странице разбить на несколько страниц для более быстрой загрузки страницы. Это приводит к дублированию контента на страницах URL +/comment-page-1/, /comment-page-2/ и т.д.

    Страницы для печати

    Никогда не создавал страниц для печати на своих сайтах, если честно. Но те, кто создают, часто не задумываются о том, что страница не для печати и для печати содержат одинаковый контент. И снова поисковой системе нужно пытаться определить, где же первоисточник.

    WWW и не-WWW

    Забавно, но поисковые системы (особенно идиот-яндекс) до сих пор часто ошибочно начинают считать домены с WWW и не-WWW – разными сайтами. Я никогда в своих доменах не использую WWW – все домены у меня без этих 3 бесполезных букв. Но солнце-яндекс упорно пытается мне доказать, что главное зеркало у меня с WWW, либо вообще выбросить сайт без WWW из поиска.

    Как определить, есть ли в пределах сайта дублированный контент

    Google Webmaster Tools

    Google Webmaster Tools – один из лучших инструментов по поиску дублированного контента в пределах вашего домена. Переходим на страницу Diagnostics -> HTML Suggestions и видим следующее:



    Если у страниц есть одинаковые мета-теги описания – это не очень хорошо. Мета-теги должны быть уникальными. Если они повторяются, возможно, где-то на сайте есть дубли страниц.

    Воспользуемся поиском

    Есть несколько операторов поиска, с помощью которых можно найти дублированный контент, который Google уже проиндексировал. Если вы хотите найти в поиске все URL адреса вашего сайта example.com, содержащие в заголовки ключевое слово «Keyword X», то вам нужно набрать в поиске запрос:
    Код HTML:
    site:example.com intitle:"Keyword X"
    Если же вам нужно найти дубли страницы вашего сайта с заголовком «Привет, я новичек в оптимизации» в интернете, то вам нужно сделать вот такой запрос:
    Код HTML:
    intitle:" Привет, я новичек в оптимизации"
    Google отобразит вам ссылки на все страницы в поиске, в заголовке которых содержится фраза «Привет, я новичек в оптимизации».

    Найти дубли можно и по-другому. Попробуйте ввести в поиск запрос в виде одного любого предложения вашей статьи. И Google отобразит все дубли страницы в поиске:



    Как решить проблему с дублированным контентом?

    Не создавать его.
    • Отключить ID сессии в ваших URL-адресах.
    • Вместо страницы для печати можно использовать отдельный файл CSS.
    • Отключить вывод комментариев на нескольких страницах.
    • Зафиксировать параметры URL в одном порядке.
    • Установить редирект с www на не-www.
    • Не отдавать полные посты на главную страницу сайта, только анонсы.
    Сделать robots.txt
    Нужно закрыть все лишние страницы сайта от индексации. Идеальный robots.txt для для wordpress выглядит вот так:

    Код HTML:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads
    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /* 
    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /
    # digg mirror
    User-agent: duggmirror
    Disallow: /
    Sitemap: http://vash-site.ru/sitemap.xml
     
    User-agent: Yandex
    Crawl-delay: 5
     
    Disallow: /tag
    Пользоваться тегом rel="canonical"
    Если не получается избавиться от дублей и закрыть их от индексации, то на страницах дублей в разделе <head> можно указать оригиналы страницы:
    Код HTML:
    <a link rel="canonical" href=http://example.com/keyword-x/></a>
    , где example.com/keyword-x/ - оригинал страницы.

    4. Если не подходят перечисленные способы

    Со страниц дублей можно ссылаться на оригинальные страницы с помощью «хлебных крошек», чтобы поисковым системам было проще разобраться в структуре сайта. Выглядит это приблизительно вот так:

    Главная >> Категория >> Интересный заголовок поста

    А какие интересные решения защиты от дублирования контента можете добавить вы?
    Миниатюры 444.JPG   google-webmaster-tools-duplicate-content.jpg  
    Последний раз редактировалось grazer; 14.05.2012 в 17:19.
    Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет.
    Найти меня можно в телеграме, подписывайтесь (cнг/бурж seo).
    • 10

    Спасибо сказали:

    Boss199999(26.09.2011), Dager(17.05.2012), eholin(21.05.2012), Livas(15.05.2012), MasterAL(26.04.2012), Matsa(05.03.2012), Orcstation(17.05.2012), Rj.DiNex(26.09.2011), SEOvsSMO(26.09.2011), vo100k(19.04.2012),
  2. Banned
    • Регистрация: 09.08.2011
    • Сообщений: 662
    • Репутация: 62
    Merci, буквально сегодня была ложная паника с robots.txt :)
    • 0
  3. Banned
    • Регистрация: 21.09.2011
    • Сообщений: 27
    • Репутация: 6
    Очень интересная статья, но первый раз вижу такой роботс для WP.
    • 1

    Спасибо сказали:

    Denis Creative(17.05.2012),
  4. Дипломник Аватар для alexeyvip
    • Регистрация: 10.09.2011
    • Сообщений: 167
    • Репутация: 8
    Благодарен за статью, актуальная, попробую поменять robots и посмотреть на результат
    Увеличь заработок на контекстной рекламе!
    Рекомендую посетить интересный киноблог
    • 0
  5. Гуру Аватар для iavtomoto
    • Регистрация: 16.04.2011
    • Сообщений: 653
    • Репутация: 151
    последние 4 месяца яндекс стал выискивать на сайте дубли страниц, самое интересное что трафик возрос от этого на 50%, все бы хорошо, но проблема появилась - вконтактовские коменты написанные по сути к одному материалу раскиданы на несколько урлов..
    в выдаче присутствуют вперемешку и дубли и реальные страницы, значит если убрать дубли то потеряется треть трафика, правильно?
    -----
    • 0
  6. Гуру Аватар для Matsa
    • Регистрация: 11.02.2012
    • Сообщений: 1,344
    • Репутация: 558
    • Webmoney BL: ?
    Цитата Сообщение от grazer Посмотреть сообщение
    Страницы без слеша в конце URL
    А разьве по умолчанию в CMS он не без сплеша?
    Читаю https://bankstoday.net/ и стал разбираться в экономике и финансах
    • 0
  7. Гуру Аватар для numinoross
    • Регистрация: 12.07.2011
    • Сообщений: 735
    • Репутация: 170
    Хз, интересная статья. Такой вопрос, даже с закрытым роботсом чегойто попали в индексацию гугля фиды. Как можно избавиться от такого непотребства. Так же вопрос по картинкам их нужно закрывать или нет? Кстати у одной даже ПР-ка появилась.
    • 0
  8. Новичок Аватар для dezfor
    • Регистрация: 11.07.2009
    • Сообщений: 22
    • Репутация: 9
    Спасибо за интересную статью. Нужно будет обязательно попробовать убрать дубли на своём блоге стареньком. У меня там 121 пост + 1 страница статическая, а в Гугле аж 394 стр., а Яндексе 276 стр. Сайт работает с 2009 года и там всегда такая ситуация была с дублями, пора уже и почистить. :)

    P.S.Я наверное плохой оптимизатор, потому что всё равно немного опасаюсь не будет ли негативных последствий после таких действий. Боюсь, чтобы санкций на меня поисковики не навешали
    • 0
  9. Дипломник
    • Регистрация: 30.09.2011
    • Сообщений: 196
    • Репутация: 14
    если активирую хлебные крошки на страницах single
    выведу меню рубрики
    Это значит, что на одной странице будут присутствовать 2 ссылки на 1 страницу и так по всему блогу, если учесть что на нем опубликовано 100 постов, сколько лишних ссылок?
    Я прав в своих рассуждениях?
    • 0
  10. Новичок Аватар для dezfor
    • Регистрация: 11.07.2009
    • Сообщений: 22
    • Репутация: 9
    Ihor, Вы запутались. В данном случае проблема сводится не к количеству лишних ссылок, а к тому, что на различных URL адресах расположена одинаковая информация.
    К примеру, создана Запись "Привет, Мир" с уникальным текстовым наполнением. Дублями же будет отображение текста из этой записи в архивах, категориях и т.д.

    Хлебные крошки ничему не повредят, а наоборот улучшат юзабилити сайта. При активации данного плагина в навигации ссылка на страницу, где находится пользователь не создаётся. И чтобы избежать наличия ссылки в записи на саму себя подправьте single.php, сделав вывод заглавия записи такого формата:
    Код:
     <h2><?php the_title(); ?></h2>
    • 0

Похожие темы

Темы Раздел Ответов Последний пост
Санкции за дублированный контент — МИФ
Общие вопросы поисковой оптимизации 144 29.09.2011 12:17
Бан от Яндекс, не могу найти причины
Поисковые системы 17 06.08.2011 23:25
Причины деклайнов? (расскажите)
Партнерские программы 7 13.09.2009 14:56

Интересные темы

определение дублей страниц

Какие сервисы или программы могут помочь в определении дублей страниц, читайте все подробности здесь.

wp trackback

Опытные вебмастера рассказывают о том, как грамотно написать файл robots.txt, например wp trackback.

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры