Записки вебмастера

Дублированный контент – методы обнаружения и предотвращения

17.08.2010 | Оптимизация |

Дублированный контент – старый вопрос в SEO. Тем не менее, сейчас можно найти еще множество сайтов, на страницах которых есть много дублированного контента, как в пределах домена, так и за его пределами. По причине того, что за дублированный контент можно получить санкции от поисковых систем, в сегодняшней статье я бы хотел расширить ваши знания в это области и рассказать, как предотвращать появление и обнаруживать дублированный контент.

Последствия, которые может вызвать дублированный контент:

1. Когда в пределах вашего домена есть страницы с дублированным контентом, поисковые системы пытаются определить, какая страница является источником информации, а какая дублем. Какими бы совершенными не были алгоритмы, машина все равно не сможет на 100% правильно определять первоисточник информации. В результате неправильного определения источника, в результатах поиска может отображаться совсем не та страница, которая должна была быть. Я думаю, вы уже не раз наблюдали такое.

2. Поисковые системы любят посещать сайты, которые регулярно обновляются уникальным контентом. Если на вашем сайте будет слишком много дублированного контента, то поисковые системы в конце концов перестанут его посещать, так как такой сайт не представляет для них никакого интереса.

3. Проблемы с дублированным контентом могут возникнуть тогда, когда кто-то с вашего сайта начнет активно перепечатывать материалы. Если у вора будет сайт более уважаемый поисковыми системами чем ваш, то они могут посчитать источником сайт, который ворует у вас материалы, в результате чего у вас могут появится проблемы с индексацией и позициями в выдаче.

4. Если вы делаете сайты, которые основаны только на дублированном контенте – не ждите хороших позиций в выдаче. Кстати, такой подход к созданию сайтов противоречит принципам поисковых систем.

Есть 2 вида дублированного контента – внутренний и внешний. Давайте для начала рассмотрим тот, который мы можем контролировать, а именно: внутренний дублированный контент.

Поиск дублированного контента в пределах домена с помощью фрагментов текста и оператора Google «Site:»

Поверьте, не нужно покупать никаких программ для проверки уникальности текста. Можно воспользоваться бесплатными инструментами, а можно воспользоваться выдачей Яндекс или Google для поиска дублированного контента.

Если вы хотите проверить контент на вашем сайте на дубли, вам нужно начать с главной страница сайта (это самая важная часть сайта), а потом проверить страницы с контентом.

Шаг 1. Переходи на главную страницу.
Шаг 2. Копируем небольшой фрагмент текста из 10-20 слов с главной страницы сайта. К примеру, я возьму кусок текста с моего основного блога http://moipost.ru/:
Социальные закладки прочно вошли в нашу жизнь, благодаря тому, что удобно иметь ссылки на полезные ресурсы в одном месте
Шаг 3. Вводим в Google запрос следующего вида:
site:moipost.ru Социальные закладки прочно вошли в нашу жизнь, благодаря тому, что удобно иметь ссылки на полезные ресурсы в одном месте

И жмем кнопку «Поиск».

Если вы увидите только один результат в поиске, то информация с главной страницы вашего сайта не дублируется. А вот на моем блоге есть дублированный контент, это можно увидеть на скриншоте:

Таким методом можно проверить любую страницу на вашем сайте.

Несколько советов:

1. При использовании оператора site, используйте вариант домена без WWW (к примеру, site:webmasters.ru), таким образом google осуществит поиск по всем проиндексированным страницам сайта и поддоменам и т.д.

2. Как правило, у дублированного контента одинаковые заголовки (title), поэтому поиск такого контента проще осуществить с помощью запросов следующего вида:

allintitle:Заголовок страницы site:webmasters.ru

3. Если в URL-адресах вашего сайта есть идентификаторы сессии, то нужно проверить, не вызывают ли эти идентификаторы дублирования контента. Проверить это можно с помощью запроса:

allinurl:id_сессии_на_вашем_сайт� � site:webmasters.ru

Пример: allinurl: "osCsid" site:bikefriday.com

Поиск дублированного контента с помощью программы Xenu Sleuth

Прошлым способом мы можем найти дублированный контент только в том случае, если он проиндексирован Google. Чтобы найти весь дублированный контент на сайте, можно воспользоваться бесплатной программой Xenu Sleuth.

Поиск дублированного контента с помощью Xenu Sleuth:

Шаг 1. Запуск Xenu Sleuth.
Шаг 2. Go to File ==> Check URL.
Шаг 3. Вводим канонический адрес главной страницы сайта. Если вы используете WWW версию, то введите:
http://www.thisisyourwebsite.ru/

Другие параметры:
Не ставьте галочку возле пункта «Проверить внешние ссылки», так как это очень замедляет проверку.
Не вводите ничего в поля «Include/Exclude».

Шаг 4. Жмите кнопку ОК и Xenu начнет проверять сайт. Длительность проверки зависит от размеров сайта.
Шаг 5. Как только сканирование будет закончено, появится окошко со словами «Link Sleuth finished. Do you want a report?». Нажмите NO.
Шаг 6. Сохраните отчет о сканировании. Go to File ==> Save As ==> и выберите имя папки и имя файла, под которым будет сохранен отчет. Потом можно будет открыть этот файл и посмотреть отчет без повторной проверки сайта.
Шаг 7. Можно экспортировать данные в файл CSV или MS Excel, чтобы потом можно было удобнее проанализировать результаты. Сделать это можно так: Go to File ==> Export.
Шаг 8. Открыв файл с помощью MS Excel можно приступить к анализу отчета.

Самый быстрый способ найти страницы с дублированным контентом – расположить заголовки в алфавитном порядке. К страницам, у которых одинаковые заголовки или похожее содержании нужно применить определенные меры. Либо разбавить уникальным контентом, либо блокировать лишние страницы с помощью файла robots.txt. О методах предотвращения дублей мы поговорим чуть ниже. Кроме этого, страницы, размер которых практически одинаковый, также, как правило, содержат дублированный контент.

Поиск внешнего дублированного контента

Теперь пора найти дублированный контент за пределами домена.

С помощью Copyscape

Чтобы быстро найти дублированный контент на других сайтах, можно воспользоваться сервисом Copyscape. Заходим на главную страницу сервиса, вводим адрес главной страницы нашего сайта и жмем Enter.

Если вы увидите сообщение: «No results were found for this page. Click below to try some other pages on your site», значит Copyscape не нашел дублированного контента для этой страницы. Но, вам нужно обязательно проверить другие важные страницы сайта, чтобы посмотреть, не воруют ли у вас новости.

Если Copyscape нашел потенциальные дубликаты страниц, то вам нужно проверить все результаты с помощью инструмента Similar Page Checker. Этот инструмент позволяет определить процент схожести нескольких страницы.

С помощью Google

С помощью Google можно искать дублированный контент и за пределами вашего домена. Нужно просто ввести небольшую фразу в кавычках в окно поиска. К примеру:

«Социальные закладки прочно вошли в нашу жизнь, благодаря тому, что удобно иметь ссылки на полезные ресурсы в одном месте»

Как видите, точное вхождение фразы есть только на моем блоге. Значит еще не успели скопировать. :)

Предотвращение дублирования контента

Можно использовать любой из способов ниже, чтобы предотвратить появления дублированного контента:

1. Robots.txt

2. Htaccess и 301 редирект

3. Мета-теги noindex и nofollow.
Если вы хотите, чтобы контент страницы не индексировался, но ссылки на этой странице индексировались, воспользуйтесь тегом noindex.
<meta name="robots" content="noindex">

4. Воспользуйтесь настройками Google Webmaster Tools.

5. Для устранения дублированного контента за пределами домена, свяжитесь с веб-мастерами, которые своровали у вас контент. Я обычно обращаюсь только к тем, кто не размещает активной гиперссылки на источник информации.