Перед поисковыми системами давно стоит проблема определения первоисточника контента в интернете. Иногда издательство выкладывает свои тексты в сеть позже, чем это делают пользователи. Бывает, что у автора контента вообще нет сайта в интернете. Всё чаще встречаются случаи автоматизированного копирования текстов с целью их размещения на ****-сайтах, созданных исключительно для манипулирования алгоритмами поисковых систем, о чём мы можем судить по жалобам в нашу службу поддержки.
Определение первоисточника текста, размещённого в сети, это сложная задача, которая ещё не решена в общем виде. Однако нам удалось построить алгоритм, который во многих случаях по косвенным признакам определяет, какая из группы страниц с одинаковым текстом является оригиналом. Этот алгоритм уже работает в российской формуле ранжирования, а через некоторое время он будет включён и для всех остальных стран. Алгоритм ещё (мб никогда lol прим. mall) не обладает стопроцентными полнотой и точностью, но и мы работаем над его улучшением. Будем рады примерам некорректного ранжирования оригиналов и копий, что позволит нам быстрее повысить качество разработанного алгоритма.
ох не верю :) время покажет, быть может яшки действительно разработали что-то на сей раз работающее.
Не верю. И каким это способом они решили определить, оригинальная статья или ее копия? Разве что по времени создания. Никак по другому. А время создания как узнали?
Эх...чем дальше, тем веселей. Проверим однозначно.
Что-то я очень сомневаюсь, как можно определить источник материала вообще с помощью алгоритма. :) Интересно, что же они там такое придумали. И, кстати, чразу оправдались, типа что алгоритм не точен, чтобы сразу не завалили их письмами.
Наверное самый хороший способ определения первоисточника этот - кого первым проиндексировал яндекс тот и папа. :) Так было бы, наверное, лучше всего.