Короче, прочитав этот пост вы узнаете чем отличается оригинальный контент от уникального по версии Яндекса, какие могут быть последствия от использования контента из вебархива и сканов, подтверждается наличие скрытого индекса. Много интересного, причем много официальных подтверждений от самого Яндекса и Платонов, читаем:
ТС, сорри, но ничего нового не узнал. И так понятно что оригинальный и уникальный это разные вещи. Оригинальный - это авторский контент, то чего до этого не было. Уникальный - что угодно, начиная с цепей маркова. Но на практике... куча новостников с копипастом в выдаче, и дорвеев тоже. Фишка в том, что с поиска на сайт должны быть переходы, т.е. контент прогнозируется на переходы, если по расчётам на него переходов не будет вообще - он даже индексироваться не будет, если по прогнозам переходу будут, в индекс он войдёт. А дальше уже начнёт оцениваться весь сайт в целом.
Оригинальный - это авторский контент, то чего до этого не было
Не было в индексе никогда ранее, да. Но очень мало гарантий при покупке готового контента, что он ранее не был в выдаче. Если был - по сути это тот же копипаст, не совсем понятно как Яндекс к этому относится, но судя по экспериментам - не очень лояльно (возможно, не намного лучше копипаста).
Но то, что вебархив в скрытом индексе - это 100%. Странно было бы думать, что какой-то запрет в роботсе мешает ботам посмотреть что там внутри, они в любом случае посмотрят, но в индекс не внесут из-за запрета. Так что вебархив прошлый век и уже давно.
Сообщение от WebPrib
Но на практике... куча новостников с копипастом в выдаче
Новостники это отдельная история, там допускается копипаст.
Сообщение от WebPrib
Фишка в том, что с поиска на сайт должны быть переходы, т.е. контент прогнозируется на переходы, если по расчётам на него переходов не будет вообще - он даже индексироваться не будет, если по прогнозам переходу будут, в индекс он войдёт. А дальше уже начнёт оцениваться весь сайт в целом.
Это не могу прокомментировать, т.к. это нельзя проверить и хоть какие-то намеки получить.
Веб-архив, не думаю что на всю глубину в индексе яндекса, у яндекса до сих пор не хватает ресурсов, это же не гугл. Просто то что в веб-архиве не надо считать уникальным контентом, многое было взято с других сайтов или растащено уже по другим.
Это не могу прокомментировать, т.к. это нельзя проверить и хоть какие-то намеки получить.
Была такая информация. Может в ответах садовского не помню уже. Попробую вспомнить точно... примерно так: "Мы анализируем, отвечает ли контент хоть на какой-то запрос из всей нашей базы, т.е. что его будут запрашивать и если будут по прогнозам, то он будет проиндексирован". поэтому у новостного копипаста и нет проблем с индексацией.
По разному бывает... Мне тут на днях рассказывали о полностью спертом агсном сайте - жив здоров и приносит свою деньгу... А насчет ранжирования - вопрос конечно интересный... Вот например как определить скан если его ранее не было в нете? А о парсинге вконтактов закрытых групп это вообще притча во языцы, мало того приносит он при этом своего посетителя... Статья на уровне битвы экстрасенсов.
---------- Сообщение добавлено 23:53 ---------- Предыдущее 23:50 ----------
Да и по поводу ответа яндексоидов... Вы что ожидали услышать - да в системе есть дыры и сейчас мы вам на листочке напишем, только вы нини.
Вот например как определить скан если его ранее не было в нете?
Если нечищенный, то по ошибкам, характерным опечаткам, спецсимволам. Если чищенный, то по книжной структуре текста, когда понимаешь что это книжка по нескольким фразам. Кроме того, информация может быть просто устаревшая, могут встречаться термины, которы давно вышли из обихода, материалы которые давно не производятся и т.п.
WebPrib, Я вас умоляю... скан разный бывает, корявые руки конечно может и с ходу вычисляет... Видел я Типо СДЛ полностью на скане с посещалкой овер1000, так что совсем не факт
Попробую вспомнить точно... примерно так: "Мы анализируем, отвечает ли контент хоть на какой-то запрос из всей нашей базы, т.е. что его будут запрашивать и если будут по прогнозам, то он будет проиндексирован". поэтому у копипаста и нет проблем с индексацией.
WebPrib, Муть какая-то. Что же по вашему, весь копипаст отвечает на какие-то запросы? И банально, на любом крупном сайте, есть и ВЧ-СЧ-НЧ страницы, и балласт, и все они индексируются не выборочно, а целиком – либо весь в индексе, либо весь в ауте. Т.е. – никакой избирательной индексации не существует.
Другое дело, если весь сайт балласт (к примеру скан книги о железобетонных конструкциях 64 года), он вылетает, но здесь еще масса факторов: 1. Продажа ссылок (а такую хрень только для того и делают) 2. Убогие ПФ 3. Сателитоподобный диз, структура, качество подачи и оформления материалов, шаблонность страниц и т.д.
Последний раз редактировалось genjnat; 03.05.2013 в 05:08.
Веб-архив, не думаю что на всю глубину в индексе яндекса, у яндекса до сих пор не хватает ресурсов, это же не гугл.
За такое время думаю там уже давно все просмотрено и проиндексировано.
Сообщение от WebPrib
Просто то что в веб-архиве не надо считать уникальным контентом, многое было взято с других сайтов или растащено уже по другим.
Имеются именно уникальные тексты с вебархива, которых нигде нет больше, парсят ведь именно уникальные.
Сообщение от numinoross
Вот например как определить скан если его ранее не было в нете?
В том то и дело - никак.
Сообщение от numinoross
Вы что ожидали услышать - да в системе есть дыры и сейчас мы вам на листочке напишем, только вы нини.
Так дело в том что это совсем не дыра и почему бы вебмастерам этого не знать? Я имею ввиду то, что сайт может плохо ранжироваться именно из-за того, что контент был взят где-то из интернета или уже побывал там когда-то до появления у вас.
---------- Сообщение добавлено 02:11 ---------- Предыдущее 02:06 ----------
Сообщение от genjnat
никакой избирательной индексации не существует.
Да, вот с этим точно согласен. Либо есть либо нету. Если держит в индексе - значит приносит сайт какую-то пользу. Но как только балласта на сайте становится критическое количество, либо польза от сайта настолько мала (либо еще чего хуже, сайт приносит вред, поскольку манипулирует поисковыми алгоритмами продавая ссылки) - его выкидывает из индекса, потому что такой хлам в поиске не нужен.