Всем привет! Если честно, я пока еще плохо разбираюсь в навигации этого форума, но вот вроде подходящий раздел для моей темы:)
Итак, давайте поговорим о поведенческих факторах, их влиянии на позиции сайта, и конечно же возможность их накрутить.
Кто рубит в мат. формулах, любит разобрать по полкам, так сказать, примеры - вот вам отличная статья. Я же постараюсь вывести разговор в русло более понятное для большинства вебмастеров.
Когда-то давно в классическом информационном поиске использовались текстовые, ссылочные факторы. Они давали предельно чистый и понятный сигнал алгоритмам о том, какой ресурс должен быть в топе, а какому еще рановато.
Но время шло, число документов росло, к тому же - все больше людей поддавалось соблазну как-то обмануть поисковые алгоритмы с корыстной для себя целью. В отделах по антиспаму появлялись все более интересные задачи, рождались такие фичи, как АГС, непот, Минусинск, Пингвин, Панда и т.д.
Задача поиска - дать хороший ответ пользователю. Это в общих чертах. На деле же все обстоит немного сложнее:
1. В коллекции слишком много релевантных документов
2. Большая часть документов имеет почти одинаковую точность/полноту, у нее отличный ссылочный профиль...что дальше?
Дальше было необходимо придумать так называемую метку "счастье пользователя". Или - поведенческие факторы. Это довольно большой массив данных, где, используя машинное обучение, можно постоянно добавлять те или иные факторы в уже имеющуюся модель.
Рекомендации от Платонов "развивайте и дальше свой сайт" неслучайны - чем чище сигнал, тем проще его улучшить и что-то добавить, и, соответственно, чем больше шума в сигналах, тем проще их занизить.
В поведенческих факторах учитываются многие аспекты: время на сайте, процент отказов, глубина просмотра, возвраты, страницы входа, так называемая "кликовая характеристика" (прим. можно посмотреть лекцию Романа Поборчего) и др. На любом ресурсе можно улучшать ПФ до бесконечности.
Переходим к главному вопросу: можно ли накрутить поведенческие факторы так, чтобы не попасть, хотя бы под фильтр?
Представим себе такую картинку: в офисе сидит тысяча людей, у которых задача - обыграть онлайн-наперсточника. Наперсточник - очень умен, и чтобы обойти его обман, мы можем либо изучать его комбинации, и постоянно угадывать в авось, вычитая тем самым каждый раз неудачную попытку. Это очень схоже с принципом работы многорукого бандита (необязательно того, который от Яндекса :)). Либо мы могли бы просто взять примеры (в МО это называется паттерны), и добавить их в нашу модель, тем самым обучив нашу условную тысячу людей трюкам от наперсточника, позволив эмулировать/спрогнозировать его действия.
Иными словами, разметить данные о накрутке очень просто - сотрудники антиспама могут добавлять в подобные сервисы свои сайты, чтобы отследить порядок сигнала, тем самым получив хорошую выборку данных для обучения. Об этом говорил еще Михаил Сливинский.
О так называемом "живом щите". Когда поиск получил данные о накрутках, сервисы создали систему, где они выборочно накручивали ПФ другим сайтам из той же тематики, тем самым показывая, что крутят все.
Подобный способ тоже хорошо вычисляется путем уже имеющихся сигналов у поисковых систем: те же действия, только уже на других сайтах, ведь можно так же расширить ту же накрутку от конкурента, например, поисковыми логами, которые хранятся вечно, обращать внимание на профиль в Крипте, или же искать взаимосвязь с поисковыми сессиями и реальным предпочтением пользователя, добавляя пользователей в группу "наблюдаемые".
Этот способ может означать то, что какими бы не были супер-естественными переходы - в отделе антиспама имеются так называемые постоянно пополняемые "серые списки" пользователей/ботсеток, которые были уже уличены или подозреваются в накрутках (это могут быть постоянно разные поисковые запросы, очевидный поинт-переход по релевантной выдаче за пределы топ 10 и пр.), а значит их посещения можно не учитывать, либо фильтровать сам ресурс.
Накручивают конкуренты. К сожалению, я не сотрудник Яндекса (хотя на других форумах меня неоднократно в этом подозревали), поэтому доподлинно точно, как поиск определяет накрутку от конкурентов, я не смогу. Но я думаю, что они имеют какую-то усредненную модель фидбека от честных вебмастеров, и так же учли этот аспект при создании фильтров.
О позициях и поведенческих факторах.
Предположим, у нас есть топ 3, и трафик по нему расходится таким образом:
1. K@1 = 60
2. K@2 = 30
3. K@3 = 10
Это все условные проценты трафика, и чем ниже позиция, тем меньше на нее трафик. Логично, и на этом можно было бы закончить.
Но если мы рассмотрим такой пример:
1. K@1 = 30
2. K@2 = 50
3. K@3 = 20
Тут явно что-то не так. Почему второй сайт имеет большую кликабельность, чем первый и третий? Здесь выходят следующие параметры, к примеру: привлекательный заголовок, красивый сниппет, содержащий в себе нужную информацию, необычный фавикон. Здесь мы не учитываем витальный трафик, разумеется.
Это все, что у нас есть на входных данных, и по этому принципу мы (то есть - они) выстраиваем топ 10, заставляя вебмастеров работать как раз над входными данными. Здесь важно понять, что начало пользовательской сессии начинается именно с клика на серпе, поэтому более сильным всплеск на графе будет именно отсюда, и по мере продолжительности будет затухать.
Другие источники.
Конечно, при формировании хорошей (ну пусть просто неплохой) модели поведенческих факторов, учитываются другие источники перехода. Например, я уже писал здесь где-то, что у нас покупала кровать девушка по вызову, и она написала о своих впечатлениях на профильном форуме (адалт). С этого форума есть переходы, и, что самое забавное - звонки :)
Другой пример - переходы из социальных сетей. Конечно, краулить все сигналы поиск просто не может, поэтому все ваши накрученные лайки и репосты так же палятся на раз. Для примера, мы могли бы обучить Матрикснет выкачивать такие профили:
1. Кол-во разнотематичных репостов (МДК, салон красоты, продажа воды, конкурс рефератов, недорогие шторы и т.д)
2. Регион коммерческих репостов (будет довольно странно, если человек, живущий в Москве, репостит скидки от магазина в Питере)
3. Активность друзей (если у спам-профиля 1200 друзей, при этом на стене нет ни одного лайка на репосте - это повод подозревать его в накрутке).
Но переходы от живых профилей будут учитываться несомненно.
Ну и я думаю, что smm-щики дополнят картинку:)
Переходы по ссылкам. Этот вид накрутки нивелировать еще проще, чем поисковый, но методология определения очень похожа на поисковую.
Есть еще масса и других источников переходов, но я описал наиболее распространенные.
Резюмируя свой пост (он совсем большой поучился:)) я хочу сказать, что не видел ни одного успешного кейса по накрутке поведенческих факторов, а все попытки конкурентов завалить мои проекты в итоге оказывались просто пустой тратой денег.
Гораздо эффективным и успешным является постоянная модернизация продвигаемого ресурса.
Если у вас есть дополнения - пишите в комментариях :)
За мысли на тему - лойс. Но хотелось бы с названием "...Есть ли возможность" увидеть практическую составляющую. Если Вы сами не крутили, но Вам крутили - то хотя бы как это вовремя выявить и что делать.
А по теме - лучше работать над реальным улучшением каждого из поведенческих. Улучшать сниппеты, фавиконки, пилить быстрые ссылки, делать "вовлекающий" контент. И бесконечно тестировать
был в четверг на вебинаре Дмитрия Шахова как раз о накрутке поведенческих, он как вы знаете занимается не только обучением, но и продвижением, так вот с его слов, у него был клиент которого завалили накруткой пф и всесте с ним по тем же запросам еще 6 сайтов, письма платонам не помогли, подтвердить документально не могу, можете верить-можете нет. Еще пример, есть специализированный софт для накрутки, так вот я его юзал в целях эксперимента и знаете он работает, метрика учитывает переходы, виден рост пф и запросы поднимаются, но так-как этот софт пошел в массы, эксперименты я прекратил, потому как любую накрутку пс в итоге палит, а именно тогда, когда появляется достаточно статистики, массовость применения.
В поведенческих факторах учитываются многие аспекты: время на сайте, процент отказов, глубина просмотра, возвраты, страницы входа, так называемая "кликовая характеристика"
Ок. Но как поисковая система всё это узнает? Ставить всякие там Метрики и Аналитиксы? Ведь вроде они говорили, что это не будет учитываться для поиска. А если не ставить, то что тогда? Будут всегда считать, что сайт с 0 показателями по поведенческим?
Облачный хостинг из TOP-3 - от 1 Gb ОЗУ, от 25 GB SSD.
но Вам крутили - то хотя бы как это вовремя выявить и что делать.
Я, видимо, упустил при написании, извиняюсь.
Когда стали накручивать моему проекту, я, естественно, написал Платону. Он заверил, что они учли это при создании алгоритмов, и минимизировали последствия.
Я подумал на эту тему, и сделал следующие выводы:
Скорее всего, у поиска есть какая-то недвусмысленная информация о способах выявления накрутки вебмастером и конкурентом. Она могла быть получена опять же двумя методами: письма Платонам, их дальнейший анализ и составление какого-то профиля, для того, чтобы точно знать, кто и когда (сюда можно отнести так же данные из группы "серых" пользователей). Другие данные, вроде связок по истории браузера, поисковые сессии, данные из метрики. В отдельных случаях можно создавать симбиозы этих данных, аккумулируя новые данные для подбора формул. Во всяком случае я бы точно так и сделал.
Поэтому я вроде как успокоился, и не стал больше терроризировать саппорт Яндекса:)
Когда стали накручивать моему проекту, я, естественно, написал Платону. Он заверил, что они учли это при создании алгоритмов, и минимизировали последствия.
Я подумал на эту тему, и сделал следующие выводы:
Скорее всего, у поиска есть какая-то недвусмысленная информация о способах выявления накрутки вебмастером и конкурентом.
некоторые так и делаю, сами себе накручивают и в тоже время пишут платонам - ой спасите/помогите конкуренты топят:) - работает.
Ну есть ведь и другие способы узнать информацию о сайте. Если, скажем, вы залогинены в почте или в другом сервисе поисковой машины (Кинопоиск или Авто.ру, к примеру), или пользуетесь их браузером. Есть еще идеи, что соцсети могут отдавать информацию о юзере (когда, например, всплывает реклама вещей с Амазона в профиле ФБ, или когда показывается реклама в блоке слева Вконтакте). Это больше к персонализированной выдаче конечно, но ее используют для получения каких-то данных.
Сообщение от buninsan
ой спасите/помогите конкуренты топят:) - работает.
Не думаю, что это сработает сегодня :) В промежутке между сейчас и моментом запуска прошло достаточное количество времени, и данные, полученные в результате проверки, окажутся точнее, нежели то, что написал вебмастер. К тому же - никто точно не знает момент запуска алгоритма, а в режиме тестирования как фокус-группами так и ничего не подозревающими пользователями могла идти годами, собирая данные и формируя точность для алгоритма.
Конечно, так же стоит учитывать, что фильтр за накрутку, как и любой другой имеет погрешность, но при соотношении коллекции документов в индексе это несущественная потеря для поиска.
К тому же - никто точно не знает момент запуска алгоритма
пишу так как делают это на практике, без теории: вебмастер знает когда начинает накручивать, вот именно в этот момент и пишет письмо, несмотря на то, что матрикс нет преподносят как самообучаемый и искусственный разум, но им управляют люди с "ключами" которыми иногда подкручивают, а иногда отпускают гайки... Вполне возможно вас спасло от накрутчиков именно то, что вы написали письмо в поддержку яндекса, а они естественно ответили, что алгоритмы не обманешь...
Последний раз редактировалось buninsan; 13.03.2016 в 20:06.
На любой алгорим есть, сеошник который пройдет по грани и получит то, что надо. Минусник - да пофиг конкурент на сайт 2 месяца отраду купил 4к ссылок с сапы и весит в топе выше. Поведение, да пофиг грамотная ручная работа через социальные сети и вот вам накрутка. Про глупенького глуга и говорить не стоит....
То что вы пишите граматно звучит, но не прокатит в массовости миллионов сайтов. По сути люди кто накручивают делают это не долго, и где вы эти профили вычислите? это школота которая думает что все так просто, посидит неделю получит 500 рублей успокоиться и такая текучка кадров в сервисах постоянная. Я наблюдал гениальную идею, сделали ее мошенники в ВКонтакте, они обещали выгоду за приглашенных, типо пригласи 100 рефиралов получишь ништяк, в конце концов тысячи дебилов шли на сайт, даже зная что там мошенничество они все равно хотели попробовать, а вдруг нет. (на деле сначала они приглашали людей, а потом когда достигали 100-200 приглашений их кидали на их игровой аккаунт) нескончаемый поток дебилов. Сайт мошенника вышел в топ по запросам на которые люди тратят сотни тысяч рублей.