Очередную пищу для ума подкинул сегодняшний апдейт Яндекса. Особенно эта пища будет полезна тому сорту людей, который не верит в то, что Яндекс может отслеживать поведение пользователей.
Вообще, отслеживание поведения пользователей - это та тема, которую сейчас очень модно обсуждать. На конференции ProofSEO обсуждали поведенческие факторы ранжирования; на SEO-форумах также модно сваливать обвалы позиций на них. Но я буду говорить об индексации, а не ранжировании.
Вопрос: может ли страница, на которую нет ни внешних, ни внутренних ссылок, а также ее нет в карте сайта, попасть в индекс?
Ответ: да, если на страницу идет трафик.
Доказательство теоремы:
Я проводил рекламную кампанию, покупая трафик в тизерных сетях ВКонтакте и AdLabs. Чтобы статистика была наиболее полной, я использовал так называемые UTM-метки. В итоге, трафик отправлялся по URL вида site.ru/?utm_source=vkontakte&utm_medium=teaser&utm_campai gn=june
Будучи рассеянным, я забыл добавить в robots.txt строчку Disallow: */?utm_source*. И результат не заставил себя ждать: несуществующие страницы попали в индекс.
Как это могло случиться? Рассмотрим основные гипотезы:
а) Яндекс.Метрика. Маловероятно. Хоть Метрика и стоит на этом сайте, в отчете "Точки входа на сайт" мнимых страниц нет: счетчик все правильно посчитал и опознал UTM-метки.
б) Яндекс.Бар. Наиболее вероятный кандидат. Именно Бар мог определить переходы без определения ссылки (тизерные сети прячут их очень хитрыми редиректами), т.е. человек был на одной странице, оказался на другой, ссылки как бы нет, а переход налицо.
в) LiveInternet Ходят слухи, что LiveInternet отдает Яндексу такие данные. Опровергнуть не могу, но и подтвердить не получится: на этом сайте счетчика LiRu не было.
г) Ваши варианты?
Интересные факты:
по данным "Правильных апдейтов Яндекса" в последний апдейт проиндексировались документы, появившиеся по 8 июля, однако мои мнимые копии морды образовались в результатах действий 9-11 июля
настоящие новые страницы, появлявшиеся с 5 июля, но не имевшие трафика, в индекс не попали
Выводы: для черных вебмастеров: хитрая шифровка редиректа - никудышное решение для дорвеев для белых вебмастеров: держите в уме, что роль поведенческих факторов на благосклонность Яндекса к вашему сайту может расти