lis-enka Опубликовано 26.07.2012 13:58

Google утверждает, что этот подсчет очень точен (в отличие от site: оператора поиска) и показывает данные уже после учета канонических урлов. Другими словами, если на вашем сайте много дублированных страниц (например, из-за урлов с кодами слежения) и страницы имеют атрибут canonical или же Google каким-то другим способом определил и отделил дублированные URLы, в новом отчете будут показаны только канонические версии страниц. Похожие данные можно получать, если в ваш аккаунт GWT загружена XML-Sitemaps (карта сайта), но полнота данных о количестве проиндексированных страниц в этом случае уже зависит от того, насколько точно карта отражает структуру сайта.
Также Google предлагает вкладку Advanced, которая отображает более подробные данные о ссылках:

Главное – уметь грамотно анализировать эти подробные данные. Для начала отбросьте данные о Ever Crawled (когда-либо обойденных роботом ПС страницах) и посмотрите отдельно на
• total indexed
• not selected
• blocked by robots
Сумма страниц в этих трех колонках – это и есть то количество URLов, которые в данный момент учитываются Google на вашем сайте.
Отметим, что в столбце «not selected» отображается количество страниц, которые не были добавлены в индекс по следующим причинам (указанным в комментарии Google для публикации Ванессы Фокс в SearchEngineLAnd):
• Страницы, которые перенаправляют на другие страницы
• Страницы, на которых есть атрибут rel=”canonical” на другие страницы
• Если алгоритмы Google выявили, что контент страницы очень похож на контент, размещенный на другом URL.
В столбике Ever Crawled выводится общее количество страниц, которые обошел робот Google на сайте за все время с его первой индексации. То есть в число этих страниц входят и все страницы с ошибкой 404, URLы, которые больше не существуют или, возможно, различные файлы CSS и JS.

Сообщение форума