Всем доброго времени суток.
Еще Йозеф Геббельс говорил: «Что все гениальное – просто». В этом я еще раз убедился, когда открыл для себя один прекрасный кейс, столкнувшись с одной проблемой. Как всем известно, время – деньги. И любая работа оптимизатора рано или поздно, сводится к поиску автоматизации или упрощению своей работы с целью экономии времени и сил. Об этом и будет мой небольшой кейс.
Скажите, как быстро получить весь список проиндексированных страниц вашего сайта в Яндекс или Google?
Наверное, опытные специалист запросто ответят и предложат вам несколько способов выполнить данную задачу, а данный кейс предложит еще один. Так что все горячие головы, которые, как я вижу собрались уже писать "Мда... тоже мне, открыл Америку! " прошу успокоиться и дочитать сначала до конца, может найдете и для себя полезную информацию. Уверен кейс найдет свою аудиторию.
Данный способ мы будет рассматривать для небольших сайтов, порядка 100-500 страниц в индексе. Хотя, если набраться терпения можно применять и для более крупных сайтов.
Что нам понадобится: – Плагин RDS Bar, Excel и немного смекалки (С*)
Для начала необходимо включить функцию «Полный адрес страниц» в настройках RDSBar’а для Я.Поиск и G.Поиск, чтобы для каждого результата в поисковой выдачи отображался полный URL страницы. Он будет отображаться в самом низу каждого результата, серым шрифтом.
Для Google
Прежде всего, нам необходимо в настройках поиска установить бегунок «Результатов на странице» на показатель 100. При этом нужно отключить «Живой поиск», иначе функция изменения кол-ва результатов на странице будет не доступна.
Затем вводим запрос, чтобы узнать все проиндексированные страницы нашего сайта. Также не забывайте про основной индекс и «сопли», в которые могут попасть часть ваших страниц:
site:domain.com – общий индекс
site:domain.com/& – основной индекс
6, 7, 8, … 100
После этого мы копируем все результаты с первой и второй страницы и вставляем в Excel.
У нас получился список результатов из выдачи. Но нам необходим список только URL проиндексированных страниц (который имеет серый цвет шрифта). Чтобы его получить, воспользуемся сортировкой по цвету шрифта.
Выделяем наш столбец А
Выбираем «Настраиваемая сортировка» в выпадающем списке инструмента «Фильтр и сортировка» и в настройках делаем следующее:
Убираем галочку «Мои данные содержат заголовки» (чтобы не определялась первая ячейка как заголовок), Выбираем столбец А, Устанавливаем сортировку «Цвет шрифта» и устанавливаем цвет шрифта (светло серый), который имеют наши URL страницы -> Жмем Ok
И мы получаем список наших проиндексированных страниц в том порядке в котором они были представлены поисковой системой. В самом конце списка идут отсортированные другие данные из выдачи (title, description) их можете по желанию просто удалить. Ну и для удобства можете отформатировать уже непосредственно сам список, цвет, размер шрифта и т.п.
Теперь можете использовать этот список для своих целей, проверок, анализов и т.п.
Что для Яндекса
Сразу со старта читаем хелп.
http://help.yandex.ru/webmaster/site...-indexed-pages
«Информация о страницах в поиске, представленная в сервисе Яндекс.Вебмастер, является наиболее точной и включает в себя общее количество страниц, выкладываемых в поиск на момент формирования поисковой базы.»
Откуда брать данные из вебмастера или поисковой выдачи выбор за вами. Скажу лишь одно, что в вебмастере «Страницы в Поиске» предоставляются по 25 штук, что сбор их делает не совсем удобным. Была бы кнопка выгрузки и было бы совсем другое дело)
Мы рассмотрим сбор списка проиндексированных страниц из поисковой выдачи.
Вводим оператор site:domain.com
С* И применяем сразу небольшую смекалку. В адресной строке, в конце URL подставляем следующий динамический параметр &numdoc=50 и нажимаем Enter
Этот параметр легко запомнить «&numdoc=50» :
& - амперсант;
numdoc – number documents (кол-во документов);
=50 - будем выводить 50 документов на странице.
...
Данную настройку можно включить и вручную. В самих настройках Яндекс (иконка гаечного ключа) и там «Документов на странице:». Но наша смекалка экономит нам время.
К сожалению, в Яндекс стоит ограничение на кол-во выводимых документов. Если бы его не было, данный способ сбора списка проиндексированных страниц был на мой взгляд вообще универсальным и самым быстрым.
Затем мы повторяем то же самое, что делали в Google.
Копируем результаты по страницам в Excel, сортируем и форматируем список.
Наслаждаемся)
Для выполнения данной задачи есть и софт, такие как Yazzle (платный), Netpeak Checker и др. Но они работаю немного по другому принципу, для начала Вам необходимо спарсить все URL страниц сайта, импортировать их в программу, запустить проверку на индексацию страниц и выбрать уже проиндексированные, а это требует определенного времени. В отдельных случаях, чтобы сохранить себе нервы вам нужны прокси и/или антигейт и т.п. Мне довелось пользоваться и самописными парсерами, которые сканируют саму выдачу и забирают нужные мне url, но всё опять сводится к прокси и/или ограничениям запросов по xml.
Выводы какой способ эффективнее и удобнее для вас делайте сами!
Спасибо за внимание)
P.S
Всем кто прочел данный кейс, я дарю от себя бонус - Скрипт Light_my_site
С* Кстати Скрипт исправляет баг RDS bar’a – он осуществляет перенос очень длинных URL. RDS Bar просто обрезает такие URL и при копировании результатов в Excel из поиска вы можете получить обрезанные URL. Скрипт покажет все такие длинные URL и поможет вам избежать таких неприятностей.
Скрипт устанавливается с помощью дополнительных расширений в браузере
Для Chrome – Tampermonkey* - https://chrome.google.com/webstore/d...mpobfkfo?hl=ru
*Не забудьте включить галочку «Использовать @includes» в настройках
Для Mozzila Firefox – Greasemonkey - https://addons.mozilla.org/ru/firefo.../greasemonkey/
Нужно установить данное расширение, создать скрипт и вставить мой исходник. Не забудьте также заполнить массив projects сайтами (основные хосты), которые будут подсвечиваться и поправить строки @include на свои региональные домены поисковых систем.
// @include http://yandex.by/*
// @include https://www.google.by/*
Скопировать исходник скрипта Light_my_site можно тут
Кейс: Как быстро получить список проиндексированных страниц сайта в Google и Яндекс
(Ответов: 16, Просмотров: 22139)
- 27.07.2014 21:41
Последний раз редактировалось intern; 28.07.2014 в 12:16. Причина: убрал красный
Спасибо сказали:
akill(05.08.2014), Alnew(28.07.2014), Alxumuk(09.08.2014), anozit(28.07.2014), Avot(12.08.2014), bljaher(27.07.2014), Burt(11.12.2014), chepe94(27.07.2014), chudikos(28.07.2014), Dany(22.10.2015), Dimka1(27.07.2014), feuer81(14.08.2014), iph0ne(28.07.2014), masay(28.07.2014), Pilligrim(30.08.2014), Rolam(28.07.2014), RZA2008(16.02.2016), Seopublic(22.10.2015), Triple(13.08.2014), zhurik(27.07.2014), Вадим(22.10.2015), - 27.07.2014 22:03
Спасибо сказали:
genesis33(27.07.2014), - 27.07.2014 22:11
С миру по нитке, что-то да пригодилось)
Упоминал об этом в самом начале - 28.07.2014 06:58
- 28.07.2014 11:30
мда
а если у сайта 500 к страниц или больше...
---------- Сообщение добавлено 06:30 ---------- Предыдущее 05:06 ----------
не реально времени ппц занимает нафиг - 28.07.2014 11:46
Спасибо сказали:
nn165m(28.07.2014), - 28.07.2014 11:57
3admitriy, Netpeak Spider + Netpeak Checker, или да язл:)
по времени максимум час:)
ваш метод да для небольших сайтов идеален - 28.07.2014 11:57
Спасибо за замечание, насчет красного цвета, исправим
- 28.07.2014 13:31
Я пользуюсь xenu + yccy все довольно быстро при наличии xml-лимитов
- 28.07.2014 17:00
Тоже как вариант.
Кстати вспомнил еще один момент, про который забыл упомянуть, в чем есть минус таких способов проверки через софт (сбор урлов страниц сайта + последующий чек на индексацию).
Алгоритмы сканирования сайта (пауков/роботов) у такого seo-софта (xenu, netpeak spider, yazzle, crazyfrog и т.п.), чисто субъективны (на взгляд разработчика), и у всех работают по разному (не считаю различных надстроек сканирования). Если взять эти программы и прогнать один и тот же сайт, они могут выдать вам разное кол-во URL на вашем сайте (больше актуально для сайтов с динамическими урлами).
Точно также отличается и принципы сканирования пауков/роботов поисковых систем, которые более навороченные (не говорю уже о соплях гугла, который плевал на все запреты и может просканировать все что ему вздумается и посчитает нужным).
Исходя из этого, при парсинге различным софтом своего сайта вы заведомо можете получить другой (неполный) список страниц, который получил бы робот ПС. Следовательно, может быть и отличный список проиндексированных страниц, от реального в ПС, проверяя таким способом (софт+чек index).
Тэги топика:
- google,
- googledrive,
- host,
- https,
- script,
- быстро,
- данный,
- индексация,
- кейс,
- получить,
- проиндексировать,
- сайт,
- список,
- страница,
- яндекс
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
Поиск в Google страниц, проиндексированных за последний час | Оптимизация, SEO | 31 | 03.03.2015 23:25 |
Проверка проиндексированных страниц | Вопросы от новичков | 9 | 25.08.2014 19:34 |
Опасно для проиндексированных страниц сменять ns сайта | Web программирование | 12 | 25.05.2014 22:53 |
Продам вечные ссылки с уже проиндексированных страниц тиц 10 | Ссылки, статьи | 0 | 16.11.2013 15:15 |
Уменьшение количества проиндексированных страниц из-за смены зеркала | Поисковые системы | 10 | 26.11.2011 15:42 |