Кейс: Как быстро получить список проиндексированных страниц сайта в Google и Яндекс

(Ответов: 16, Просмотров: 21046)
Страница 1 из 2 12 Последняя
  1. Студент Аватар для 3admitriy
    • Регистрация: 17.02.2014
    • Сообщений: 34
    • Репутация: 31
    Золотой пост
    Всем доброго времени суток.

    Еще Йозеф Геббельс говорил: «Что все гениальное – просто». В этом я еще раз убедился, когда открыл для себя один прекрасный кейс, столкнувшись с одной проблемой. Как всем известно, время – деньги. И любая работа оптимизатора рано или поздно, сводится к поиску автоматизации или упрощению своей работы с целью экономии времени и сил. Об этом и будет мой небольшой кейс.

    Скажите, как быстро получить весь список проиндексированных страниц вашего сайта в Яндекс или Google?

    Наверное, опытные специалист запросто ответят и предложат вам несколько способов выполнить данную задачу, а данный кейс предложит еще один. Так что все горячие головы, которые, как я вижу собрались уже писать "Мда... тоже мне, открыл Америку! " прошу успокоиться и дочитать сначала до конца, может найдете и для себя полезную информацию. Уверен кейс найдет свою аудиторию.

    Данный способ мы будет рассматривать для небольших сайтов, порядка 100-500 страниц в индексе. Хотя, если набраться терпения можно применять и для более крупных сайтов.

    Что нам понадобится: – Плагин RDS Bar, Excel и немного смекалки (С*)

    Для начала необходимо включить функцию «Полный адрес страниц» в настройках RDSBar’а для Я.Поиск и G.Поиск, чтобы для каждого результата в поисковой выдачи отображался полный URL страницы. Он будет отображаться в самом низу каждого результата, серым шрифтом.


    Для Google

    Прежде всего, нам необходимо в настройках поиска установить бегунок «Результатов на странице» на показатель 100. При этом нужно отключить «Живой поиск», иначе функция изменения кол-ва результатов на странице будет не доступна.


    Затем вводим запрос, чтобы узнать все проиндексированные страницы нашего сайта. Также не забывайте про основной индекс и «сопли», в которые могут попасть часть ваших страниц:

    site:domain.com – общий индекс
    site:domain.com/& – основной индекс


    6, 7, 8, … 100

    После этого мы копируем все результаты с первой и второй страницы и вставляем в Excel.


    У нас получился список результатов из выдачи. Но нам необходим список только URL проиндексированных страниц (который имеет серый цвет шрифта). Чтобы его получить, воспользуемся сортировкой по цвету шрифта.
    Выделяем наш столбец А
    Выбираем «Настраиваемая сортировка» в выпадающем списке инструмента «Фильтр и сортировка» и в настройках делаем следующее:
    Убираем галочку «Мои данные содержат заголовки» (чтобы не определялась первая ячейка как заголовок), Выбираем столбец А, Устанавливаем сортировку «Цвет шрифта» и устанавливаем цвет шрифта (светло серый), который имеют наши URL страницы -> Жмем Ok


    И мы получаем список наших проиндексированных страниц в том порядке в котором они были представлены поисковой системой. В самом конце списка идут отсортированные другие данные из выдачи (title, description) их можете по желанию просто удалить. Ну и для удобства можете отформатировать уже непосредственно сам список, цвет, размер шрифта и т.п.


    Теперь можете использовать этот список для своих целей, проверок, анализов и т.п.

    Что для Яндекса

    Сразу со старта читаем хелп.
    http://help.yandex.ru/webmaster/site...-indexed-pages
    «Информация о страницах в поиске, представленная в сервисе Яндекс.Вебмастер, является наиболее точной и включает в себя общее количество страниц, выкладываемых в поиск на момент формирования поисковой базы.»
    Откуда брать данные из вебмастера или поисковой выдачи выбор за вами. Скажу лишь одно, что в вебмастере «Страницы в Поиске» предоставляются по 25 штук, что сбор их делает не совсем удобным. Была бы кнопка выгрузки и было бы совсем другое дело)


    Мы рассмотрим сбор списка проиндексированных страниц из поисковой выдачи.
    Вводим оператор site:domain.com
    С* И применяем сразу небольшую смекалку. В адресной строке, в конце URL подставляем следующий динамический параметр &numdoc=50 и нажимаем Enter
    Этот параметр легко запомнить «&numdoc=50» :
    & - амперсант;
    numdoc – number documents (кол-во документов);
    =50 - будем выводить 50 документов на странице.



    ...


    Данную настройку можно включить и вручную. В самих настройках Яндекс (иконка гаечного ключа) и там «Документов на странице:». Но наша смекалка экономит нам время.
    К сожалению, в Яндекс стоит ограничение на кол-во выводимых документов. Если бы его не было, данный способ сбора списка проиндексированных страниц был на мой взгляд вообще универсальным и самым быстрым.
    Затем мы повторяем то же самое, что делали в Google.
    Копируем результаты по страницам в Excel, сортируем и форматируем список.
    Наслаждаемся)

    Для выполнения данной задачи есть и софт, такие как Yazzle (платный), Netpeak Checker и др. Но они работаю немного по другому принципу, для начала Вам необходимо спарсить все URL страниц сайта, импортировать их в программу, запустить проверку на индексацию страниц и выбрать уже проиндексированные, а это требует определенного времени. В отдельных случаях, чтобы сохранить себе нервы вам нужны прокси и/или антигейт и т.п. Мне довелось пользоваться и самописными парсерами, которые сканируют саму выдачу и забирают нужные мне url, но всё опять сводится к прокси и/или ограничениям запросов по xml.
    Выводы какой способ эффективнее и удобнее для вас делайте сами!
    Спасибо за внимание)

    P.S
    Всем кто прочел данный кейс, я дарю от себя бонус - Скрипт Light_my_site


    С* Кстати Скрипт исправляет баг RDS bar’a – он осуществляет перенос очень длинных URL. RDS Bar просто обрезает такие URL и при копировании результатов в Excel из поиска вы можете получить обрезанные URL. Скрипт покажет все такие длинные URL и поможет вам избежать таких неприятностей.
    Скрипт устанавливается с помощью дополнительных расширений в браузере
    Для Chrome – Tampermonkey* - https://chrome.google.com/webstore/d...mpobfkfo?hl=ru
    *Не забудьте включить галочку «Использовать @includes» в настройках
    Для Mozzila Firefox – Greasemonkey - https://addons.mozilla.org/ru/firefo.../greasemonkey/
    Нужно установить данное расширение, создать скрипт и вставить мой исходник. Не забудьте также заполнить массив projects сайтами (основные хосты), которые будут подсвечиваться и поправить строки @include на свои региональные домены поисковых систем.
    // @include http://yandex.by/*
    // @include https://www.google.by/*

    Скопировать исходник скрипта Light_my_site можно тут
    Последний раз редактировалось intern; 28.07.2014 в 12:16. Причина: убрал красный
    • 21

    Спасибо сказали:

    akill(05.08.2014), Alnew(28.07.2014), Alxumuk(09.08.2014), anozit(28.07.2014), Avot(12.08.2014), bljaher(27.07.2014), Burt(11.12.2014), chepe94(27.07.2014), chudikos(28.07.2014), Dany(22.10.2015), Dimka1(27.07.2014), feuer81(14.08.2014), iph0ne(28.07.2014), masay(28.07.2014), Pilligrim(30.08.2014), Rolam(28.07.2014), RZA2008(16.02.2016), Seopublic(22.10.2015), Triple(13.08.2014), zhurik(27.07.2014), Вадим(22.10.2015),
  2. Дипломник Аватар для chepe94
    • Регистрация: 13.11.2013
    • Сообщений: 166
    • Репутация: 24
    • Webmoney BL: ?
    Спасибо за работу но единственным полезной информацией с Вашего кейса лично для меня были операторы
    Цитата Сообщение от 3admitriy Посмотреть сообщение
    site:domain.com – общий индекс
    site:domain.com/& – основной индекс
    НУ очень узкая тема кейса как по мне.
    • 1

    Спасибо сказали:

    genesis33(27.07.2014),
  3. Студент Аватар для 3admitriy
    • Регистрация: 17.02.2014
    • Сообщений: 34
    • Репутация: 31
    С миру по нитке, что-то да пригодилось)
    Упоминал об этом в самом начале
    • 0
  4. Гуру Аватар для Alnew
    • Регистрация: 30.01.2014
    • Сообщений: 640
    • Репутация: 288
    • Webmoney BL: ?
    Цитата Сообщение от 3admitriy Посмотреть сообщение
    *Не забудьте включить галочку «Использовать @includes» в настройках
    Эмм, красный цвет же нельзя использовать...
    • 0
  5. NNov^) Аватар для nn165m
    • Регистрация: 05.08.2012
    • Сообщений: 2,777
    • Репутация: 587
    • Webmoney BL: ?
    мда
    а если у сайта 500 к страниц или больше...

    ---------- Сообщение добавлено 06:30 ---------- Предыдущее 05:06 ----------

    не реально времени ппц занимает нафиг
    • 0
  6. Студент Аватар для 3admitriy
    • Регистрация: 17.02.2014
    • Сообщений: 34
    • Репутация: 31
    Цитата Сообщение от nn165m Посмотреть сообщение
    мда
    а если у сайта 500 к страниц или больше...

    ---------- Сообщение добавлено 06:30 ---------- Предыдущее 05:06 ----------

    не реально времени ппц занимает нафиг
    Кейс подходит для небольших проектов. Про альтернативы я писал

    Цитата Сообщение от 3admitriy Посмотреть сообщение
    Для выполнения данной задачи есть и софт, такие как Yazzle (платный), Netpeak Checker и др. Но они работаю немного по другому принципу, для начала Вам необходимо спарсить все URL страниц сайта, импортировать их в программу, запустить проверку на индексацию страниц и выбрать уже проиндексированные, а это требует определенного времени. В отдельных случаях, чтобы сохранить себе нервы вам нужны прокси и/или антигейт и т.п. Мне довелось пользоваться и самописными парсерами, которые сканируют саму выдачу и забирают нужные мне url, но всё опять сводится к прокси и/или ограничениям запросов по xml.
    • 1

    Спасибо сказали:

    nn165m(28.07.2014),
  7. NNov^) Аватар для nn165m
    • Регистрация: 05.08.2012
    • Сообщений: 2,777
    • Репутация: 587
    • Webmoney BL: ?
    3admitriy, Netpeak Spider + Netpeak Checker, или да язл:)
    по времени максимум час:)
    ваш метод да для небольших сайтов идеален
    • 0
  8. Студент Аватар для 3admitriy
    • Регистрация: 17.02.2014
    • Сообщений: 34
    • Репутация: 31
    Спасибо за замечание, насчет красного цвета, исправим
    • 0
  9. Дипломник Аватар для iph0ne
    • Регистрация: 21.06.2012
    • Сообщений: 112
    • Репутация: 18
    • Webmoney BL: ?
    Я пользуюсь xenu + yccy все довольно быстро при наличии xml-лимитов
    • 0
  10. Студент Аватар для 3admitriy
    • Регистрация: 17.02.2014
    • Сообщений: 34
    • Репутация: 31
    Цитата Сообщение от iph0ne Посмотреть сообщение
    Я пользуюсь xenu + yccy все довольно быстро при наличии xml-лимитов
    Тоже как вариант.

    Кстати вспомнил еще один момент, про который забыл упомянуть, в чем есть минус таких способов проверки через софт (сбор урлов страниц сайта + последующий чек на индексацию).
    Алгоритмы сканирования сайта (пауков/роботов) у такого seo-софта (xenu, netpeak spider, yazzle, crazyfrog и т.п.), чисто субъективны (на взгляд разработчика), и у всех работают по разному (не считаю различных надстроек сканирования). Если взять эти программы и прогнать один и тот же сайт, они могут выдать вам разное кол-во URL на вашем сайте (больше актуально для сайтов с динамическими урлами).
    Точно также отличается и принципы сканирования пауков/роботов поисковых систем, которые более навороченные (не говорю уже о соплях гугла, который плевал на все запреты и может просканировать все что ему вздумается и посчитает нужным).
    Исходя из этого, при парсинге различным софтом своего сайта вы заведомо можете получить другой (неполный) список страниц, который получил бы робот ПС. Следовательно, может быть и отличный список проиндексированных страниц, от реального в ПС, проверяя таким способом (софт+чек index).
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
Поиск в Google страниц, проиндексированных за последний час
Оптимизация, SEO 31 03.03.2015 23:25
Проверка проиндексированных страниц
Вопросы от новичков 9 25.08.2014 19:34
Опасно для проиндексированных страниц сменять ns сайта
Web программирование 12 25.05.2014 22:53
Продам вечные ссылки с уже проиндексированных страниц тиц 10
Ссылки, статьи 0 16.11.2013 15:15
Уменьшение количества проиндексированных страниц из-за смены зеркала
Поисковые системы 10 26.11.2011 15:42

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры