Вместо Screaming Frog за 2 тысячи рублей можно купить Comparser - он проверяет индексацию, можно сравнить какие страницы в индексе, какие нет. Какие есть в выдаче, но по ссылкам на сайте до них нельзя дойти.
umarkt-stepanov@yandex.ru, вот ты балбесина Поисковики то норм индексируют, даже больше того что нужно, вот только вопрос как удалить из индекса разницу между реальными страницами сайта и то что схавал поисковик. Это одна из основных задач в seo. Вопрос заключался не в том как индексируют поисковики, а в том, как добыть список из всех проиндексированных(скажем в Яндексе) страниц, если сайт скажем имеет 100 000 страниц?
Stza, Ты, вообще-то не меньше балбесишь, чем я, но мне простительно - я болею и голова как кисель. Мне кажется, что все недопонимание возникло из-за того, что я в статье описывал ТОЛЬКО СПОСОБ получения некоей информации, КУДА ЭТУ ИНФОРМАЦИЮ ПРИЛОЖИТЬ - уже отдельный вопрос не в рамках этой статьи мне кажется.
Сообщение от Stza
Вопрос заключался не в том как индексируют поисковики, а в том, как добыть список из всех проиндексированных
Как раз каждый решает сам в чем там у него заключается вопрос, а в чем не заключается и что с этой инфой делать дальше.
Разжевываю: Ты в своей работе применяешь список проиндексированных страниц для дальнейших манипуляций с целью получения результата - списка мусорных страниц, которые попали в индекс. Это все хорошо, но...
Я в своей работе данный мусор нахожу иначе и вопрос что закрывать от индексации и т.д. вообще проходит по другой схеме, а список проиндексированных страниц мне нужен совсем для другой цели - во первых, чтобы тупо узнать процент проиндексированных на сайте страниц, иногда одна эта цифра говорит о многом. Во-вторых проверить - нет ли среди непроиндексированных страниц важных и полезных, чью индексацию стоило бы ускорить. Так же иногда просто полезно посмотреть на список - иногда дает понимание в чем может быть проблема - ноример, может быть страницы глубоко зарыты на сайте и до них индексатор тупо не доходит
Может быть еще для чего-то пригодится эта инфа - каждый сам для себя решит для чего ее использовать. Просто ты наезжаешь немного не по теме данной статьи мне кажется.
Последний раз редактировалось umarkt-stepanov@yandex.ru; 29.01.2016 в 20:34.
Ребзя, если сайт ваш, то идёте в бета панель вебмастера, скачиваете архив со страницами сайта в базе. И ищете колонку "сёрчбл", смотрите на цифорку. 0 - страницы нет в индексе, 1 - страница в индекс есть =)
umarkt-stepanov@yandex.ru,Интересные мысли и спасибо за гайд! Но разницы не вижу между целями - все хотят список проиндексированных страниц и тут же согласно гайду можно найти мусор, я верно понял? меня вот зацепило про 100 000 страниц, почему нельзя выяснить?