В общем такая задача: Есть сайт (точнее говоря - интернет-магазин), в нём товаров 10.000 шт. Соответственно примерно 12.000 страниц. Какие есть программы для того, чтобы собрать все страницы, исключив часть на лету по robots и по маскам. В одщем даже данные не нужны для анализа. Нужно просто собрать ссылки в список для скармливания в АДДурилку.
p.s. XENU не предлагать.. Эта зараза на сайте в 10.000 товаров нашла 70.000 страниц. При этом украла два часа времени, и сделала только 15% от запланированного, работая в 5 потоков. Больше 8 потоков ацки грузят VDS.
p.p.s. SEOFROG - в бесплатной версии тоже многое не учитывает и хавает всё вподряд.
для таких целей пользуюсь программой WonderWebWare.com SiteMap Generator, он тоже robots анализирует (лично у меня закрытых от индексации нет, сказать об исключении по robots на лету точно не могу, но должен поддерживать). Выдает полный перечень ссылок на страницы
Последний раз редактировалось Doctor Mad; 10.03.2013 в 00:31.
На seobudget.ru (реф) есть услуга "Добавить страницы в аддурл" (или как-то так). Там ссылки можно парсить с учетом sitemap и robots. И добавить в аддурилку (платно). Но спарсить можно бесплатно. Частенько пользуюсь этим сервисом.
Советую попробовать Wonderwebware Sitemap Generator. В этой программе можно задавать шаблоны исключаемых страниц как в robots.txt, высокая скорорость работы. Также можно использовать старый GSiteCrawler. Работал с A1 SitemapGenerator - на мой вкус бестолковая вещь, несмотря на то что она платная, плюс очень долго сканирует и нагружает сервер.
В том-то всё и дело, что: 1) Покупать программу ради одного сайта не целесообразно. 2) Интернет-сервисы могут и "задосить" при таком кол-ве страниц мой маленький VDS.
Сейчас экспериментирую с Wonderwebware - именно те маски, которые нужно задать он и поддерживает + robots. И похоже в нём даже экспорт в CSV имеется, что как раз и нужно. Только скорость работы, которую он показывает, чё-то у него совсем не айс - от 60 до 120 pages/min... Это на долго... И это с задержками по 1 секунде через каждые 500 url и по 1-й ms между запросами к серверу на 5 потоках. Мдя-я-я... Опять придётся на ночь ставить.
madcap, а у Вас sitemap имеется? Я просто как раз пишу программку. Она может собрать все ссылки из sitemap и сохранить в текстовый файл (Это только часть функционала. Если нужно, напишите в ЛС адрес карты сайта, я попробую спарсить и скину ссылки.) А в аддурилку можете добавить с помощью того же WebM AddUrl
---------- Сообщение добавлено 22:49 ---------- Предыдущее 22:48 ----------