В общем такая задача: Есть сайт (точнее говоря - интернет-магазин), в нём товаров 10.000 шт. Соответственно примерно 12.000 страниц. Какие есть программы для того, чтобы собрать все страницы, исключив часть на лету по robots и по маскам. В одщем даже данные не нужны для анализа. Нужно просто собрать ссылки в список для скармливания в АДДурилку.
p.s. XENU не предлагать.. Эта зараза на сайте в 10.000 товаров нашла 70.000 страниц. При этом украла два часа времени, и сделала только 15% от запланированного, работая в 5 потоков. Больше 8 потоков ацки грузят VDS.
p.p.s. SEOFROG - в бесплатной версии тоже многое не учитывает и хавает всё вподряд.
для таких целей пользуюсь программой WonderWebWare.com SiteMap Generator, он тоже robots анализирует (лично у меня закрытых от индексации нет, сказать об исключении по robots на лету точно не могу, но должен поддерживать). Выдает полный перечень ссылок на страницы
На seobudget.ru (реф) есть услуга "Добавить страницы в аддурл" (или как-то так). Там ссылки можно парсить с учетом sitemap и robots. И добавить в аддурилку (платно). Но спарсить можно бесплатно. Частенько пользуюсь этим сервисом.
Советую попробовать Wonderwebware Sitemap Generator. В этой программе можно задавать шаблоны исключаемых страниц как в robots.txt, высокая скорорость работы. Также можно использовать старый GSiteCrawler. Работал с A1 SitemapGenerator - на мой вкус бестолковая вещь, несмотря на то что она платная, плюс очень долго сканирует и нагружает сервер.
В том-то всё и дело, что: 1) Покупать программу ради одного сайта не целесообразно. 2) Интернет-сервисы могут и "задосить" при таком кол-ве страниц мой маленький VDS.
Сейчас экспериментирую с Wonderwebware - именно те маски, которые нужно задать он и поддерживает + robots. И похоже в нём даже экспорт в CSV имеется, что как раз и нужно. Только скорость работы, которую он показывает, чё-то у него совсем не айс - от 60 до 120 pages/min... Это на долго... И это с задержками по 1 секунде через каждые 500 url и по 1-й ms между запросами к серверу на 5 потоках. Мдя-я-я... Опять придётся на ночь ставить.
Веду seo блог потихоньку и слушаю музыку для души...
madcap, а у Вас sitemap имеется? Я просто как раз пишу программку. Она может собрать все ссылки из sitemap и сохранить в текстовый файл (Это только часть функционала. Если нужно, напишите в ЛС адрес карты сайта, я попробую спарсить и скину ссылки.) А в аддурилку можете добавить с помощью того же WebM AddUrl
---------- Сообщение добавлено 22:49 ---------- Предыдущее 22:48 ----------
Правда я не учитываю роботс.
Последний раз редактировалось Igor_13; 19.08.2011 в 19:21.