В общем такая задача:
Есть сайт (точнее говоря - интернет-магазин), в нём товаров 10.000 шт. Соответственно примерно 12.000 страниц.
Какие есть программы для того, чтобы собрать все страницы, исключив часть на лету по robots и по маскам.
В одщем даже данные не нужны для анализа. Нужно просто собрать ссылки в список для скармливания в АДДурилку.
p.s. XENU не предлагать.. Эта зараза на сайте в 10.000 товаров нашла 70.000 страниц. При этом украла два часа времени, и сделала только 15% от запланированного, работая в 5 потоков. Больше 8 потоков ацки грузят VDS.
p.p.s. SEOFROG - в бесплатной версии тоже многое не учитывает и хавает всё вподряд.
- 18.08.2011 10:53
- 18.08.2011 14:20
для таких целей пользуюсь программой WonderWebWare.com SiteMap Generator, он тоже robots анализирует (лично у меня закрытых от индексации нет, сказать об исключении по robots на лету точно не могу, но должен поддерживать). Выдает полный перечень ссылок на страницы
- 18.08.2011 14:29
Попробуйте audit.megaindex.ru пока бесплатно сможете проиндексировать все страницы.
- 18.08.2011 16:09
Сontent Downloader могу сделать за смешную какую нибудь копеечку, если результат устроит)
- 18.08.2011 16:30
На seobudget.ru (реф) есть услуга "Добавить страницы в аддурл" (или как-то так). Там ссылки можно парсить с учетом sitemap и robots. И добавить в аддурилку (платно). Но спарсить можно бесплатно. Частенько пользуюсь этим сервисом.
- 18.08.2011 16:46
А стоит ли скармливать такое количество страниц в аддурилку
- 18.08.2011 20:04
Советую попробовать Wonderwebware Sitemap Generator. В этой программе можно задавать шаблоны исключаемых страниц как в robots.txt, высокая скорорость работы. Также можно использовать старый GSiteCrawler. Работал с A1 SitemapGenerator - на мой вкус бестолковая вещь, несмотря на то что она платная, плюс очень долго сканирует и нагружает сервер.
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
Как скрыть ссылочки :) | Вопросы от новичков | 1 | 27.10.2009 18:37 |