В общем такая задача:
Есть сайт (точнее говоря - интернет-магазин), в нём товаров 10.000 шт. Соответственно примерно 12.000 страниц.
Какие есть программы для того, чтобы собрать все страницы, исключив часть на лету по robots и по маскам.
В одщем даже данные не нужны для анализа. Нужно просто собрать ссылки в список для скармливания в АДДурилку.
p.s. XENU не предлагать.. Эта зараза на сайте в 10.000 товаров нашла 70.000 страниц. При этом украла два часа времени, и сделала только 15% от запланированного, работая в 5 потоков. Больше 8 потоков ацки грузят VDS.
p.p.s. SEOFROG - в бесплатной версии тоже многое не учитывает и хавает всё вподряд.
- 09.03.2013 22:47
- 09.03.2013 22:58
для таких целей пользуюсь программой WonderWebWare.com SiteMap Generator, он тоже robots анализирует (лично у меня закрытых от индексации нет, сказать об исключении по robots на лету точно не могу, но должен поддерживать). Выдает полный перечень ссылок на страницы
Последний раз редактировалось Doctor Mad; 09.03.2013 в 23:31.
- 09.03.2013 23:01
Попробуйте audit.megaindex.ru пока бесплатно сможете проиндексировать все страницы.
Спасибо сказали:
BastLegenda(10.03.2013), - 09.03.2013 23:10Новичок

- Регистрация: 17.01.2013
- Сообщений: 11
- Репутация: 0
Сontent Downloader могу сделать за смешную какую нибудь копеечку, если результат устроит)
- 09.03.2013 23:23
На seobudget.ru (реф) есть услуга "Добавить страницы в аддурл" (или как-то так). Там ссылки можно парсить с учетом sitemap и robots. И добавить в аддурилку (платно). Но спарсить можно бесплатно. Частенько пользуюсь этим сервисом.
- 09.03.2013 23:23
А стоит ли скармливать такое количество страниц в аддурилку
- 09.03.2013 23:26
Советую попробовать Wonderwebware Sitemap Generator. В этой программе можно задавать шаблоны исключаемых страниц как в robots.txt, высокая скорорость работы. Также можно использовать старый GSiteCrawler. Работал с A1 SitemapGenerator - на мой вкус бестолковая вещь, несмотря на то что она платная, плюс очень долго сканирует и нагружает сервер.
Спасибо сказали:
madcap(09.03.2013), - 09.03.2013 23:38
В том-то всё и дело, что:
1) Покупать программу ради одного сайта не целесообразно.
2) Интернет-сервисы могут и "задосить" при таком кол-ве страниц мой маленький VDS.
Сейчас экспериментирую с Wonderwebware - именно те маски, которые нужно задать он и поддерживает + robots. И похоже в нём даже экспорт в CSV имеется, что как раз и нужно.
Только скорость работы, которую он показывает, чё-то у него совсем не айс - от 60 до 120 pages/min... Это на долго...
И это с задержками по 1 секунде через каждые 500 url и по 1-й ms между запросами к серверу на 5 потоках.
Мдя-я-я... Опять придётся на ночь ставить. - 09.03.2013 23:49
madcap, а у Вас sitemap имеется? Я просто как раз пишу программку. Она может собрать все ссылки из sitemap и сохранить в текстовый файл (Это только часть функционала. Если нужно, напишите в ЛС адрес карты сайта, я попробую спарсить и скину ссылки.) А в аддурилку можете добавить с помощью того же WebM AddUrl
---------- Сообщение добавлено 22:49 ---------- Предыдущее 22:48 ----------
Правда я не учитываю роботс. - 09.03.2013 23:56
madcap, можно увеличить количество подключений Max. Simultaneous Connections, но аккуратно
Тэги топика:
Похожие темы
| Темы | Раздел | Ответов | Последний пост |
|---|---|---|---|
Как собрать внутриние ссылки сайта? | Вопросы от новичков | 7 | 19.11.2012 23:20 |
Требуется собрать нч запросы для сайта. | Услуги по SEO | 8 | 30.01.2012 13:57 |
Требуется собрать нч запросы для сайта. | Другая работа | 0 | 26.01.2012 21:47 |
подсчет страниц сайта | Вопросы от новичков | 3 | 16.03.2010 21:33 |







