Чем собрать все URL страниц сайта?

(Ответов: 12, Просмотров: 24805)
Страница 1 из 2 12 Последняя
  1. Опытный Аватар для madcap
    • Регистрация: 30.01.2013
    • Сообщений: 312
    • Репутация: 45
    • Webmoney BL: ?
    В общем такая задача:
    Есть сайт (точнее говоря - интернет-магазин), в нём товаров 10.000 шт. Соответственно примерно 12.000 страниц.
    Какие есть программы для того, чтобы собрать все страницы, исключив часть на лету по robots и по маскам.
    В одщем даже данные не нужны для анализа. Нужно просто собрать ссылки в список для скармливания в АДДурилку.

    p.s. XENU не предлагать.. Эта зараза на сайте в 10.000 товаров нашла 70.000 страниц. При этом украла два часа времени, и сделала только 15% от запланированного, работая в 5 потоков. Больше 8 потоков ацки грузят VDS.

    p.p.s. SEOFROG - в бесплатной версии тоже многое не учитывает и хавает всё вподряд.
    • 0
  2. Опытный Аватар для Doctor Mad
    • Регистрация: 25.02.2013
    • Сообщений: 428
    • Репутация: 111
    для таких целей пользуюсь программой WonderWebWare.com SiteMap Generator, он тоже robots анализирует (лично у меня закрытых от индексации нет, сказать об исключении по robots на лету точно не могу, но должен поддерживать). Выдает полный перечень ссылок на страницы
    Последний раз редактировалось Doctor Mad; 10.03.2013 в 00:31.
    • 0
  3. Гуру Аватар для zatvorius
    • Регистрация: 04.08.2010
    • Сообщений: 509
    • Репутация: 212
    • Webmoney BL: ?
    Попробуйте audit.megaindex.ru пока бесплатно сможете проиндексировать все страницы.
    Качественное наполнение Ваших новостных сайтов тема на webmasters.
    • 1

    Спасибо сказали:

    BastLegenda(10.03.2013),
  4. Новичок
    • Регистрация: 17.01.2013
    • Сообщений: 11
    • Репутация: 0
    Сontent Downloader могу сделать за смешную какую нибудь копеечку, если результат устроит)
    • 0
  5. Гуру Аватар для west0293
    • Регистрация: 09.06.2011
    • Сообщений: 1,025
    • Репутация: 342
    • Webmoney BL: ?
    На seobudget.ru (реф) есть услуга "Добавить страницы в аддурл" (или как-то так). Там ссылки можно парсить с учетом sitemap и robots. И добавить в аддурилку (платно). Но спарсить можно бесплатно. Частенько пользуюсь этим сервисом.
    • 0
  6. Гуру Аватар для JIoSoSb
    • Регистрация: 21.05.2012
    • Сообщений: 883
    • Репутация: 231
    А стоит ли скармливать такое количество страниц в аддурилку
    • 0
  7. Студент Аватар для Brain8torm
    • Регистрация: 13.04.2011
    • Сообщений: 98
    • Репутация: 19
    Советую попробовать Wonderwebware Sitemap Generator. В этой программе можно задавать шаблоны исключаемых страниц как в robots.txt, высокая скорорость работы. Также можно использовать старый GSiteCrawler. Работал с A1 SitemapGenerator - на мой вкус бестолковая вещь, несмотря на то что она платная, плюс очень долго сканирует и нагружает сервер.
    • 1

    Спасибо сказали:

    madcap(10.03.2013),
  8. Опытный Аватар для madcap
    • Регистрация: 30.01.2013
    • Сообщений: 312
    • Репутация: 45
    • Webmoney BL: ?
    В том-то всё и дело, что:
    1) Покупать программу ради одного сайта не целесообразно.
    2) Интернет-сервисы могут и "задосить" при таком кол-ве страниц мой маленький VDS.

    Сейчас экспериментирую с Wonderwebware - именно те маски, которые нужно задать он и поддерживает + robots. И похоже в нём даже экспорт в CSV имеется, что как раз и нужно.
    Только скорость работы, которую он показывает, чё-то у него совсем не айс - от 60 до 120 pages/min... Это на долго...
    И это с задержками по 1 секунде через каждые 500 url и по 1-й ms между запросами к серверу на 5 потоках.
    Мдя-я-я... Опять придётся на ночь ставить.
    • 0
  9. Гуру Аватар для west0293
    • Регистрация: 09.06.2011
    • Сообщений: 1,025
    • Репутация: 342
    • Webmoney BL: ?
    madcap, а у Вас sitemap имеется? Я просто как раз пишу программку. Она может собрать все ссылки из sitemap и сохранить в текстовый файл (Это только часть функционала. Если нужно, напишите в ЛС адрес карты сайта, я попробую спарсить и скину ссылки.) А в аддурилку можете добавить с помощью того же WebM AddUrl

    ---------- Сообщение добавлено 22:49 ---------- Предыдущее 22:48 ----------

    Правда я не учитываю роботс.
    • 0
  10. Студент Аватар для Brain8torm
    • Регистрация: 13.04.2011
    • Сообщений: 98
    • Репутация: 19
    madcap, можно увеличить количество подключений Max. Simultaneous Connections, но аккуратно
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
Как собрать внутриние ссылки сайта?
Вопросы от новичков 7 20.11.2012 00:20
Требуется собрать нч запросы для сайта.
Услуги по SEO 8 30.01.2012 14:57
Требуется собрать нч запросы для сайта.
Другая работа 0 26.01.2012 22:47
подсчет страниц сайта
Вопросы от новичков 3 16.03.2010 21:33

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры