Как почистить список доменов?

(Ответов: 9, Просмотров: 651)
  1. Дипломник Аватар для on3shot
    • Регистрация: 23.11.2014
    • Сообщений: 108
    • Репутация: 36
    В общем такая задача:
    Есть сайт (точнее говоря - интернет-магазин), в нём товаров 10.000 шт. Соответственно примерно 12.000 страниц.
    Какие есть программы для того, чтобы собрать все страницы, исключив часть на лету по robots и по маскам.
    В одщем даже данные не нужны для анализа. Нужно просто собрать ссылки в список для скармливания в АДДурилку.

    p.s. XENU не предлагать.. Эта зараза на сайте в 10.000 товаров нашла 70.000 страниц. При этом украла два часа времени, и сделала только 15% от запланированного, работая в 5 потоков. Больше 8 потоков ацки грузят VDS.

    p.p.s. SEOFROG - в бесплатной версии тоже многое не учитывает и хавает всё вподряд.
    • 0
  2. Дипломник Аватар для Freo
    • Регистрация: 15.10.2015
    • Сообщений: 242
    • Репутация: 104
    • Webmoney BL: ?
    для таких целей пользуюсь программой WonderWebWare.com SiteMap Generator, он тоже robots анализирует (лично у меня закрытых от индексации нет, сказать об исключении по robots на лету точно не могу, но должен поддерживать). Выдает полный перечень ссылок на страницы
    • 0
  3. Опытный
    • Регистрация: 21.11.2013
    • Сообщений: 407
    • Репутация: 58
    Попробуйте audit.megaindex.ru пока бесплатно сможете проиндексировать все страницы.
    • 0
  4. Дипломник Аватар для on3shot
    • Регистрация: 23.11.2014
    • Сообщений: 108
    • Репутация: 36
    Сontent Downloader могу сделать за смешную какую нибудь копеечку, если результат устроит)
    • 0
  5. Опытный
    • Регистрация: 21.11.2013
    • Сообщений: 407
    • Репутация: 58
    На seobudget.ru (реф) есть услуга "Добавить страницы в аддурл" (или как-то так). Там ссылки можно парсить с учетом sitemap и robots. И добавить в аддурилку (платно). Но спарсить можно бесплатно. Частенько пользуюсь этим сервисом.
    • 1

    Спасибо сказали:

    on3shot(13.01.2016),
  6. Дипломник Аватар для on3shot
    • Регистрация: 23.11.2014
    • Сообщений: 108
    • Репутация: 36
    А стоит ли скармливать такое количество страниц в аддурилку
    • 0
  7. Гуру
    • Регистрация: 20.01.2013
    • Сообщений: 720
    • Репутация: 189
    • Webmoney BL: ?
    Советую попробовать Wonderwebware Sitemap Generator. В этой программе можно задавать шаблоны исключаемых страниц как в robots.txt, высокая скорорость работы. Также можно использовать старый GSiteCrawler. Работал с A1 SitemapGenerator - на мой вкус бестолковая вещь, несмотря на то что она платная, плюс очень долго сканирует и нагружает сервер.
    • 1

    Спасибо сказали:

    on3shot(13.01.2016),
  8. Дипломник Аватар для on3shot
    • Регистрация: 23.11.2014
    • Сообщений: 108
    • Репутация: 36
    В том-то всё и дело, что:
    1) Покупать программу ради одного сайта не целесообразно.
    2) Интернет-сервисы могут и "задосить" при таком кол-ве страниц мой маленький VDS.

    Сейчас экспериментирую с Wonderwebware - именно те маски, которые нужно задать он и поддерживает + robots. И похоже в нём даже экспорт в CSV имеется, что как раз и нужно.
    Только скорость работы, которую он показывает, чё-то у него совсем не айс - от 60 до 120 pages/min... Это на долго...
    И это с задержками по 1 секунде через каждые 500 url и по 1-й ms между запросами к серверу на 5 потоках.
    Мдя-я-я... Опять придётся на ночь ставить.
    • 0
  9. Опытный старожил) Аватар для vovasit91
    • Регистрация: 07.08.2011
    • Сообщений: 688
    • Репутация: 235
    • Webmoney BL: ?
    madcap, а у Вас sitemap имеется? Я просто как раз пишу программку. Она может собрать все ссылки из sitemap и сохранить в текстовый файл (Это только часть функционала. Если нужно, напишите в ЛС адрес карты сайта, я попробую спарсить и скину ссылки.) А в аддурилку можете добавить с помощью того же WebM AddUrl

    ---------- Сообщение добавлено 22:49 ---------- Предыдущее 22:48 ----------

    Правда я не учитываю роботс.
    • 1

    Спасибо сказали:

    on3shot(13.01.2016),
  10. Дипломник Аватар для on3shot
    • Регистрация: 23.11.2014
    • Сообщений: 108
    • Репутация: 36
    madcap, можно увеличить количество подключений Max. Simultaneous Connections, но аккуратно
    • 0

Похожие темы

Темы Раздел Ответов Последний пост
есть список доменов с тиц 10-30 в зоне ua
Вопросы от новичков 8 02.11.2015 02:17
Список свободных доменов с тиц и пр
Прочее 9 22.04.2014 11:04
Большой список доменов
Домены 8 12.01.2014 22:57
Гигантский список доменов
Домены 7 12.01.2014 22:43
Полный список Free-доменов
Хостинг и Серверы 20 02.10.2009 12:32

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры