Парсер и чекер e-mail

(Ответов: 12, Просмотров: 3112)
Страница 1 из 2 12 Последняя
  1. Студент
    • Регистрация: 22.07.2014
    • Сообщений: 56
    • Репутация: 0
    Подскажите многопоточный парсер e-mail из форумов, блогов, соц сетей. Желательно, чтобы он был бесплатным и в него входил чекер валидности спарсенных e-mail.
    • 0
  2. Новичок Аватар для Glueon
    • Регистрация: 24.11.2014
    • Сообщений: 22
    • Репутация: 7
    Валидность до рассылки большего смысла проверять нет, если только MX-записть пробить - есть она или нет.

    Сбор емэйлов - это тот же парсинг, никаких сильных отличий нет. Сейчас множество адекватных парсеров на js на любой вкус:
    1. Для DOM можно использовать jsdom: https://github.com/tmpvar/jsdom.
    2. Намного быстрее jsdom - cheerio, у него есть jQuery интерфейс: https://github.com/MatthewMueller/cheerio
    3. Можно также посмотреть на htmlparser2, который парсит в несколько потоков, по отзывам еще быстрее вариантов выше, по умолчанию можно не использовать DOM. Но можно и использовать :). Именно этот парсер используется для cheerio: https://github.com/fb55/htmlparser2
    4. Можно попробовать и фреймворк от Yahoo, называется YQL. Тот вариант, когда можно использовать сервис и снять нагрузку с своего сервера. Есть ограничения по потокам для бесплатного использования, ну и он не будет парсить, если робот запрещен в robot.txt сайта: http://developer.yahoo.com/yql/
    5. Если контент у сайта меняется динамически, можно использовать headless браузер типа phantomjs: http://phantomjs.org/. Или casperjs: http://casperjs.org/. А с casperjs можно работать через SpookyJS: https://github.com/WaterfallEngineering/SpookyJS
    6. phantomjs основан на zombiejs: http://zombie.labnotes.org/. Главное отличие - phantomjs не может быть встроен в nodejs, когда zombiejs это просто модуль nodejs.
    7. Ну и мануал как парсить с помощью nodejs: http://code.tutsplus.com/tutorials/w...-js--net-25560

    Поэтому имхо стоит чуть подольше поразбираться и либо самому дописать варианты выше под себя, либо заказать кому, чем использовать крякнутый софт из 2000х.
    • 1

    Спасибо сказали:

    webmaster23(22.01.2015),
  3. Студент
    • Регистрация: 22.07.2014
    • Сообщений: 56
    • Репутация: 0
    Цитата Сообщение от Glueon Посмотреть сообщение
    Валидность до рассылки большего смысла проверять нет, если только MX-записть пробить - есть она или нет.

    Сбор емэйлов - это тот же парсинг, никаких сильных отличий нет. Сейчас множество адекватных парсеров на js на любой вкус:
    1. Для DOM можно использовать jsdom: https://github.com/tmpvar/jsdom.
    2. Намного быстрее jsdom - cheerio, у него есть jQuery интерфейс: https://github.com/MatthewMueller/cheerio
    3. Можно также посмотреть на htmlparser2, который парсит в несколько потоков, по отзывам еще быстрее вариантов выше, по умолчанию можно не использовать DOM. Но можно и использовать :). Именно этот парсер используется для cheerio: https://github.com/fb55/htmlparser2
    4. Можно попробовать и фреймворк от Yahoo, называется YQL. Тот вариант, когда можно использовать сервис и снять нагрузку с своего сервера. Есть ограничения по потокам для бесплатного использования, ну и он не будет парсить, если робот запрещен в robot.txt сайта: http://developer.yahoo.com/yql/
    5. Если контент у сайта меняется динамически, можно использовать headless браузер типа phantomjs: http://phantomjs.org/. Или casperjs: http://casperjs.org/. А с casperjs можно работать через SpookyJS: https://github.com/WaterfallEngineering/SpookyJS
    6. phantomjs основан на zombiejs: http://zombie.labnotes.org/. Главное отличие - phantomjs не может быть встроен в nodejs, когда zombiejs это просто модуль nodejs.
    7. Ну и мануал как парсить с помощью nodejs: http://code.tutsplus.com/tutorials/w...-js--net-25560

    Поэтому имхо стоит чуть подольше поразбираться и либо самому дописать варианты выше под себя, либо заказать кому, чем использовать крякнутый софт из 2000х.
    А откуда лучше всего парсить e-mail? соц. сети насколько я понимаю сейчас скрывают в большинстве случаев e-mail?
    • 0
  4. Новичок Аватар для Glueon
    • Регистрация: 24.11.2014
    • Сообщений: 22
    • Репутация: 7
    Все зависит от цели сбора. Просто собирать все подряд и слать что-то общее не рекомендую, отдача будет минимальной, если в принципе будет. Социалка социалке рознь, пару лет назад ни с Твиттером, ни с Linkedin особых проблем не возникало :)
    • 0
  5. Студент
    • Регистрация: 22.07.2014
    • Сообщений: 56
    • Репутация: 0
    Glueon,что скажете о продукте ePochat Extractor по сравнению с теми инструментами, которые написали Вы?
    • 0
  6. Студент
    • Регистрация: 12.01.2014
    • Сообщений: 91
    • Репутация: 10
    • Webmoney BL: ?
    webmaster23,Тоже интересен вопрос, кто пользуется софтом от Е-почта?
    • 0
  7. Новичок Аватар для Glueon
    • Регистрация: 24.11.2014
    • Сообщений: 22
    • Репутация: 7
    Нормальный инструмент, но масштабироваться будете в пределах своего канала у интернет-провайдера :) Инструменты е-почты они все созданы для разовых задач, чтобы сделать и не возвращаться. Если речь идет об объеме, начнут всплывать минусы. Оно все устарело жутко по архитектуре.
    • 1

    Спасибо сказали:

    webmaster23(25.01.2015),
  8. Студент
    • Регистрация: 29.09.2013
    • Сообщений: 76
    • Репутация: 26
    • Webmoney BL: ?
    Говорите проверять почты на валидность с помощью mx записей, опишите подробнее.
    • 0
  9. Студент
    • Регистрация: 22.07.2014
    • Сообщений: 56
    • Репутация: 0
    Glueon,какие инструменты из коробочных решений могли бы порекомендовать для парсинга e-mail и проверка на валидность?
    • 0
  10. Новичок Аватар для Glueon
    • Регистрация: 24.11.2014
    • Сообщений: 22
    • Репутация: 7
    Bear, это для отсева генеренки на левых доменах. Пользователя пробивать таким образом не имеет смысла, только домены. Просто проверяем наличие днс-записи на MX.

    ---------- Сообщение добавлено 19:57 ---------- Предыдущее 19:55 ----------

    webmaster23, боюсь, что ничего не смогу рекомендовать :) Я давно уже не занимался рассылками, на тот момент писал все сам. Выше навел на мысли как лучше. Могу только с ТЗ помочь, если хотите написать что-то сами. А готовые продукты обсуждать не очень интересно.
    • 0
Страница 1 из 2 12 Последняя

Тэги топика:

Похожие темы

Темы Раздел Ответов Последний пост
Авторегер и чекер hotmail yahoo hushmail mail.com mail.ru rambler yandex qip.ru km.ru
Софт, скрипты, лицензии 29 20.12.2017 19:41
Подскажите, есть ли парсер ответов mail.ru
Софт, скрипты, сервисы 7 21.12.2013 00:34
Где найти простенький ЯНдекс каталог парсер и функциональный парсер выдачи Яндекса.
Софт, скрипты, сервисы 3 04.12.2012 22:01
DatacolSEO v2.0 = SEO чекер, парсер обратных ссылок, парсер выдачи и ключевиков
Софт, скрипты, сервисы 6 15.11.2011 14:40
Акция на парсер Яндекс. Маркет, Marketgid.com, Ozon.ru и Torg.Mail.ru
Софт, скрипты, лицензии 0 21.06.2011 18:18

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры