Подскажите многопоточный парсер e-mail из форумов, блогов, соц сетей. Желательно, чтобы он был бесплатным и в него входил чекер валидности спарсенных e-mail.
- 19.01.2015 18:23
- Регистрация: 22.07.2014
- Сообщений: 56
- Репутация: 0
- 20.01.2015 17:11
Валидность до рассылки большего смысла проверять нет, если только MX-записть пробить - есть она или нет.
Сбор емэйлов - это тот же парсинг, никаких сильных отличий нет. Сейчас множество адекватных парсеров на js на любой вкус:
1. Для DOM можно использовать jsdom: https://github.com/tmpvar/jsdom.
2. Намного быстрее jsdom - cheerio, у него есть jQuery интерфейс: https://github.com/MatthewMueller/cheerio
3. Можно также посмотреть на htmlparser2, который парсит в несколько потоков, по отзывам еще быстрее вариантов выше, по умолчанию можно не использовать DOM. Но можно и использовать :). Именно этот парсер используется для cheerio: https://github.com/fb55/htmlparser2
4. Можно попробовать и фреймворк от Yahoo, называется YQL. Тот вариант, когда можно использовать сервис и снять нагрузку с своего сервера. Есть ограничения по потокам для бесплатного использования, ну и он не будет парсить, если робот запрещен в robot.txt сайта: http://developer.yahoo.com/yql/
5. Если контент у сайта меняется динамически, можно использовать headless браузер типа phantomjs: http://phantomjs.org/. Или casperjs: http://casperjs.org/. А с casperjs можно работать через SpookyJS: https://github.com/WaterfallEngineering/SpookyJS
6. phantomjs основан на zombiejs: http://zombie.labnotes.org/. Главное отличие - phantomjs не может быть встроен в nodejs, когда zombiejs это просто модуль nodejs.
7. Ну и мануал как парсить с помощью nodejs: http://code.tutsplus.com/tutorials/w...-js--net-25560
Поэтому имхо стоит чуть подольше поразбираться и либо самому дописать варианты выше под себя, либо заказать кому, чем использовать крякнутый софт из 2000х.Спасибо сказали:
webmaster23(22.01.2015), - 22.01.2015 23:06
- Регистрация: 22.07.2014
- Сообщений: 56
- Репутация: 0
- 23.01.2015 14:47
Все зависит от цели сбора. Просто собирать все подряд и слать что-то общее не рекомендую, отдача будет минимальной, если в принципе будет. Социалка социалке рознь, пару лет назад ни с Твиттером, ни с Linkedin особых проблем не возникало :)
- 24.01.2015 01:49
- Регистрация: 22.07.2014
- Сообщений: 56
- Репутация: 0
Glueon,что скажете о продукте ePochat Extractor по сравнению с теми инструментами, которые написали Вы?
- 24.01.2015 02:19
webmaster23,Тоже интересен вопрос, кто пользуется софтом от Е-почта?
- 24.01.2015 15:40
Нормальный инструмент, но масштабироваться будете в пределах своего канала у интернет-провайдера :) Инструменты е-почты они все созданы для разовых задач, чтобы сделать и не возвращаться. Если речь идет об объеме, начнут всплывать минусы. Оно все устарело жутко по архитектуре.
Спасибо сказали:
webmaster23(25.01.2015), - 24.01.2015 15:53
Говорите проверять почты на валидность с помощью mx записей, опишите подробнее.
- 25.01.2015 00:09
- Регистрация: 22.07.2014
- Сообщений: 56
- Репутация: 0
Glueon,какие инструменты из коробочных решений могли бы порекомендовать для парсинга e-mail и проверка на валидность?
- 25.01.2015 19:57
Bear, это для отсева генеренки на левых доменах. Пользователя пробивать таким образом не имеет смысла, только домены. Просто проверяем наличие днс-записи на MX.
---------- Сообщение добавлено 19:57 ---------- Предыдущее 19:55 ----------
webmaster23, боюсь, что ничего не смогу рекомендовать :) Я давно уже не занимался рассылками, на тот момент писал все сам. Выше навел на мысли как лучше. Могу только с ТЗ помочь, если хотите написать что-то сами. А готовые продукты обсуждать не очень интересно.
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
Авторегер и чекер hotmail yahoo hushmail mail.com mail.ru rambler yandex qip.ru km.ru | Софт, скрипты, лицензии | 29 | 20.12.2017 19:41 |
Подскажите, есть ли парсер ответов mail.ru | Софт, скрипты, сервисы | 7 | 21.12.2013 00:34 |
Где найти простенький ЯНдекс каталог парсер и функциональный парсер выдачи Яндекса. | Софт, скрипты, сервисы | 3 | 04.12.2012 22:01 |
DatacolSEO v2.0 = SEO чекер, парсер обратных ссылок, парсер выдачи и ключевиков | Софт, скрипты, сервисы | 6 | 15.11.2011 14:40 |
Акция на парсер Яндекс. Маркет, Marketgid.com, Ozon.ru и Torg.Mail.ru | Софт, скрипты, лицензии | 0 | 21.06.2011 18:18 |