Что такое A-Parser?
Это быстрый парсер с уклоном на универсальность, удобность и прозводительность.
На данный момент умеет парсить:
Поисковые системы
- Bing
- Yahoo
- Yandex
- QIP - парсинг яндекса через search.qip.ru с выдачей до 5000 результатов с одного запроса
- Парсер AOL, реализованный через парсер Net::HTTP с опциями Parse custom result, Use pages и др.
Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц
Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех остальных парсеров так же будет), т.е. по одному запросу собирает всю выдачу
Подсказки поисковых систем
Сервисы поиска ключевых слов
- Yandex WordStat - собирает все кейворды и количество показов до указанной страницы. Так же собирает дополнительные кейворды, показы по главному кейворду и дату обновления статистики. Может сам подставляет найденные ключевые слова в запросы до указанного уровня.
Подсказки поисковых систем
- Подсказки и релейтед кеи Google
- Подсказки и релейтед Bing
- Подсказки, релейтед и трендовые кеи Yahoo
- Подсказки и релейтед Yandex
Для подсказок гугла умеет автоматически собирать все кеи(подстановки до указанного уровня), для всех остальных парсеров такая возможность скоро так же появится
Параметры сайтов и доменов
- SE::Google::Position - проверка позиции домена по ключевому слову в гугле
- Google PageRank - PR страниц и доменов
- SE::Google::SafeBrowsing - проверка домена в блеклисте гугла(подпись harm в выдачи)
- DMOZ - наличие сайта в каталоге DMOZ
- Google TrustRank - проверка сайта на траст гугла(дополнительный блок ссылок в выдаче и т.п.)
- Whois - дата экспайра домена
- Bing LangDetect - проверка языка домена\ссылки
- Net::DNS - парсер резолвит домены в IP адреса
Парсинг контента
- HTML::LinkExtractor - парсит внешние и внутренние ссылки с указанного сайта, может ходить по внутренним ссылкам до выбранного уровня.
- Net::HTTP - скачивает указанную страницу, поддерживает многостраничный парсинг.
Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.
Обработка и фильтрация результатов
- Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и т.п.
- Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров.
- Парсинг любого результата с использованием регулярных выражений.
Не было бы никакого A-Parser'а если бы не он не имел все нижеперечисленные преимущества, оставляя остальные парсеры далеко в стороне:
- Полностью интерактивный мега-юзабильный веб интерфейс
- Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
- Расширенный редактор заданий, позволяет комбинировать несколько парсеров в одном задании, к примеру можно одновременно парсить ссылки со всех парсеров поисковых систем, делать уник по всем результатам прямо в процессе работы и т.д.
- Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
- Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
- Поддержка русского и английского языка
- Огромная скорость работы
- Поддержка двух самых популярных платформ - Linux и Windows, производительность под Windows фактически не отличается от Linux версии
- Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
- Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
- Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki
Более подробное описание и скриншоты
Wiki - дополнительная информация, инструкции и т.д.
Скриншот интерфейса:
На данном скриншоте показан пример добавления задания на парсинг одновременно трёх поисковых систем - Google, Bing и Yahoo, одновременный уник по домену всех результатов
Ценовая политика
Внимание, ценовая политика изменилась с 10.07.2012!
Цена лицензии - 200$, Абонентская плата - 15$ / 3 месяца, первый год без абонентской платы. Условия по абонентской плате так же распространяются и на существующих пользователей!
А так же спец предложение - всем клиентам A-Parser'а бесплатно приватные прокси на 20 потоков на 2 недели!
Всем клиентам кто имеет лицензию на A-Poster - цена всего 150$
А так же A-Parser + A-Poster всего за 300$!
Лицензия позволяет запускать A-Parser на одном сервере\компьютере. Переносить можно бесплатно, нельзя одновременно на нескольких запускать.
A-Parser - продвинутый парсер поисковых систем, Suggest, WordStat, PR, DMOZ, Whois, DNS, etc
(Ответов: 309, Просмотров: 37697)
- 11.07.2012 20:26
Последний раз редактировалось oleg_ug; 12.07.2012 в 12:56. Причина: красным писать нельзя
Спасибо сказали:
SlarkStudio(07.12.2013), - 16.07.2012 13:23
Версия 0.9.69
Новый парсер SE::Yandex::TIC - проверка индекса цитирования домена, а так же исправление выдачи Яндекс WordStat и Bing, подробнее тут
Связанные задачи:Ошибка #192: Fix Members Area work with https
Ошибка #193: Fix SE::Yandex::WordStat russian html entities
Ошибка #194: Fix SE::Bing for parsing 10+ results and fix links regex
Ошибка #195: Fix UTF-8 for restore unique from file
Улучшение #196: Add Yandex TIC parser - SE::Yandex::TIC - 08.08.2012 13:49
Версия 0.9.166
Большое количество исправлений, доводим парсер до идеального состояния!
А так же плановые фиксы в связи с изменением выдачи для SE::Google и SE::Yandex.
В следующих версиях ожидается новый HTTP движок, который не попал в текущую версию в связи с продолжительным тестированием.
Связанные задачи:Ошибка #163: Some bug in proxycheker
Ошибка #197: Fix not save results after stop\pause + start
Ошибка #198: Fix encoding for non-english for Google, Bing and Yahoo parsers
Ошибка #199: Fix non-english queries parsing with SE::Yahoo
Ошибка #201: Fix Google snippets regex
Ошибка #202: Fix parse custom results with arrays -> server crash
Ошибка #204: Fix SE::Yandex next page regex
Ошибка #210: Fix crash on end of file when file used as iterator
Улучшение #206: Add gzip support for SE::Yandex::TIC
Улучшение #207: UTF-8 auto detect for HTML::LinkExtractor
Улучшение #209: Add gzip support for SE::Google - 17.08.2012 13:03
Версия 0.9.182
Очень важные изменения:
- Новый более быстрый HTTP движок
- Уменьшение потребления памяти
- Общее увеличение производительности за счет внутренних оптимизаций
Улучшения:
- HTML::LinkExtractor: новые результаты {cleananchor} - анкор без html кода, и {nofollow} - определяет есть ли nofollow параметр
- HTML::LinkExtractor: опция Subdomains are internal - считает ссылки со всех сабдоменнов как внутрение
- Макрос {queriesfile} в Results -> File name - подставляет название файла с запросами
Исправления:
- Поправлен парсер SE::Google в связи с изменением формата выдачи
Связанные задачи:Ошибка #211: Fix SE::Google results count regex
Ошибка #212: Fix SE::Google snippets regex
Ошибка #217: Delete tasks with iterator's from completed queue after parser restarting
Улучшение #200: New fast HTTP engine
Улучшение #205: Reduce memory usage by using new http engine
Улучшение #213: Add posibility to use {query} inside arrays in Results format
Улучшение #214: Add {cleananchor} and {nofollow} to results in HTML::LinkExtractor
Улучшение #215: Название исходного файла в results (New macros {queriesfile} in results file name)
Улучшение #219: Add 'Subdomains are internal' option for HTML::LinkExtractor
Улучшение #221: Many internal perfomance improvement and optimizations - 27.08.2012 13:03
Открылась партнерская программа по продаже A-Parser'a - 50$ с каждого приведенного клиента. Подробнее на сайте парсера.
Регистрируйтесь и свяжитесь со мной для активации аккаунта.
Помимо ICQ 777889 теперь со мной можно связаться через jabber/gtalk forbidden2k@gmail.com - 31.08.2012 13:02
Версия 0.9.194
Новые парсеры:- SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу
- SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер
Новые возможности:- Опция, позволяющая парсить разные задания использую одну базу для уникализации, т.е. теперь можно при появлении новых признаков той же категории допарсить только новые результаты в старую базу
- Возможность залогиниться в 2+ парсера в одном браузере
Всего 12 улучшений и исправлений
Связанные задачи:Ошибка #222: Fix iterator cleanup when set any error
Ошибка #223: Fix work end when string with zero used in queries/subs files
Ошибка #225: Fix server crash when use Unique queries + iterators + pause start
Ошибка #228: Fix max size handling in http engine
Ошибка #232: Fix pages count on active queue tab
Улучшение #161: Add option for check existing results file for unique before task start(implemented with Keep Unique option)
Улучшение #165: Show old results count when server restart
Улучшение #224: New parser SE::Google::Images - parsing full urls to images, with snippets, width, height and size information
Улучшение #226: New parser SE::Yandex::Direct - direct.yandex.ru parser with total ads count and all ads list(domain, title, text)
Улучшение #227: Allow login to 2+ A-Parser's on same ip/domain
Улучшение #230: Check unique level when restore tasks
Улучшение #231: Disable editing default presets - SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу
- 10.09.2012 13:15
Версия 0.9.200
Новые парсеры:- Rank::Ahrefs - парсер количества беклинков с сервиса ahrefs.com, парсит общее число беклинков, количество ссылающихся страниц, количество уникальных IP-адресов, подсетей класса C и количество уникальных доменов
- SE::Bing::Translator - переводчик через сервис www.bing.com/translator/, поддерживает все языки сервиса, включая автоопределение языка оригинала текста
- Rank::Category - автоматически определяет категорию сайта на английском языке, категории такие же как в dmoz.org, например google.com - Computers/Internet/Searching
Новые возможности:- Дополнительные опции по сохранению результатов - возможность добавить произвольный текст в начало и конец файла результата, может использоваться к примеру для обозначения названий колонок при формировании результата в csv виде
Связанные задачи:Ошибка #236: Fix active slot counting when server restart
Улучшение #234: Re-enable https with old http engine
Улучшение #235: New parser Rank::Ahrefs - ahrefs.com parser (backlinks/pages/ips/subnets/domains count)
Улучшение #237: Определение тематики сайта
Улучшение #238: Limit queries field length to 8192 characters
Улучшение #239: More options in add task: prepend and append text in results file(e.g. for cols names)
Улучшение #241: SE::Bing::Translator - translator between any 2 languages, with auto-detectСпасибо сказали:
evol22(13.09.2012), - Rank::Ahrefs - парсер количества беклинков с сервиса ahrefs.com, парсит общее число беклинков, количество ссылающихся страниц, количество уникальных IP-адресов, подсетей класса C и количество уникальных доменов
- 13.09.2012 20:40
Приобрел данное творение. Скорость, качество, результаты просто фантастика. Реально очень выручает и помогает. Если Вы ищите парсер - лучше не найти. Да и автор постоянно в сети, поддержку осуществляет. Потребовалось немного доработать функционал - в течении пару часов получил все мне необходимое. К покупке рекомендую!!!
- 19.09.2012 14:13
Версия 0.9.209
Новый парсер Rank::CMS - определение более 200 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков.
Появилась версия с User API, теперь можно интегрировать A-Parser в свои скрипты и программы, более подробно про API описано тут: User API, взаимодействие с другими программами и скриптами
Исправлен парсер SE::Yandex
Общее повышение стабильности, улучшение интерфейса и другие фиксы.
Связанные задачи:Ошибка #157: Bug when use non-english presets name
Ошибка #229: Need to auto-flush unique file because it may corrupt if process kill
Ошибка #242: Fix server crash after restarting task with iterator error
Ошибка #244: HTML::LinkExtractor fail with relative links starting with dot-shlash
Ошибка #245: Query format fail for subqueries when use iterator + parse to level option
Ошибка #247: Fix utf-8 check for subqueries files
Ошибка #255: Fix SE::Yandex: gzip and next page regex
Улучшение #243: Disable editing all fixed combobox
Улучшение #246: Need to reload presets combobox's when adding/deleting presets
Улучшение #251: New parser Rank::CMS - auto detect CMS type
Улучшение #252: Implement User Api: ping and oneRequest(parser, preset, query)
Улучшение #253: Fast proxy delivery for new threads - 28.09.2012 13:16
Версия 0.9.220
Улучшения- В парсер SE::Yandex добавлена возможность выбора домена yandex.ua для парсинга, так же для этого парсера теперь конвертируется количество результатов в число.
- Для парсера SE::Google добавлена опция строгого поиска, т.е. если Google говорит что результатов не найдено, но предлагает другие результаты, то парсер не будет их учитывать.
- Теперь при экспорте пресета сохраняются все значимые настройки(кроме самих запросов).
Исправления- В этой версии исправлена ошибка с утечкой сокетов при использовании SOCKS прокси, а так же несколько других ошибок влияющих на общую стабильность парсера.
Связанные задачи:Ошибка #260: Fix SE::Yahoo regex(loop)
Ошибка #262: Fix wrong proxy ban when malformed url used(status == 595)
Ошибка #265: Fix sockets leak when use socks proxies in new http engine(important!)
Ошибка #267: Fix warnings when fast stop parser test
Ошибка #268: Fix handling cookie expire date(for too big date or unparsable date automatic set expire to now + 1 year)
Улучшение #256: Add option for SE::Google for check not found resutls
Улучшение #257: Convert to numeric results count for SE::Yandex
Улучшение #258: Add more options to import/export presets
Улучшение #263: Зоны парсинга Yandex (option Yandex domain allow select yandex.ua)
Улучшение #264: Show warning for too many subrequests
Тэги топика:
« Лучший Чекер Логов 40$ за ВСЁ | - »
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
LTK Parser - парсер поисковых подсказок на разных языках | Софт, скрипты, лицензии | 12 | 06.05.2012 21:10 |
Парсер контента под дорвеи и сателлиты X-Parser | Софт, скрипты, сервисы | 0 | 15.08.2010 23:51 |
KD Parser - парсер ключевых слов | Софт, скрипты, лицензии | 2 | 10.04.2010 21:47 |
Хороший Парсер Я.Директ и Wordstat - Магадан | Поисковые системы | 10 | 24.11.2009 16:52 |
Хороший Парсер Я.Директ и Wordstat - Магадан | Софт, скрипты, сервисы | 4 | 15.09.2009 19:38 |