A-Parser - продвинутый парсер поисковых систем, Suggest, WordStat, PR, DMOZ, Whois, DNS, etc

**Forbidden** · 11.07.2012 20:26

Что такое A-Parser?

Это быстрый парсер с уклоном на универсальность, удобность и прозводительность.
На данный момент умеет парсить:

Поисковые системы

Google
Bing
Yahoo
Yandex
QIP - парсинг яндекса через search.qip.ru с выдачей до 5000 результатов с одного запроса
Парсер AOL, реализованный через парсер Net::HTTP с опциями Parse custom result, Use pages и др.

Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц

Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех остальных парсеров так же будет), т.е. по одному запросу собирает всю выдачу

Подсказки поисковых систем

Сервисы поиска ключевых слов

Yandex WordStat - собирает все кейворды и количество показов до указанной страницы. Так же собирает дополнительные кейворды, показы по главному кейворду и дату обновления статистики. Может сам подставляет найденные ключевые слова в запросы до указанного уровня.

Подсказки поисковых систем

Подсказки и релейтед кеи Google
Подсказки и релейтед Bing
Подсказки, релейтед и трендовые кеи Yahoo
Подсказки и релейтед Yandex

Для подсказок гугла умеет автоматически собирать все кеи(подстановки до указанного уровня), для всех остальных парсеров такая возможность скоро так же появится

Параметры сайтов и доменов

SE::Google::Position - проверка позиции домена по ключевому слову в гугле
Google PageRank - PR страниц и доменов
SE::Google::SafeBrowsing - проверка домена в блеклисте гугла(подпись harm в выдачи)
DMOZ - наличие сайта в каталоге DMOZ
Google TrustRank - проверка сайта на траст гугла(дополнительный блок ссылок в выдаче и т.п.)
Whois - дата экспайра домена
Bing LangDetect - проверка языка домена\ссылки
Net::DNS - парсер резолвит домены в IP адреса

Парсинг контента

HTML::LinkExtractor - парсит внешние и внутренние ссылки с указанного сайта, может ходить по внутренним ссылкам до выбранного уровня.
Net::HTTP - скачивает указанную страницу, поддерживает многостраничный парсинг.

Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.

Обработка и фильтрация результатов

Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и т.п.
Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров.
Парсинг любого результата с использованием регулярных выражений.

Не было бы никакого A-Parser'а если бы не он не имел все нижеперечисленные преимущества, оставляя остальные парсеры далеко в стороне:

Полностью интерактивный мега-юзабильный веб интерфейс
- Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
- Расширенный редактор заданий, позволяет комбинировать несколько парсеров в одном задании, к примеру можно одновременно парсить ссылки со всех парсеров поисковых систем, делать уник по всем результатам прямо в процессе работы и т.д.
- Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
- Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
- Поддержка русского и английского языка
Огромная скорость работы
Поддержка двух самых популярных платформ - Linux и Windows, производительность под Windows фактически не отличается от Linux версии
Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki

Более подробное описание и скриншоты

Wiki - дополнительная информация, инструкции и т.д.

Скриншот интерфейса:

На данном скриншоте показан пример добавления задания на парсинг одновременно трёх поисковых систем - Google, Bing и Yahoo, одновременный уник по домену всех результатов

Ценовая политика

Внимание, ценовая политика изменилась с 10.07.2012!

Цена лицензии - 200$, Абонентская плата - 15$ / 3 месяца, первый год без абонентской платы. Условия по абонентской плате так же распространяются и на существующих пользователей!

А так же спец предложение - всем клиентам A-Parser'а бесплатно приватные прокси на 20 потоков на 2 недели!

Всем клиентам кто имеет лицензию на A-Poster - цена всего 150$

А так же A-Parser + A-Poster всего за 300$!

Лицензия позволяет запускать A-Parser на одном сервере\компьютере. Переносить можно бесплатно, нельзя одновременно на нескольких запускать.

**Forbidden** · 16.07.2012 13:23

Версия 0.9.69

Новый парсер

SE::Yandex::TIC - проверка индекса цитирования домена, а так же исправление выдачи Яндекс WordStat и Bing, подробнее тут

Связанные задачи:

Ошибка #192: Fix Members Area work with https
Ошибка #193: Fix SE::Yandex::WordStat russian html entities
Ошибка #194: Fix SE::Bing for parsing 10+ results and fix links regex
Ошибка #195: Fix UTF-8 for restore unique from file
Улучшение #196: Add Yandex TIC parser - SE::Yandex::TIC

**Forbidden** · 08.08.2012 13:49

Версия 0.9.166

Большое количество исправлений, доводим парсер до идеального состояния!

А так же плановые фиксы в связи с изменением выдачи для SE::Google и SE::Yandex.

В следующих версиях ожидается новый HTTP движок, который не попал в текущую версию в связи с продолжительным тестированием.

Связанные задачи:

Ошибка #163: Some bug in proxycheker
Ошибка #197: Fix not save results after stop\pause + start
Ошибка #198: Fix encoding for non-english for Google, Bing and Yahoo parsers
Ошибка #199: Fix non-english queries parsing with SE::Yahoo
Ошибка #201: Fix Google snippets regex
Ошибка #202: Fix parse custom results with arrays -> server crash
Ошибка #204: Fix SE::Yandex next page regex
Ошибка #210: Fix crash on end of file when file used as iterator
Улучшение #206: Add gzip support for SE::Yandex::TIC
Улучшение #207: UTF-8 auto detect for HTML::LinkExtractor
Улучшение #209: Add gzip support for SE::Google

**Forbidden** · 17.08.2012 13:03

Версия 0.9.182

Очень важные изменения:

Новый более быстрый HTTP движок
Уменьшение потребления памяти
Общее увеличение производительности за счет внутренних оптимизаций

Улучшения:

HTML::LinkExtractor: новые результаты {cleananchor} - анкор без html кода, и {nofollow} - определяет есть ли nofollow параметр
HTML::LinkExtractor: опция Subdomains are internal - считает ссылки со всех сабдоменнов как внутрение
Макрос {queriesfile} в Results -> File name - подставляет название файла с запросами

Исправления:

Поправлен парсер SE::Google в связи с изменением формата выдачи

Связанные задачи:

Ошибка #211: Fix SE::Google results count regex
Ошибка #212: Fix SE::Google snippets regex
Ошибка #217: Delete tasks with iterator's from completed queue after parser restarting
Улучшение #200: New fast HTTP engine
Улучшение #205: Reduce memory usage by using new http engine
Улучшение #213: Add posibility to use {query} inside arrays in Results format
Улучшение #214: Add {cleananchor} and {nofollow} to results in HTML::LinkExtractor
Улучшение #215: Название исходного файла в results (New macros {queriesfile} in results file name)
Улучшение #219: Add 'Subdomains are internal' option for HTML::LinkExtractor
Улучшение #221: Many internal perfomance improvement and optimizations

**Forbidden** · 27.08.2012 13:03

Открылась партнерская программа по продаже A-Parser'a - 50$ с каждого приведенного клиента. Подробнее на сайте парсера.
Регистрируйтесь и свяжитесь со мной для активации аккаунта.

Помимо ICQ 777889 теперь со мной можно связаться через jabber/gtalk forbidden2k@gmail.com

**Forbidden** · 31.08.2012 13:02

Версия 0.9.194

Новые парсеры:

SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу
SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер

Новые возможности:

Опция, позволяющая парсить разные задания использую одну базу для уникализации, т.е. теперь можно при появлении новых признаков той же категории допарсить только новые результаты в старую базу
Возможность залогиниться в 2+ парсера в одном браузере

Всего 12 улучшений и исправлений

Связанные задачи:

Ошибка #222: Fix iterator cleanup when set any error
Ошибка #223: Fix work end when string with zero used in queries/subs files
Ошибка #225: Fix server crash when use Unique queries + iterators + pause start
Ошибка #228: Fix max size handling in http engine
Ошибка #232: Fix pages count on active queue tab
Улучшение #161: Add option for check existing results file for unique before task start(implemented with Keep Unique option)
Улучшение #165: Show old results count when server restart
Улучшение #224: New parser SE::Google::Images - parsing full urls to images, with snippets, width, height and size information
Улучшение #226: New parser SE::Yandex::Direct - direct.yandex.ru parser with total ads count and all ads list(domain, title, text)
Улучшение #227: Allow login to 2+ A-Parser's on same ip/domain
Улучшение #230: Check unique level when restore tasks
Улучшение #231: Disable editing default presets

**Forbidden** · 10.09.2012 13:15

Версия 0.9.200

Новые парсеры:

Rank::Ahrefs - парсер количества беклинков с сервиса ahrefs.com, парсит общее число беклинков, количество ссылающихся страниц, количество уникальных IP-адресов, подсетей класса C и количество уникальных доменов
SE::Bing::Translator - переводчик через сервис www.bing.com/translator/, поддерживает все языки сервиса, включая автоопределение языка оригинала текста
Rank::Category - автоматически определяет категорию сайта на английском языке, категории такие же как в dmoz.org, например google.com - Computers/Internet/Searching

Новые возможности:

Дополнительные опции по сохранению результатов - возможность добавить произвольный текст в начало и конец файла результата, может использоваться к примеру для обозначения названий колонок при формировании результата в csv виде

Связанные задачи:

Ошибка #236: Fix active slot counting when server restart
Улучшение #234: Re-enable https with old http engine
Улучшение #235: New parser Rank::Ahrefs - ahrefs.com parser (backlinks/pages/ips/subnets/domains count)
Улучшение #237: Определение тематики сайта
Улучшение #238: Limit queries field length to 8192 characters
Улучшение #239: More options in add task: prepend and append text in results file(e.g. for cols names)
Улучшение #241: SE::Bing::Translator - translator between any 2 languages, with auto-detect

**evol22** · 13.09.2012 20:40

Приобрел данное творение. Скорость, качество, результаты просто фантастика. Реально очень выручает и помогает. Если Вы ищите парсер - лучше не найти. Да и автор постоянно в сети, поддержку осуществляет. Потребовалось немного доработать функционал - в течении пару часов получил все мне необходимое. К покупке рекомендую!!!

**Forbidden** · 19.09.2012 14:13

Версия 0.9.209

Новый парсер

Rank::CMS - определение более 200 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков.

Появилась версия с User API, теперь можно интегрировать A-Parser в свои скрипты и программы, более подробно про API описано тут: User API, взаимодействие с другими программами и скриптами

Исправлен парсер

SE::Yandex

Общее повышение стабильности, улучшение интерфейса и другие фиксы.

Связанные задачи:

Ошибка #157: Bug when use non-english presets name
Ошибка #229: Need to auto-flush unique file because it may corrupt if process kill
Ошибка #242: Fix server crash after restarting task with iterator error
Ошибка #244: HTML::LinkExtractor fail with relative links starting with dot-shlash
Ошибка #245: Query format fail for subqueries when use iterator + parse to level option
Ошибка #247: Fix utf-8 check for subqueries files
Ошибка #255: Fix SE::Yandex: gzip and next page regex
Улучшение #243: Disable editing all fixed combobox
Улучшение #246: Need to reload presets combobox's when adding/deleting presets
Улучшение #251: New parser Rank::CMS - auto detect CMS type
Улучшение #252: Implement User Api: ping and oneRequest(parser, preset, query)
Улучшение #253: Fast proxy delivery for new threads

**Forbidden** · 28.09.2012 13:16

Версия 0.9.220

Улучшения

В парсер SE::Yandex добавлена возможность выбора домена yandex.ua для парсинга, так же для этого парсера теперь конвертируется количество результатов в число.
Для парсера SE::Google добавлена опция строгого поиска, т.е. если Google говорит что результатов не найдено, но предлагает другие результаты, то парсер не будет их учитывать.
Теперь при экспорте пресета сохраняются все значимые настройки(кроме самих запросов).

Исправления

В этой версии исправлена ошибка с утечкой сокетов при использовании SOCKS прокси, а так же несколько других ошибок влияющих на общую стабильность парсера.

Связанные задачи:

Ошибка #260: Fix SE::Yahoo regex(loop)
Ошибка #262: Fix wrong proxy ban when malformed url used(status == 595)
Ошибка #265: Fix sockets leak when use socks proxies in new http engine(important!)
Ошибка #267: Fix warnings when fast stop parser test
Ошибка #268: Fix handling cookie expire date(for too big date or unparsable date automatic set expire to now + 1 year)
Улучшение #256: Add option for SE::Google for check not found resutls
Улучшение #257: Convert to numeric results count for SE::Yandex
Улучшение #258: Add more options to import/export presets
Улучшение #263: Зоны парсинга Yandex (option Yandex domain allow select yandex.ua)
Улучшение #264: Show warning for too many subrequests

	16.07.2012 13:23 #2
Forbidden Опытный Регистрация: 17.08.2010 Сообщений: 308 Репутация: 23	Версия 0.9.69 Новый парсер SE::Yandex::TIC - проверка индекса цитирования домена, а так же исправление выдачи Яндекс WordStat и Bing, подробнее тут Связанные задачи: Ошибка #192: Fix Members Area work with https Ошибка #193: Fix SE::Yandex::WordStat russian html entities Ошибка #194: Fix SE::Bing for parsing 10+ results and fix links regex Ошибка #195: Fix UTF-8 for restore unique from file Улучшение #196: Add Yandex TIC parser - SE::Yandex::TIC
0 Forbidden

	08.08.2012 13:49 #3
Forbidden Опытный Регистрация: 17.08.2010 Сообщений: 308 Репутация: 23	Версия 0.9.166 Большое количество исправлений, доводим парсер до идеального состояния! А так же плановые фиксы в связи с изменением выдачи для SE::Google и SE::Yandex. В следующих версиях ожидается новый HTTP движок, который не попал в текущую версию в связи с продолжительным тестированием. Связанные задачи: Ошибка #163: Some bug in proxycheker Ошибка #197: Fix not save results after stop\pause + start Ошибка #198: Fix encoding for non-english for Google, Bing and Yahoo parsers Ошибка #199: Fix non-english queries parsing with SE::Yahoo Ошибка #201: Fix Google snippets regex Ошибка #202: Fix parse custom results with arrays -> server crash Ошибка #204: Fix SE::Yandex next page regex Ошибка #210: Fix crash on end of file when file used as iterator Улучшение #206: Add gzip support for SE::Yandex::TIC Улучшение #207: UTF-8 auto detect for HTML::LinkExtractor Улучшение #209: Add gzip support for SE::Google
0 Forbidden

	17.08.2012 13:03 #4
Forbidden Опытный Регистрация: 17.08.2010 Сообщений: 308 Репутация: 23	Версия 0.9.182 Очень важные изменения: Новый более быстрый HTTP движок Уменьшение потребления памяти Общее увеличение производительности за счет внутренних оптимизаций Улучшения: HTML::LinkExtractor: новые результаты {cleananchor} - анкор без html кода, и {nofollow} - определяет есть ли nofollow параметр HTML::LinkExtractor: опция Subdomains are internal - считает ссылки со всех сабдоменнов как внутрение Макрос {queriesfile} в Results -> File name - подставляет название файла с запросами Исправления: Поправлен парсер SE::Google в связи с изменением формата выдачи Связанные задачи: Ошибка #211: Fix SE::Google results count regex Ошибка #212: Fix SE::Google snippets regex Ошибка #217: Delete tasks with iterator's from completed queue after parser restarting Улучшение #200: New fast HTTP engine Улучшение #205: Reduce memory usage by using new http engine Улучшение #213: Add posibility to use {query} inside arrays in Results format Улучшение #214: Add {cleananchor} and {nofollow} to results in HTML::LinkExtractor Улучшение #215: Название исходного файла в results (New macros {queriesfile} in results file name) Улучшение #219: Add 'Subdomains are internal' option for HTML::LinkExtractor Улучшение #221: Many internal perfomance improvement and optimizations
0 Forbidden

	27.08.2012 13:03 #5
Forbidden Опытный Регистрация: 17.08.2010 Сообщений: 308 Репутация: 23	Открылась партнерская программа по продаже A-Parser'a - 50$ с каждого приведенного клиента. Подробнее на сайте парсера. Регистрируйтесь и свяжитесь со мной для активации аккаунта. Помимо ICQ 777889 теперь со мной можно связаться через jabber/gtalk forbidden2k@gmail.com
0 Forbidden

	31.08.2012 13:02 #6
Forbidden Опытный Регистрация: 17.08.2010 Сообщений: 308 Репутация: 23	Версия 0.9.194 Новые парсеры: SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер Новые возможности: Опция, позволяющая парсить разные задания использую одну базу для уникализации, т.е. теперь можно при появлении новых признаков той же категории допарсить только новые результаты в старую базу Возможность залогиниться в 2+ парсера в одном браузере Всего 12 улучшений и исправлений Связанные задачи: Ошибка #222: Fix iterator cleanup when set any error Ошибка #223: Fix work end when string with zero used in queries/subs files Ошибка #225: Fix server crash when use Unique queries + iterators + pause start Ошибка #228: Fix max size handling in http engine Ошибка #232: Fix pages count on active queue tab Улучшение #161: Add option for check existing results file for unique before task start(implemented with Keep Unique option) Улучшение #165: Show old results count when server restart Улучшение #224: New parser SE::Google::Images - parsing full urls to images, with snippets, width, height and size information Улучшение #226: New parser SE::Yandex::Direct - direct.yandex.ru parser with total ads count and all ads list(domain, title, text) Улучшение #227: Allow login to 2+ A-Parser's on same ip/domain Улучшение #230: Check unique level when restore tasks Улучшение #231: Disable editing default presets
0 Forbidden

A-Parser - продвинутый парсер поисковых систем, Suggest, WordStat, PR, DMOZ, Whois, DNS, etc

Опции темы

Спасибо сказали:

Спасибо сказали:

Тэги топика:

Похожие темы

LTK Parser - парсер поисковых подсказок на разных языках

Парсер контента под дорвеи и сателлиты X-Parser

KD Parser - парсер ключевых слов

Хороший Парсер Я.Директ и Wordstat - Магадан

Хороший Парсер Я.Директ и Wordstat - Магадан

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры

	13.09.2012 20:40 #8
evol22 Новичок Регистрация: 04.07.2011 Сообщений: 12 Репутация: 3 Webmoney BL: ?	Приобрел данное творение. Скорость, качество, результаты просто фантастика. Реально очень выручает и помогает. Если Вы ищите парсер - лучше не найти. Да и автор постоянно в сети, поддержку осуществляет. Потребовалось немного доработать функционал - в течении пару часов получил все мне необходимое. К покупке рекомендую!!!
0 evol22

	19.09.2012 14:13 #9
Forbidden Опытный Регистрация: 17.08.2010 Сообщений: 308 Репутация: 23	Версия 0.9.209 Новый парсер Rank::CMS - определение более 200 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков. Появилась версия с User API, теперь можно интегрировать A-Parser в свои скрипты и программы, более подробно про API описано тут: User API, взаимодействие с другими программами и скриптами Исправлен парсер SE::Yandex Общее повышение стабильности, улучшение интерфейса и другие фиксы. Связанные задачи: Ошибка #157: Bug when use non-english presets name Ошибка #229: Need to auto-flush unique file because it may corrupt if process kill Ошибка #242: Fix server crash after restarting task with iterator error Ошибка #244: HTML::LinkExtractor fail with relative links starting with dot-shlash Ошибка #245: Query format fail for subqueries when use iterator + parse to level option Ошибка #247: Fix utf-8 check for subqueries files Ошибка #255: Fix SE::Yandex: gzip and next page regex Улучшение #243: Disable editing all fixed combobox Улучшение #246: Need to reload presets combobox's when adding/deleting presets Улучшение #251: New parser Rank::CMS - auto detect CMS type Улучшение #252: Implement User Api: ping and oneRequest(parser, preset, query) Улучшение #253: Fast proxy delivery for new threads
0 Forbidden

	28.09.2012 13:16 #10
Forbidden Опытный Регистрация: 17.08.2010 Сообщений: 308 Репутация: 23	Версия 0.9.220 Улучшения В парсер SE::Yandex добавлена возможность выбора домена yandex.ua для парсинга, так же для этого парсера теперь конвертируется количество результатов в число. Для парсера SE::Google добавлена опция строгого поиска, т.е. если Google говорит что результатов не найдено, но предлагает другие результаты, то парсер не будет их учитывать. Теперь при экспорте пресета сохраняются все значимые настройки(кроме самих запросов). Исправления В этой версии исправлена ошибка с утечкой сокетов при использовании SOCKS прокси, а так же несколько других ошибок влияющих на общую стабильность парсера. Связанные задачи: Ошибка #260: Fix SE::Yahoo regex(loop) Ошибка #262: Fix wrong proxy ban when malformed url used(status == 595) Ошибка #265: Fix sockets leak when use socks proxies in new http engine(important!) Ошибка #267: Fix warnings when fast stop parser test Ошибка #268: Fix handling cookie expire date(for too big date or unparsable date automatic set expire to now + 1 year) Улучшение #256: Add option for SE::Google for check not found resutls Улучшение #257: Convert to numeric results count for SE::Yandex Улучшение #258: Add more options to import/export presets Улучшение #263: Зоны парсинга Yandex (option Yandex domain allow select yandex.ua) Улучшение #264: Show warning for too many subrequests
0 Forbidden

Темы	Раздел	Ответов	Последний пост
LTK Parser - парсер поисковых подсказок на разных языках	Софт, скрипты, лицензии	12	06.05.2012 21:10
Парсер контента под дорвеи и сателлиты X-Parser	Софт, скрипты, сервисы	0	15.08.2010 23:51
KD Parser - парсер ключевых слов	Софт, скрипты, лицензии	2	10.04.2010 21:47
Хороший Парсер Я.Директ и Wordstat - Магадан	Поисковые системы	10	24.11.2009 16:52
Хороший Парсер Я.Директ и Wordstat - Магадан	Софт, скрипты, сервисы	4	15.09.2009 19:38