A-Parser - продвинутый парсер поисковых систем, Suggest, WordStat, PR, DMOZ, Whois, DNS, etc

(Ответов: 185, Просмотров: 18109)
Страница 1 из 19 12311 Последняя
  1. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Что такое A-Parser?

    Это быстрый парсер с уклоном на универсальность, удобность и прозводительность.
    На данный момент умеет парсить:

    Поисковые системы

    • Google
    • Bing
    • Yahoo
    • Yandex
    • QIP - парсинг яндекса через search.qip.ru с выдачей до 5000 результатов с одного запроса
    • Парсер AOL, реализованный через парсер Net::HTTP с опциями Parse custom result, Use pages и др.

    Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц

    Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех остальных парсеров так же будет), т.е. по одному запросу собирает всю выдачу

    Подсказки поисковых систем

    Сервисы поиска ключевых слов

    • Yandex WordStat - собирает все кейворды и количество показов до указанной страницы. Так же собирает дополнительные кейворды, показы по главному кейворду и дату обновления статистики. Может сам подставляет найденные ключевые слова в запросы до указанного уровня.

    Подсказки поисковых систем

    • Подсказки и релейтед кеи Google
    • Подсказки и релейтед Bing
    • Подсказки, релейтед и трендовые кеи Yahoo
    • Подсказки и релейтед Yandex

    Для подсказок гугла умеет автоматически собирать все кеи(подстановки до указанного уровня), для всех остальных парсеров такая возможность скоро так же появится

    Параметры сайтов и доменов

    • SE::Google::Position - проверка позиции домена по ключевому слову в гугле
    • Google PageRank - PR страниц и доменов
    • SE::Google::SafeBrowsing - проверка домена в блеклисте гугла(подпись harm в выдачи)
    • DMOZ - наличие сайта в каталоге DMOZ
    • Google TrustRank - проверка сайта на траст гугла(дополнительный блок ссылок в выдаче и т.п.)
    • Whois - дата экспайра домена
    • Bing LangDetect - проверка языка домена\ссылки
    • Net::DNS - парсер резолвит домены в IP адреса

    Парсинг контента

    • HTML::LinkExtractor - парсит внешние и внутренние ссылки с указанного сайта, может ходить по внутренним ссылкам до выбранного уровня.
    • Net::HTTP - скачивает указанную страницу, поддерживает многостраничный парсинг.

    Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.

    Обработка и фильтрация результатов

    • Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и т.п.
    • Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров.
    • Парсинг любого результата с использованием регулярных выражений.


    Не было бы никакого A-Parser'а если бы не он не имел все нижеперечисленные преимущества, оставляя остальные парсеры далеко в стороне:


    • Полностью интерактивный мега-юзабильный веб интерфейс
      • Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
      • Расширенный редактор заданий, позволяет комбинировать несколько парсеров в одном задании, к примеру можно одновременно парсить ссылки со всех парсеров поисковых систем, делать уник по всем результатам прямо в процессе работы и т.д.
      • Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
      • Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
      • Поддержка русского и английского языка
    • Огромная скорость работы
    • Поддержка двух самых популярных платформ - Linux и Windows, производительность под Windows фактически не отличается от Linux версии
    • Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
    • Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
    • Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki

    Более подробное описание и скриншоты

    Wiki - дополнительная информация, инструкции и т.д.

    Скриншот интерфейса:


    На данном скриншоте показан пример добавления задания на парсинг одновременно трёх поисковых систем - Google, Bing и Yahoo, одновременный уник по домену всех результатов

    Ценовая политика

    Внимание, ценовая политика изменилась с 10.07.2012!

    Цена лицензии - 200$, Абонентская плата - 15$ / 3 месяца, первый год без абонентской платы. Условия по абонентской плате так же распространяются и на существующих пользователей!

    А так же спец предложение - всем клиентам A-Parser'а бесплатно приватные прокси на 20 потоков на 2 недели!

    Всем клиентам кто имеет лицензию на A-Poster - цена всего 150$

    А так же A-Parser + A-Poster всего за 300$!


    Лицензия позволяет запускать A-Parser на одном сервере\компьютере. Переносить можно бесплатно, нельзя одновременно на нескольких запускать.
    Последний раз редактировалось oleg_ug; 12.07.2012 в 12:56. Причина: красным писать нельзя
    • 1

    Спасибо сказали:

    SlarkStudio(07.12.2013),
  2. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Версия 0.9.69

    Новый парсер SE::Yandex::TIC - проверка индекса цитирования домена, а так же исправление выдачи Яндекс WordStat и Bing, подробнее тут

    Связанные задачи:
    Ошибка #192: Fix Members Area work with https
    Ошибка #193: Fix SE::Yandex::WordStat russian html entities
    Ошибка #194: Fix SE::Bing for parsing 10+ results and fix links regex
    Ошибка #195: Fix UTF-8 for restore unique from file
    Улучшение #196: Add Yandex TIC parser - SE::Yandex::TIC
    • 0
  3. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Версия 0.9.166

    Большое количество исправлений, доводим парсер до идеального состояния!

    А так же плановые фиксы в связи с изменением выдачи для SE::Google и SE::Yandex.

    В следующих версиях ожидается новый HTTP движок, который не попал в текущую версию в связи с продолжительным тестированием.

    Связанные задачи:
    Ошибка #163: Some bug in proxycheker
    Ошибка #197: Fix not save results after stop\pause + start
    Ошибка #198: Fix encoding for non-english for Google, Bing and Yahoo parsers
    Ошибка #199: Fix non-english queries parsing with SE::Yahoo
    Ошибка #201: Fix Google snippets regex
    Ошибка #202: Fix parse custom results with arrays -> server crash
    Ошибка #204: Fix SE::Yandex next page regex
    Ошибка #210: Fix crash on end of file when file used as iterator
    Улучшение #206: Add gzip support for SE::Yandex::TIC
    Улучшение #207: UTF-8 auto detect for HTML::LinkExtractor
    Улучшение #209: Add gzip support for SE::Google
    • 0
  4. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Версия 0.9.182

    Очень важные изменения:

    • Новый более быстрый HTTP движок
    • Уменьшение потребления памяти
    • Общее увеличение производительности за счет внутренних оптимизаций

    Улучшения:

    • HTML::LinkExtractor: новые результаты {cleananchor} - анкор без html кода, и {nofollow} - определяет есть ли nofollow параметр
    • HTML::LinkExtractor: опция Subdomains are internal - считает ссылки со всех сабдоменнов как внутрение
    • Макрос {queriesfile} в Results -> File name - подставляет название файла с запросами

    Исправления:

    • Поправлен парсер SE::Google в связи с изменением формата выдачи

    Связанные задачи:
    Ошибка #211: Fix SE::Google results count regex
    Ошибка #212: Fix SE::Google snippets regex
    Ошибка #217: Delete tasks with iterator's from completed queue after parser restarting
    Улучшение #200: New fast HTTP engine
    Улучшение #205: Reduce memory usage by using new http engine
    Улучшение #213: Add posibility to use {query} inside arrays in Results format
    Улучшение #214: Add {cleananchor} and {nofollow} to results in HTML::LinkExtractor
    Улучшение #215: Название исходного файла в results (New macros {queriesfile} in results file name)
    Улучшение #219: Add 'Subdomains are internal' option for HTML::LinkExtractor
    Улучшение #221: Many internal perfomance improvement and optimizations
    • 0
  5. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Открылась партнерская программа по продаже A-Parser'a - 50$ с каждого приведенного клиента. Подробнее на сайте парсера.
    Регистрируйтесь и свяжитесь со мной для активации аккаунта.

    Помимо ICQ 777889 теперь со мной можно связаться через jabber/gtalk forbidden2k@gmail.com
    • 0
  6. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Версия 0.9.194

    Новые парсеры:
    • SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу
    • SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер

    Новые возможности:
    • Опция, позволяющая парсить разные задания использую одну базу для уникализации, т.е. теперь можно при появлении новых признаков той же категории допарсить только новые результаты в старую базу
    • Возможность залогиниться в 2+ парсера в одном браузере

    Всего 12 улучшений и исправлений

    Связанные задачи:
    Ошибка #222: Fix iterator cleanup when set any error
    Ошибка #223: Fix work end when string with zero used in queries/subs files
    Ошибка #225: Fix server crash when use Unique queries + iterators + pause start
    Ошибка #228: Fix max size handling in http engine
    Ошибка #232: Fix pages count on active queue tab
    Улучшение #161: Add option for check existing results file for unique before task start(implemented with Keep Unique option)
    Улучшение #165: Show old results count when server restart
    Улучшение #224: New parser SE::Google::Images - parsing full urls to images, with snippets, width, height and size information
    Улучшение #226: New parser SE::Yandex::Direct - direct.yandex.ru parser with total ads count and all ads list(domain, title, text)
    Улучшение #227: Allow login to 2+ A-Parser's on same ip/domain
    Улучшение #230: Check unique level when restore tasks
    Улучшение #231: Disable editing default presets
    • 0
  7. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Версия 0.9.200

    Новые парсеры:
    • Rank::Ahrefs - парсер количества беклинков с сервиса ahrefs.com, парсит общее число беклинков, количество ссылающихся страниц, количество уникальных IP-адресов, подсетей класса C и количество уникальных доменов
    • SE::Bing::Translator - переводчик через сервис www.bing.com/translator/, поддерживает все языки сервиса, включая автоопределение языка оригинала текста
    • Rank::Category - автоматически определяет категорию сайта на английском языке, категории такие же как в dmoz.org, например google.com - Computers/Internet/Searching

    Новые возможности:
    • Дополнительные опции по сохранению результатов - возможность добавить произвольный текст в начало и конец файла результата, может использоваться к примеру для обозначения названий колонок при формировании результата в csv виде

    Связанные задачи:
    Ошибка #236: Fix active slot counting when server restart
    Улучшение #234: Re-enable https with old http engine
    Улучшение #235: New parser Rank::Ahrefs - ahrefs.com parser (backlinks/pages/ips/subnets/domains count)
    Улучшение #237: Определение тематики сайта
    Улучшение #238: Limit queries field length to 8192 characters
    Улучшение #239: More options in add task: prepend and append text in results file(e.g. for cols names)
    Улучшение #241: SE::Bing::Translator - translator between any 2 languages, with auto-detect
    • 1

    Спасибо сказали:

    evol22(13.09.2012),
  8. Новичок
    • Регистрация: 04.07.2011
    • Сообщений: 12
    • Репутация: 3
    • Webmoney BL: ?
    Приобрел данное творение. Скорость, качество, результаты просто фантастика. Реально очень выручает и помогает. Если Вы ищите парсер - лучше не найти. Да и автор постоянно в сети, поддержку осуществляет. Потребовалось немного доработать функционал - в течении пару часов получил все мне необходимое. К покупке рекомендую!!!
    • 0
  9. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Версия 0.9.209

    Новый парсер Rank::CMS - определение более 200 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков.

    Появилась версия с User API, теперь можно интегрировать A-Parser в свои скрипты и программы, более подробно про API описано тут: User API, взаимодействие с другими программами и скриптами

    Исправлен парсер SE::Yandex

    Общее повышение стабильности, улучшение интерфейса и другие фиксы.

    Связанные задачи:
    Ошибка #157: Bug when use non-english presets name
    Ошибка #229: Need to auto-flush unique file because it may corrupt if process kill
    Ошибка #242: Fix server crash after restarting task with iterator error
    Ошибка #244: HTML::LinkExtractor fail with relative links starting with dot-shlash
    Ошибка #245: Query format fail for subqueries when use iterator + parse to level option
    Ошибка #247: Fix utf-8 check for subqueries files
    Ошибка #255: Fix SE::Yandex: gzip and next page regex
    Улучшение #243: Disable editing all fixed combobox
    Улучшение #246: Need to reload presets combobox's when adding/deleting presets
    Улучшение #251: New parser Rank::CMS - auto detect CMS type
    Улучшение #252: Implement User Api: ping and oneRequest(parser, preset, query)
    Улучшение #253: Fast proxy delivery for new threads
    • 0
  10. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 157
    • Репутация: 21
    Версия 0.9.220

    Улучшения
    • В парсер SE::Yandex добавлена возможность выбора домена yandex.ua для парсинга, так же для этого парсера теперь конвертируется количество результатов в число.
    • Для парсера SE::Google добавлена опция строгого поиска, т.е. если Google говорит что результатов не найдено, но предлагает другие результаты, то парсер не будет их учитывать.
    • Теперь при экспорте пресета сохраняются все значимые настройки(кроме самих запросов).

    Исправления
    • В этой версии исправлена ошибка с утечкой сокетов при использовании SOCKS прокси, а так же несколько других ошибок влияющих на общую стабильность парсера.

    Связанные задачи:
    Ошибка #260: Fix SE::Yahoo regex(loop)
    Ошибка #262: Fix wrong proxy ban when malformed url used(status == 595)
    Ошибка #265: Fix sockets leak when use socks proxies in new http engine(important!)
    Ошибка #267: Fix warnings when fast stop parser test
    Ошибка #268: Fix handling cookie expire date(for too big date or unparsable date automatic set expire to now + 1 year)
    Улучшение #256: Add option for SE::Google for check not found resutls
    Улучшение #257: Convert to numeric results count for SE::Yandex
    Улучшение #258: Add more options to import/export presets
    Улучшение #263: Зоны парсинга Yandex (option Yandex domain allow select yandex.ua)
    Улучшение #264: Show warning for too many subrequests
    • 0
Страница 1 из 19 12311 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
LTK Parser - парсер поисковых подсказок на разных языках
Софт, скрипты, лицензии 12 06.05.2012 21:10
Парсер контента под дорвеи и сателлиты X-Parser
Софт, скрипты, сервисы 0 15.08.2010 23:51
KD Parser - парсер ключевых слов
Софт, скрипты, лицензии 2 10.04.2010 21:47
Хороший Парсер Я.Директ и Wordstat - Магадан
Поисковые системы 10 24.11.2009 16:52
Хороший Парсер Я.Директ и Wordstat - Магадан
Софт, скрипты, сервисы 4 15.09.2009 19:38

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры