A-Parser - продвинутый парсер поисковых систем, Suggest, WordStat, PR, DMOZ, Whois, DNS, etc

(Ответов: 254, Просмотров: 26214)
Страница 2 из 26 Первая 123412 Последняя
  1. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    Версия 0.9.233

    В этой версии полностью закончена разработка нового сетевого стека:

    • Добавлена поддержка SSL/TLS для работы с сокетами
    • Новый HTTP движок поддерживает HTTPS, старый движок полностью отключен
    В целом теперь возможна работа по любым защищенным SSL/TLS протоколам через любые прокси. Полный отказ от старого движка уменьшил потребление памяти.

    Исправлен парсер SE::Yandex, в парсер SE::Google::Suggest добавлена возможность выбора регионального домена гугла для парсинга.

    Связанные задачи:
    Ошибка #32: Stopping server bug
    Ошибка #271: Fix regex for SE::Yandex(loop)
    Улучшение #272: Add posibility to select google regional domain in SE::Google::Suggest
    Улучшение #274: New socket-tls engine
    Улучшение #275: New http engine now support HTTPS, old module totaly deprecated
    • 0
  2. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    Версия 0.9.240

    В этой версии несколько улучшений прокси чекера:
    • Загрузка проксей из локального файла
    • Возможность указать дополнительные регулярные выражения при парсинге проксей с внешних источников
    • Сохранение живых проксей в локальный файл для последующего использования в других программах
    Подробнее можно прочитать в документации: Все о прокси чекере

    В API добавлена возможность парсинга нескольких запросов в многопоточном режиме, а также опция позволяющая возвращать результат выполнения в виде структуры данных, подробнее в документации: User API, взаимодействие с другими программами и скриптами

    Парсер Net::HTTP теперь автоматически перекодирует содержимое страницы в UTF-8, исходная кодировка вычисляется на основании meta-тега http-equiv и заголовка Content-Type.

    Парсер Rank::CMS ускорен в ~10 раз, сейчас средняя скорость проверки CMS по всем 277 типам движков составляет около 1500 ссылок в минуту.

    Связанные задачи:
    Улучшение #162: Add posibility to load proxy from file(files/proxy/proxy.txt)
    Улучшение #266: добавить возможность добавления регулярок для парсинга проксей(files/proxy/regex.txt)
    Улучшение #277: Increase Rank::CMS speed x10
    Улучшение #278: First filter result, next make unique
    Улучшение #279: move files/proxy_sites.txt to files/proxy/sites.txt
    Улучшение #280: Possibility to save alive proxies to file files/proxy/alive.txt(option name 'Save alive proxies to file' in Proxy Checker presets)
    Улучшение #281: Now Net::HTTP automaticaly decode any site encoding to utf-8
    Улучшение #282: Add bulkRequest to API - allow multithread\multirequest parsing
    Улучшение #283: Add rawResults option for API - return raw results structure
    • 0
  3. Студент Аватар для M03G
    • Регистрация: 06.09.2012
    • Сообщений: 37
    • Репутация: 5
    • Webmoney BL: ?
    Довелось пользоваться хрефером, вебпарсером и собственно а-парсером, так вот от последнего я в восторге... скажу сразу, продукт не попсовый, требует некоторого времени на изучение всех его возможностей, благо товарищ Forbidden практически всегда на связи, и готов помочь составить правильный проект.
    • 0
  4. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    Версия 0.9.266

    В этой версии:

    Новый парсер SE::AOL - парсинг search.aol.com, этот поисковик использует американскую выдачу Google.

    Теперь сжатие gzip используется во всех парсерах по умолчанию.

    Парсер HTML::LinkExtractor полностью переписан, производительность выросла примерно в 8 раз, также теперь поддерживается перекодировка анкоров в utf-8.

    Во всех парсерах теперь можно указать произвольные дополнительные параметры в запрашиваемом урле.

    Макрос подстановок {az:start:end} теперь поддерживает Unicode, например можно указать перебор на русском: {az:а:яя}

    Исправления затронули:
    • HTTP движок
    • фильтр результатов
    • парсер SE::Yandex::WordStat

    Связанные задачи:
    Ошибка #289: Fix parser crash when parsing malformed cookies(stack-size related bug)
    Ошибка #290: Fix RegEx not match filter
    Ошибка #294: SE::Yandex::WordStat not parse totalcount if query quoted
    Ошибка #295: Fix HTTP engine: max_size + chunked encoding fail
    Ошибка #296: Fix HTTP engine: max_size + gunzip fail
    Ошибка #298: Fix results filter queries leak
    Улучшение #203: Add posibility to add custom query string to SE::* parsers
    Улучшение #284: Set use gzip as default for all http parsers
    Улучшение #285: Auto decode page encoding to utf-8 in HTML::LinkExtractor(same as Net::HTTP)
    Улучшение #288: Increase HTML::LinkExtractor speed around 8x
    Улучшение #291: Allow any utf-8 letters in {az:start:end} macros
    Улучшение #299: Add search.aol.com parser - SE::AOL
    • 0
  5. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    Версия 0.9.284

    Новый парсер Rank::Alexa - парсер Alexa Rank, парсит глобальный рейтинг, название страны с наивысшим рейтингом и сам рейтинг в этой стране, а также число бек-линков

    Переработан и улучшен парсер Rank::CMS:
    • база признаков вынесена в конфигурационный файл - теперь можно добавлять свои признаки и редактировать имеющиеся
    • база почищена от мусора, теперь парсер определяет 186 различных CMS

    Исправлен парсер SE::Bing::Translator в связи с изменениями на стороне сервера.

    Проведена большая работа по уменьшению потребления памяти, исправлены все известные ошибки влияющие на работу и стабильность парсера.

    Связанные задачи:
    Ошибка #269: deleting of paused task not wakeup next task
    Ошибка #292: Failed restore iterator with non-english queries file name
    Ошибка #293: Crash when malformed regex used
    Ошибка #297: Parser fail complete task if many broken queries
    Ошибка #304: Не определяются движки сайтов и форумов: Dle, phpBB, Wordpress
    Ошибка #306: Fix crash when loading big unique files
    Ошибка #307: Fix lost iterator when saving task with error
    Ошибка #308: Fix a lot of memleaks: http engine, parser test, API, and some other
    Ошибка #310: Очень плохо работает Rank::CMS
    Ошибка #312: SE::Bing::Translator change token
    Улучшение #301: Чекер Alexa Traffic Rank
    Улучшение #309: Write pid file 'files/pid', on windows additionaly show actual port in parser server window
    Улучшение #314: Configuration file for Rank::CMS: files/Rank-CMS/engines.txt + fix some errors, total 186 engines now
    • 0
  6. Дипломник Аватар для lex[o]ne
    • Регистрация: 16.09.2011
    • Сообщений: 196
    • Репутация: 29
    • Webmoney BL: ?
    Всем привет!

    Не так давно, я приобрел A-parser и тщательно потестировал его на деле, теперь решил написать отзыв в благодарность за столько мощный и быстрый парсер разработчику!

    Сразу хочу сказать, парсер имеет Web интерфейс (не дескпотный, как вы все привыкли видеть) , тем самым, он может без проблем работать на линуксе и что мне само больше понравилось, Вы можете управлять им удаленно. Запуская его на впске или на любом другом сервере, вы можете, просто на просто открыть браузер на своем домашнем ПК и ввести ip адрес с портом вашей машины, где был запущен A-parser и управлять им удаленно, не входя на сам сервак, а лишь клацать в браузере и настраивать под свой лад.

    Теперь давайте перейдем к проксям. Юзая хрефер, я привык во время парсинга с ПС, одновременно парсить и чекать прокси, тем самым спасался от банов гугла и не покупал изначально дорогие элитные прокси, а юзал лишь паблик (имеется свой списочек сайтов, от куда парсю прокси). И первое чему я очень был рад в a-parsere, это наличия тех самых возможностей. Вы можете парсить ссылки с гугла (или другой ПС) и одновременно обновлять свой прокси лист. Благодаря этому, о банах гугла и яндекса можно было забыть. Чекаю пркоси в 150 потоков и через 40 минут, уже имею 900 анонимных прокси.

    А теперь к самому интересному, а именно к скорости и различных плюшек парсера. Давайте начнем со скорости. Перед уходом утром в больницу у меня был готовый список обновленных прокси, а именно1200 анонимных. Я решил поставить парсить гугл в режиме обхода 1000 ссылок. В других парсеров такого нет, на один запрос, гугл отдает лишь 1000 ссылок и использую раньше хрефер, мне приходилось убивать кучу времени на сбор дополнительных запрос, чтобы разнообразить выдачу и вытянуть как можно больше ссылок. Однако от этой проблемы я избавился в a-parsere. Так вот, поставив парсеру 700 потоков и включая обходной режим, я начал парсить. После возвращения с больницы (это заняло 2 часа), парсер уже прошуршал 65 миллионов доменов и 800к из них были уникальными. В хрефере я бы на это, потратил бы в 5 раз, а то и больше времени.

    Имея у себя в арсенале a-parser, хрефер и WebParser, я могу смело сказать, что он лучший из них.
    • 0
  7. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    Версия 0.9.296

    Новые парсеры:

    • SE::Google::Maps - парсер ссылок в выдаче Google Maps, позволяет искать сайты привязанные к определенному месту на карте
    • SE::Yandex::Position - проверка позиции сайта по ключевому слову в Яндексе
    • SE::QIP::Position - проверка позиции сайта по ключевому слову в search.qip.ru

    Теперь все 3 парсера позиций сайта(по Гуглу, Яндексу и search.qip.ru) обладают следующими возможностями и опциями:

    • Прекращение парсинга если сайт найден(не будет переходить на следующую страницу)
    • Могут учитываться позиции поддоменов
    • Может собирать все позиции в выдачи(когда сайт находится на нескольких позициях одновременно)
    • В результат может быть выведена конкретная ссылка сайта, находящаяся на найденной позиции

    Полностью переработана работа с DNS серверами:

    • Теперь парсер поддерживает работу с несколькими серверами
    • Поддерживает настройку числа попыток и таймаута для запросов
    • Может подключаться к серверам в случайной последовательности что позволяет распределить нагрузку на сами сервера
    • Улучшена обработка ошибок от сервера

    Остальные улучшения:

    • Для парсеров Net::HTTP, HTML::LinkExtractor и Rank::CMS добавлена возможность указать произвольный User-Agent
    • Для парсера SE::Yandex::WordStat добавлена возможность удаления + (плюса) из найденных ключевых слов
    • Через API теперь можно запросить список живых проксей, подробнее в документации по API
    • Добавлен макрос array[].size при формировании результата, позволяет вывести размер определенного массива
    • Улучшена скорость декомпрессии gzip, тем самым повысив максимальную скорость при полной загрузке парсера

    Связанные задачи:
    Ошибка #316: Fix SE::QIP next page regex
    Ошибка #317: Fix again SE::Bing::Translator
    Ошибка #325: Net::DNS crash when malformed domain used
    Ошибка #329: Fix timeout handling when make recursive queries(redirects)
    Улучшение #208: Add posibility to remove '+' in keywords in SE::Yandex::WordStat
    Улучшение #311: Через api получить список Proxy
    Улучшение #315: Парсер позиций домена по ключевому слову в SE::Yandex и SE::QIP
    Улучшение #318: New option for SE::Google::Position: Match subdomains
    Улучшение #319: New option for SE::Google::Position: Stop when found
    Улучшение #320: Add array[].size macros in result format
    Улучшение #321: User agent вынести во внешний текстовый файл - as parser option for Net::HTTP, HTML::LinkExtractor and Rank::CMS
    Улучшение #324: New parser SE::Google::Maps - parse links and total results count from Google Maps SERP
    Улучшение #327: Improve DNS errors handling
    Улучшение #330: Improve current speed calculating on big speeds
    Улучшение #334: Improve gzip cpu usage(speed)
    Улучшение #335: New DNS resolver: many servers, retries, timeouts, randomization, cache
    • 0
  8. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    Версия 0.9.325

    В парсер добавлена поддержка AntiGate(и любых других сервисов с поддержкой их API)! На данный момент антигейт поддерживается 2мя парсерами:

    • Util::AntiGate - парсер для проверки и настройки антигейта, принимает ссылку на изображение каптчи и выводит разгаданный результат
    • SE::Yandex - обход каптчи как с прокси так и без, автоматическая проверка правильности ответа

    Новый парсер Rank::MajesticSEO - парсит число ссылающихся ссылок, доменов, IP-адресов и подсетей с сервиса www.majesticseo.com

    Другие улучшения:

    • Возможность выбора региона поиска для парсера Яндекса
    • Возможность указания числа попыток для запроса при работе без прокси
    • Для парсера Net::Whois теперь возможно вывести дату создания домена в результат, а так же исправлена работа с национальными доменами

    Связанные задачи:
    Ошибка #337: Fix Net::Whois crash when malformed query used
    Ошибка #338: whois по ру зоне (added support for international tlds)
    Ошибка #339: Fix DNS issue on some win 2003 systems, + minor bugfix(retries > servers count)
    Улучшение #340: Add region choose in SE::Yandex options
    Улучшение #342: Возможность установки вручную кол-во попыток для загрузки страницы при работе без проксей(Proxy retries -> Request retries)
    Улучшение #343: New parser Rank::MajesticSEO - collect count of domains, pages, ips, subnets, and indexed pages
    Улучшение #344: Add creation_date for Net:::Whois parser
    Улучшение #345: New parser Util::AntiGate - test and configure antigate module
    Улучшение #346: Add AntiGate support for SE::Yandex - allow parsing without proxy
    • 0
  9. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    A-Parser - версия 0.9.335

    Парсер SE::Yandex:

    • Исправления в связи с изменением верстки в выдачи
    • Добавлен домен yandex.by
    • Исправлена работа с антигейтом при использовании доменов yandex.ua и yandex.by

    Исправлен парсинг снипетов в SE::Google при наличии в выдаче видео
    Исправлены все парсеры позиций - некорректное определение позиции на 2+ странице

    Связанные задачи:
    Ошибка #349: Fix *::Position parser when parsing 2+ pages
    Ошибка #351: Парсер сниппетов Google - не парсит сниппеты с видео
    Ошибка #353: Fix SE::Yandex serp parsing(changed ~11.12.2012)
    Улучшение #347: Add support for non-english characters in results file name(when {query} macros used)
    Улучшение #348: Add yandex.by domain for SE::Yandex + fix antigate for yandex.by and yandex.ua
    Улучшение #350: Imporve search.aol.com parsing(no use cookies)
    • 0
  10. Дипломник Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 225
    • Репутация: 21
    Версия 0.9.346

    Новогоднее обновление :) новые парсеры:

    • Rank::SEMrush - проверяет рейтинг SEMrush, количество SE траффика и его стоимость, количество Ads траффика и его стоимость
    • Rank::OpenSiteExplorer - проверяет рейтинг домена\страницы по OpenSiteExplorer, а так же количество беклинков и бекдоменов

    Улучшена производительность при высоких нагрузках примерно на 15%, исправлен парсинг второй ссылки в парсере SE::Google, а так же удален парсер Rank::Ahrefs - теперь он отображает результаты только зарегистрированным пользователям

    Всех с наступающим!

    Связанные задачи:
    Ошибка #357: Fix parsing 2nd link in SE::Google
    Улучшение #355: New parser Rank::OpenSiteExplorer - check domain/page authority and back domains/back links count
    Улучшение #356: New parser Rank::SEMrush - check SEMrush rank, traffic/traffic price/ads traffic/ads price
    Улучшение #361: Improve speed on highload ~15%
    Поддержка #354: Remove Rank::Ahrefs parser - now it show results only for regitstered users
    • 0
Страница 2 из 26 Первая 123412 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
LTK Parser - парсер поисковых подсказок на разных языках
Софт, скрипты, лицензии 12 06.05.2012 21:10
Парсер контента под дорвеи и сателлиты X-Parser
Софт, скрипты, сервисы 0 15.08.2010 23:51
KD Parser - парсер ключевых слов
Софт, скрипты, лицензии 2 10.04.2010 21:47
Хороший Парсер Я.Директ и Wordstat - Магадан
Поисковые системы 10 24.11.2009 16:52
Хороший Парсер Я.Директ и Wordstat - Магадан
Софт, скрипты, сервисы 4 15.09.2009 19:38

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры