Версия 0.9.233
В этой версии полностью закончена разработка нового сетевого стека:
В целом теперь возможна работа по любым защищенным SSL/TLS протоколам через любые прокси. Полный отказ от старого движка уменьшил потребление памяти.
- Добавлена поддержка SSL/TLS для работы с сокетами
- Новый HTTP движок поддерживает HTTPS, старый движок полностью отключен
Исправлен парсер SE::Yandex, в парсер SE::Google::Suggest добавлена возможность выбора регионального домена гугла для парсинга.
Связанные задачи:Ошибка #32: Stopping server bug
Ошибка #271: Fix regex for SE::Yandex(loop)
Улучшение #272: Add posibility to select google regional domain in SE::Google::Suggest
Улучшение #274: New socket-tls engine
Улучшение #275: New http engine now support HTTPS, old module totaly deprecated
A-Parser - продвинутый парсер поисковых систем, Suggest, WordStat, PR, DMOZ, Whois, DNS, etc
(Ответов: 309, Просмотров: 37699)
- 10.10.2012 19:55
- 17.10.2012 16:29
Версия 0.9.240
В этой версии несколько улучшений прокси чекера:- Загрузка проксей из локального файла
- Возможность указать дополнительные регулярные выражения при парсинге проксей с внешних источников
- Сохранение живых проксей в локальный файл для последующего использования в других программах
В API добавлена возможность парсинга нескольких запросов в многопоточном режиме, а также опция позволяющая возвращать результат выполнения в виде структуры данных, подробнее в документации: User API, взаимодействие с другими программами и скриптами
Парсер Net::HTTP теперь автоматически перекодирует содержимое страницы в UTF-8, исходная кодировка вычисляется на основании meta-тега http-equiv и заголовка Content-Type.
Парсер Rank::CMS ускорен в ~10 раз, сейчас средняя скорость проверки CMS по всем 277 типам движков составляет около 1500 ссылок в минуту.
Связанные задачи:Улучшение #162: Add posibility to load proxy from file(files/proxy/proxy.txt)
Улучшение #266: добавить возможность добавления регулярок для парсинга проксей(files/proxy/regex.txt)
Улучшение #277: Increase Rank::CMS speed x10
Улучшение #278: First filter result, next make unique
Улучшение #279: move files/proxy_sites.txt to files/proxy/sites.txt
Улучшение #280: Possibility to save alive proxies to file files/proxy/alive.txt(option name 'Save alive proxies to file' in Proxy Checker presets)
Улучшение #281: Now Net::HTTP automaticaly decode any site encoding to utf-8
Улучшение #282: Add bulkRequest to API - allow multithread\multirequest parsing
Улучшение #283: Add rawResults option for API - return raw results structure - 03.11.2012 21:25
Довелось пользоваться хрефером, вебпарсером и собственно а-парсером, так вот от последнего я в восторге... скажу сразу, продукт не попсовый, требует некоторого времени на изучение всех его возможностей, благо товарищ Forbidden практически всегда на связи, и готов помочь составить правильный проект.
- 06.11.2012 19:46
Версия 0.9.266
В этой версии:
Новый парсер SE::AOL - парсинг search.aol.com, этот поисковик использует американскую выдачу Google.
Теперь сжатие gzip используется во всех парсерах по умолчанию.
Парсер HTML::LinkExtractor полностью переписан, производительность выросла примерно в 8 раз, также теперь поддерживается перекодировка анкоров в utf-8.
Во всех парсерах теперь можно указать произвольные дополнительные параметры в запрашиваемом урле.
Макрос подстановок {az:start:end} теперь поддерживает Unicode, например можно указать перебор на русском: {az:а:яя}
Исправления затронули:- HTTP движок
- фильтр результатов
- парсер SE::Yandex::WordStat
Связанные задачи:Ошибка #289: Fix parser crash when parsing malformed cookies(stack-size related bug)
Ошибка #290: Fix RegEx not match filter
Ошибка #294: SE::Yandex::WordStat not parse totalcount if query quoted
Ошибка #295: Fix HTTP engine: max_size + chunked encoding fail
Ошибка #296: Fix HTTP engine: max_size + gunzip fail
Ошибка #298: Fix results filter queries leak
Улучшение #203: Add posibility to add custom query string to SE::* parsers
Улучшение #284: Set use gzip as default for all http parsers
Улучшение #285: Auto decode page encoding to utf-8 in HTML::LinkExtractor(same as Net::HTTP)
Улучшение #288: Increase HTML::LinkExtractor speed around 8x
Улучшение #291: Allow any utf-8 letters in {az:start:end} macros
Улучшение #299: Add search.aol.com parser - SE::AOL - 14.11.2012 14:30
Версия 0.9.284
Новый парсер Rank::Alexa - парсер Alexa Rank, парсит глобальный рейтинг, название страны с наивысшим рейтингом и сам рейтинг в этой стране, а также число бек-линков
Переработан и улучшен парсер Rank::CMS:- база признаков вынесена в конфигурационный файл - теперь можно добавлять свои признаки и редактировать имеющиеся
- база почищена от мусора, теперь парсер определяет 186 различных CMS
Исправлен парсер SE::Bing::Translator в связи с изменениями на стороне сервера.
Проведена большая работа по уменьшению потребления памяти, исправлены все известные ошибки влияющие на работу и стабильность парсера.
Связанные задачи:Ошибка #269: deleting of paused task not wakeup next task
Ошибка #292: Failed restore iterator with non-english queries file name
Ошибка #293: Crash when malformed regex used
Ошибка #297: Parser fail complete task if many broken queries
Ошибка #304: Не определяются движки сайтов и форумов: Dle, phpBB, Wordpress
Ошибка #306: Fix crash when loading big unique files
Ошибка #307: Fix lost iterator when saving task with error
Ошибка #308: Fix a lot of memleaks: http engine, parser test, API, and some other
Ошибка #310: Очень плохо работает Rank::CMS
Ошибка #312: SE::Bing::Translator change token
Улучшение #301: Чекер Alexa Traffic Rank
Улучшение #309: Write pid file 'files/pid', on windows additionaly show actual port in parser server window
Улучшение #314: Configuration file for Rank::CMS: files/Rank-CMS/engines.txt + fix some errors, total 186 engines now - 24.11.2012 00:25
Всем привет!
Не так давно, я приобрел A-parser и тщательно потестировал его на деле, теперь решил написать отзыв в благодарность за столько мощный и быстрый парсер разработчику!
Сразу хочу сказать, парсер имеет Web интерфейс (не дескпотный, как вы все привыкли видеть) , тем самым, он может без проблем работать на линуксе и что мне само больше понравилось, Вы можете управлять им удаленно. Запуская его на впске или на любом другом сервере, вы можете, просто на просто открыть браузер на своем домашнем ПК и ввести ip адрес с портом вашей машины, где был запущен A-parser и управлять им удаленно, не входя на сам сервак, а лишь клацать в браузере и настраивать под свой лад.
Теперь давайте перейдем к проксям. Юзая хрефер, я привык во время парсинга с ПС, одновременно парсить и чекать прокси, тем самым спасался от банов гугла и не покупал изначально дорогие элитные прокси, а юзал лишь паблик (имеется свой списочек сайтов, от куда парсю прокси). И первое чему я очень был рад в a-parsere, это наличия тех самых возможностей. Вы можете парсить ссылки с гугла (или другой ПС) и одновременно обновлять свой прокси лист. Благодаря этому, о банах гугла и яндекса можно было забыть. Чекаю пркоси в 150 потоков и через 40 минут, уже имею 900 анонимных прокси.
А теперь к самому интересному, а именно к скорости и различных плюшек парсера. Давайте начнем со скорости. Перед уходом утром в больницу у меня был готовый список обновленных прокси, а именно1200 анонимных. Я решил поставить парсить гугл в режиме обхода 1000 ссылок. В других парсеров такого нет, на один запрос, гугл отдает лишь 1000 ссылок и использую раньше хрефер, мне приходилось убивать кучу времени на сбор дополнительных запрос, чтобы разнообразить выдачу и вытянуть как можно больше ссылок. Однако от этой проблемы я избавился в a-parsere. Так вот, поставив парсеру 700 потоков и включая обходной режим, я начал парсить. После возвращения с больницы (это заняло 2 часа), парсер уже прошуршал 65 миллионов доменов и 800к из них были уникальными. В хрефере я бы на это, потратил бы в 5 раз, а то и больше времени.
Имея у себя в арсенале a-parser, хрефер и WebParser, я могу смело сказать, что он лучший из них. - 26.11.2012 16:06
Версия 0.9.296
Новые парсеры:
- SE::Google::Maps - парсер ссылок в выдаче Google Maps, позволяет искать сайты привязанные к определенному месту на карте
- SE::Yandex::Position - проверка позиции сайта по ключевому слову в Яндексе
- SE::QIP::Position - проверка позиции сайта по ключевому слову в search.qip.ru
Теперь все 3 парсера позиций сайта(по Гуглу, Яндексу и search.qip.ru) обладают следующими возможностями и опциями:
- Прекращение парсинга если сайт найден(не будет переходить на следующую страницу)
- Могут учитываться позиции поддоменов
- Может собирать все позиции в выдачи(когда сайт находится на нескольких позициях одновременно)
- В результат может быть выведена конкретная ссылка сайта, находящаяся на найденной позиции
Полностью переработана работа с DNS серверами:
- Теперь парсер поддерживает работу с несколькими серверами
- Поддерживает настройку числа попыток и таймаута для запросов
- Может подключаться к серверам в случайной последовательности что позволяет распределить нагрузку на сами сервера
- Улучшена обработка ошибок от сервера
Остальные улучшения:
- Для парсеров Net::HTTP, HTML::LinkExtractor и Rank::CMS добавлена возможность указать произвольный User-Agent
- Для парсера SE::Yandex::WordStat добавлена возможность удаления + (плюса) из найденных ключевых слов
- Через API теперь можно запросить список живых проксей, подробнее в документации по API
- Добавлен макрос array[].size при формировании результата, позволяет вывести размер определенного массива
- Улучшена скорость декомпрессии gzip, тем самым повысив максимальную скорость при полной загрузке парсера
Связанные задачи:Ошибка #316: Fix SE::QIP next page regex
Ошибка #317: Fix again SE::Bing::Translator
Ошибка #325: Net::DNS crash when malformed domain used
Ошибка #329: Fix timeout handling when make recursive queries(redirects)
Улучшение #208: Add posibility to remove '+' in keywords in SE::Yandex::WordStat
Улучшение #311: Через api получить список Proxy
Улучшение #315: Парсер позиций домена по ключевому слову в SE::Yandex и SE::QIP
Улучшение #318: New option for SE::Google::Position: Match subdomains
Улучшение #319: New option for SE::Google::Position: Stop when found
Улучшение #320: Add array[].size macros in result format
Улучшение #321: User agent вынести во внешний текстовый файл - as parser option for Net::HTTP, HTML::LinkExtractor and Rank::CMS
Улучшение #324: New parser SE::Google::Maps - parse links and total results count from Google Maps SERP
Улучшение #327: Improve DNS errors handling
Улучшение #330: Improve current speed calculating on big speeds
Улучшение #334: Improve gzip cpu usage(speed)
Улучшение #335: New DNS resolver: many servers, retries, timeouts, randomization, cache - 10.12.2012 14:33
Версия 0.9.325
В парсер добавлена поддержка AntiGate(и любых других сервисов с поддержкой их API)! На данный момент антигейт поддерживается 2мя парсерами:
- Util::AntiGate - парсер для проверки и настройки антигейта, принимает ссылку на изображение каптчи и выводит разгаданный результат
- SE::Yandex - обход каптчи как с прокси так и без, автоматическая проверка правильности ответа
Новый парсер Rank::MajesticSEO - парсит число ссылающихся ссылок, доменов, IP-адресов и подсетей с сервиса www.majesticseo.com
Другие улучшения:
- Возможность выбора региона поиска для парсера Яндекса
- Возможность указания числа попыток для запроса при работе без прокси
- Для парсера Net::Whois теперь возможно вывести дату создания домена в результат, а так же исправлена работа с национальными доменами
Связанные задачи:Ошибка #337: Fix Net::Whois crash when malformed query used
Ошибка #338: whois по ру зоне (added support for international tlds)
Ошибка #339: Fix DNS issue on some win 2003 systems, + minor bugfix(retries > servers count)
Улучшение #340: Add region choose in SE::Yandex options
Улучшение #342: Возможность установки вручную кол-во попыток для загрузки страницы при работе без проксей(Proxy retries -> Request retries)
Улучшение #343: New parser Rank::MajesticSEO - collect count of domains, pages, ips, subnets, and indexed pages
Улучшение #344: Add creation_date for Net:::Whois parser
Улучшение #345: New parser Util::AntiGate - test and configure antigate module
Улучшение #346: Add AntiGate support for SE::Yandex - allow parsing without proxy - 16.12.2012 13:23
A-Parser - версия 0.9.335
Парсер SE::Yandex:
- Исправления в связи с изменением верстки в выдачи
- Добавлен домен yandex.by
- Исправлена работа с антигейтом при использовании доменов yandex.ua и yandex.by
Исправлен парсинг снипетов в SE::Google при наличии в выдаче видео
Исправлены все парсеры позиций - некорректное определение позиции на 2+ странице
Связанные задачи:Ошибка #349: Fix *::Position parser when parsing 2+ pages
Ошибка #351: Парсер сниппетов Google - не парсит сниппеты с видео
Ошибка #353: Fix SE::Yandex serp parsing(changed ~11.12.2012)
Улучшение #347: Add support for non-english characters in results file name(when {query} macros used)
Улучшение #348: Add yandex.by domain for SE::Yandex + fix antigate for yandex.by and yandex.ua
Улучшение #350: Imporve search.aol.com parsing(no use cookies) - 29.12.2012 14:46
Версия 0.9.346
Новогоднее обновление :) новые парсеры:
- Rank::SEMrush - проверяет рейтинг SEMrush, количество SE траффика и его стоимость, количество Ads траффика и его стоимость
- Rank::OpenSiteExplorer - проверяет рейтинг домена\страницы по OpenSiteExplorer, а так же количество беклинков и бекдоменов
Улучшена производительность при высоких нагрузках примерно на 15%, исправлен парсинг второй ссылки в парсере SE::Google, а так же удален парсер Rank::Ahrefs - теперь он отображает результаты только зарегистрированным пользователям
Всех с наступающим!
Связанные задачи:Ошибка #357: Fix parsing 2nd link in SE::Google
Улучшение #355: New parser Rank::OpenSiteExplorer - check domain/page authority and back domains/back links count
Улучшение #356: New parser Rank::SEMrush - check SEMrush rank, traffic/traffic price/ads traffic/ads price
Улучшение #361: Improve speed on highload ~15%
Поддержка #354: Remove Rank::Ahrefs parser - now it show results only for regitstered users
Тэги топика:
« Лучший Чекер Логов 40$ за ВСЁ | - »
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
LTK Parser - парсер поисковых подсказок на разных языках | Софт, скрипты, лицензии | 12 | 06.05.2012 21:10 |
Парсер контента под дорвеи и сателлиты X-Parser | Софт, скрипты, сервисы | 0 | 15.08.2010 23:51 |
KD Parser - парсер ключевых слов | Софт, скрипты, лицензии | 2 | 10.04.2010 21:47 |
Хороший Парсер Я.Директ и Wordstat - Магадан | Поисковые системы | 10 | 24.11.2009 16:52 |
Хороший Парсер Я.Директ и Wordstat - Магадан | Софт, скрипты, сервисы | 4 | 15.09.2009 19:38 |