Всех с наступающим новым годом! Участвуйте в конкурсе и получайте бесплатные лицензии, но об этом ниже
Сегодня я хочу вам представить юбилейную 100-ую версию A-Parser'a! Да, мы выпустили ровно 100 версий за почти 5 лет существования нашего парсера. Разработка парсера никогда не останавливается, сейчас он буквально пухнет от возможностей! Это хорошо подчеркивает все принципы и подходы заложенные в A-Parser еще в далеком 2012 году.
Одно из главных новшеств новой версии - JavaScript парсеры, теперь каждый кто обладает хотя бы минимальными знаниями программирования сможет создавать высокопроизводительные парсеры на языке JavaScript используя все возможности A-Parser'а(многопоточность, работу с прокси, шаблонизатор, обработка запросов и результатов, и многое другое)
A-Parser давно перестал быть просто парсером, на сегодняшний день это полнофункциональная платформа для сбора информации в промышленных масштабах, которая позволит вам собирать информацию из самых разных источников и множеством разных способов. В следующем году вас ждет еще больше новых возможностей, следите за новостями!
Улучшения
JavaScript парсеры - возможность создавать свои парсеры используя все преимущества A-Parser
JS парсеры: возможность получить и установить Cookies
JS парсеры: мютекс для синхронизации между потоками
JS парсеры: возможность использования инструментов tools
JS парсеры: поддержка запросов к другим парсерам
Множественные оптимизации всех парсеров, обработке подвергаются только те элементы страницы которые необходимы в результатах парсинга
Доброго времени суток друзья! Команда A-Parser поздравляет вас с наступившим 2017 годом и наступающим Рождеством.
Не забывайте о нашем розыгрыше https://vk.cc/5YBNVX. Мы разыграем сегодня 3 лицензии на A-Parser общей стоимостью $437. Результаты розыгрыша после 17:00 по Москве. Более подробную информацию смотрите по ссылке которая указана выше.
В планировщик добавлена возможность ежемесячного запуска заданий, с возможностью выбрать определенный день месяца
В планировщике теперь можно указать уникальность задания, если задание активно в очереди то при попытке его запуска через планировщик оно будет отложено до следующего запуска
Файл логов задания теперь удаляется одновременно с удалением задания
В тестовом парсинге улучшен дебагер и предпросмотр HTML кода
В парсере Net::Whois исправлен парсинг дат для множества доменных зон
Функция добавления ! перед каждым словом(для снятия частотности по WordStat) в некоторых случаях работала некорректно
Исправлена ошибка при работе прокси с использованием только одной попытки(Request retries)
Исправлена ошибка при которой парсер падал при неверно составленном Конструкторе результатов
В некоторых случаях использование XPath могло приводить к зависанию парсера
В парсере SEO::Ping исправлена обработка ответов для некоторых сервисов
В некоторых случаях ошибка задания могла отображаться некорректно
Так же, мы хотели бы ещё раз поздравить наших победителей которые получили лицензии A-Parser'a: Сергея Чернова, Романа Лисина и Илью Нечаева. Поздравляем вас ещё раз!
В версии 1.1.743 выпущено множество исправлений для JavaScript парсеров, а также добавлены новые примеры: определение языка страницы через Яндекс переводчик и сбор текстовки по ключевому слову одним заданием(на выбор через Google или Яндекс)
Улучшения
В JavaScript парсерах добавлена возможность создавать новые запросы(this.query.add)
В парсере SE::Yahoo теперь определяется бан прокси по IP
Добавлен параметр, позволяющий A-Parser'у работать с файлами запросов и результатов вне рабочего каталога
Исправления в связи с изменениями в выдаче
SE::Yandex - парсил только первую страницу выдачи
SE::Google::Trends - использовал все попытки если по ключевому слову не было данных
Исправления
Исправлена работа опции Max threads per proxy(максимальное число потоков на одну прокси)
В парсере HTML::LinkExtractor исправлен парсинг ссылок с фрагментом(#)
Исправления в JavaScript парсерах
Настройки checkbox воспринимались некорректно
Исправлена ошибка в работе this.cookies.setAll
В интерфейсе не отображались измененные параметры конфига
Исправлены утечки памяти
Исправлено игнорирование параметра success
Исправлено поведение при использовании Override настроек
Исправлена ошибка при получении результатов из другого парсера
В парсер SE::Bing добавлена возможность выбора языка результатов поиска
Во всех полях конфигурации каждого парсера теперь есть возможность использовать шаблонизатор, тем самым позволяя использовать запрос или его часть как значение конфига, а также добавлять произвольную логику(пример - использование переменного DNS сервера)
В JavaScript парсерах добавлена возможность установки одиночного cookie(this.cookies.set)
В парсере SE::Yandex::WordStat SE::Yandex::WordStat уменьшено потребление каптчи
Исправления в связи с изменениями в выдачи
SE::Google - исправлена работа с антигейтом
В парсере SE::Google исправлен парсинг объявлений, а также пропуск первого результата поиска в редких случаях
В парсере SE::Yandex исправлен сбор сниппетов
SE::AOL, SE::Bing::Images
Исправления
Исправлена утечка памяти при использовании логов в задании
В парсере SE::Ask не определялся бан прокси
Исправлена работа опции allow_outside_files
Исправлена работа с utf8 в исходниках tools.js и JavaScript парсерах
В редких случаях при неудачном парсинге 2ой или последующих страниц запрос мог считаться успешным
Являюсь пользователем aparser-а уже 3й год и полностью доволен как полнотой функционала, так и частотой обновлений. Рекомендую всем! Из того, что мне необходимо и парсер мне в этом помогает: - парсинг битых ссылок и мета-тегов на страницах клиентских сайтов; - сбор тематических баз для расстановки ссылок; - парсинг почт, телефонов и т.п. с популярных социалок, каталогов и порталов; - парсинг и наполнение ИМ описаниями товаров; - парсинг несуществующих аккаунтов (профилей) с беками на трастовых ресурсах для дальнейшей регистрации и создания своих сеток; (в наличии база на 700+ качественных и активнонаполняющихся твиттер аккаунтов. Во времена отображения тулбарного PR находил аккаунты с PR5-7 и успешно их использовал...); - парсинг текстовок/сниппетов; И это только малая часть того, в чем апарсер мне помогает в повседневной рутине На самом деле можно реализовать довольно сложные парсеры/чекеры - но, это уже другая история...
A-Parser 1.1.790 появился новый экспорт, который позволяет экспортировать сразу несколько заданий, настройки парсеров, JavaScript парсеры, а также tools.js:
Улучшения
Новый экспорт заданий
В JavaScript парсерах добавлена возможность указать иконку парсера
В JavaScript парсерах добавлен функционал для работы с CAPTCHA
В A-Parser 1.1.811 добавлено 6 новых встроенных парсеров - Амазон, Яндекс.Маркет, Рамблер, IxQuick, добавление ссылки в индекс Bing, расширенный парсер Moz(OpenSiteExplorer). Добавляйте идеи для новых парсеров на нашем форуме и мы их обязательно реализуем.
Помимо встроенных парсеров вы можете создавать свои собственные парсеры на языке JavaScript - используя всю мощь многопоточности A-Parser'а, а также производительность движка V8 и преимущества ES6.
Для владельцев CapMonster и XEvil - напоминаем что A-Parser можно подключить к этим программам из коробки, тем самым колоссально повысив скорость парсинга во многих парсерах
Улучшения
Новый парсер Shop::Amazon - парсит выдачу https://www.amazon.com по ключевому слову, собирает название, ссылку, картинку, прайс, прайс до скидки, рейтинг, число комментариев, продавца и дополнительную информацию
Новый парсер Shop::Yandex::Market - парсер Яндекс.Маркета, по указанному ключевому слову(или по прямой ссылке на категорию) собирает следующие данные: название товара, ссылку, ссылку на картинку, рейтинг, число комментариев, цену от и до, число предложений от магазинов и список дополнительных характеристик
Новый парсер SE::Rambler - сегодня рамблер использует одновременно выдачу Google и Яндекса, в зависимости от геолокации пользователя(прокси), есть поддержка антигейта
Новый парсер SE::IxQuick - https://www.ixquick.com - еще один поисковик, основанный на выдаче Google
Добавление ссылок в индекс Бинга - SE::Bing::AddURL - добавляет ваши ссылки в промышленных масштабах, требуется антигейт
Новый парсер Rank::OpenSiteExplorer::Extended - расширенная версия парсера Rank::OpenSiteExplorer, собирает с https://moz.com 39 параметров по домену, сабдомену и странице
JavaScript парсеры: новые методы this.util.urlFromHTML(url, [base]) и this.util.updateResultsData(results, data)
В парсере SE::Yandex добавлен сбор времени последнего кэширования страницы
Исправления в связи с изменениями в выдаче
SE::Yandex - исправлен парсинг выдачи, сбор ссылки на кэш страницы, а также парсинг рекламных объявлений
SE::Google - исправлен парсинг рекламных объявлений, а также проблема с парсингом в редких случаях при использовании антигейта
В парсере Net::Whois исправлен парсинг дат, а также улучшен парсинг whois сервера GoDaddy
SE::Google::Trends - полностью обновлен парсер и список собираемых значений
Новый парсер Rank::SimilarWeb - парсит сервис http://similarweb.com, собирает множество параметров, включая ранк домена, трафик, распределение трафика по источникам и странам
Новый парсер Rank::MegaIndex - парсит сервис https://megaindex.com, собирает число трафика по органике и рекламным запросам, а также различную информацию о беклинках и индексации сайта
Новый парсер Rank::SEMrush::Keyword - собирает трафик, конкуренцию и другие параметры по ключевому слову в сервисе http://semrush.com
В парсере SE::Google добавлена возможность выбора языка интерфейса гугла, актуально для точного снятия позиций
В настройках антигейта добавлена опция Report bad captchas - отключив которую можно сэкономить время на запрос о неправильной каптче, актуально для CapMonster и XEvil
Удалены 5 устаревших парсеров: SE::Google::pR - сервис больше не существует, SE::Google::Maps - выдача зависит от гео прокси, Rank::Ahrefs - парсинг сервиса возможен только с аккаунтами с подтвержденной кредитной картой, Rank::Category - нет подходящего сервиса, Rank::DMOZ - dmoz прекратил свое существование в марте
Теперь парсер SE::Yandex по умолчанию использует https, избегая ненужного редиректа