A-Parser - продвинутый парсер поисковых систем, Suggest, WordStat, PR, DMOZ, Whois, DNS, etc

(Ответов: 306, Просмотров: 36728)
Страница 12 из 31 Первая ... 2101112131422 Последняя
  1. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser - 1.1.481 - множество оптимизаций скорости, использование пресетов в цепочках и планировщике



    В этой версии был внедрен ряд качественных улучшений, призванных увеличить предельную скорость парсинга:
    • Быстрая обработка UTF-8, прирост скорости на некоторых задачах до 1.5х
    • Внедрен механизм анализа используемых переменных в результатах, что позволяет оптимизировать скорость извлекая только требуемые данные. Первым оптимизированным парсером стал SE::Google: двукратный прирост предельной скорости парсинга при сборе только ссылок(7000-10000 запросов в минуту, по 100 результатов на запрос, другими словами теперь можно получить 1 миллион ссылок за 1-1.5 минуты)
    • Теперь информация о запросах $response формируется только по требованию
    • Оптимизирована работа шаблонизатора при использовании множества парсеров в одном задании
    Другие улучшения:
    • Теперь при использовании опции "Запустить задание по завершению" используется имя пресета вместо номера задания из очереди
    • В планировщике заданий также используется имя пресета, что позволяет очищать очередь без риска потерять сохраненные задания для планировщика
    Исправления в связи с изменениями в выдачи:
    • SE::Google - поиск по блогам, также увеличена скорость парсинга за счет изменения запросов
    • SE::Yahoo, SE::DuckDuckGo, SE::AOL
    Исправления:
    • В парсере Rank::Archive исправлена логика при обработке ошибки 403 Forbidden
    • Исправлено падение при изменении числа потоков в задании
    • Исправлена поддержка TLS для некоторых сайтов
    • Исправлено зависание задания при падении воркера
    • Теперь задание можно остановить если оно находится в режиме ожидания слота
    • Исправлена работа опции "Сохранять размер окна"
    • Исправлена ошибка в HTML::LinkExtractor при работе опции Parse to level в случаях когда сайт отдал редирект на другую страницу
    Последний раз редактировалось Forbidden; 07.04.2016 в 11:22.
    • 1

    Спасибо сказали:

    xkrainer(17.08.2016),
  2. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

    13-й выпуск Сборника рецептов. В нем мы научимся сохранять результат в файл дампа SQL, который будет сразу готов для импорта в базу данных; познакомимся с очень полезным инструментом $tools.query, с помощью которого можно объединять несколько заданий в одно и делать другие интересные вещи; а также увидим еще несколько полезных рецептов.

    Вывод результата в формате дампа SQL
    С вопросом "можно ли сохранять результаты сразу в базу данных" очень часто обращаюся пользователи в техподдержку. И так, как на данный момент напрямую сохранять результаты в БД нет возможности (но планируется), то предлагаю вариант выводить их в файл дампа, а потом импортировать в базу данных. Как это делается - показано по ссылке выше.


    Обзор инструмента $tools.query
    $tools.query довольно часто встречается в примерах на форуме. В А-Парсере этот инструмент появился уже больше года назад, но обзора по нему до этого времени не было выпущено. Поэтому мы исправляемся и по ссылке выше вы сможете ознакомиться с некоторыми его возможностями.


    Еще несколько рецептов:
    Еще больше различных рецептов в нашем Каталоге примеров!

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники
    • 0
  3. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser - 1.1.500 - использование разных источников прокси в разных заданиях и парсерах

    В этой версии проделана большая работа по улучшению проверки прокси и добавлению возможности использования разных источников прокси:

    • Появилась возможность запускать сразу несколько прокси чекеров, каждый поддерживает собственные настройки и собственный рабочий каталог с возможностью указать различные источники проксей
    • В настройках задания, появилась возможность указать прокси от каких чекеров должны использоваться(выбор между всеми или перечисление конкретных)
    • Более того в одном задании каждый парсер может использовать различные источники прокси
    • Добавлен график живых прокси и статистика по обработке источников
    • Уменьшено потребление памяти при большом числе живых прокси
    • В API теперь возможно получить список всех живых прокси, а также список прокси для конкретных прокси чекеров
    Благодаря этим нововведениям появилась возможность раздельной работы с разными прокси серверами, когда одни прокси подходят для парсинга сайтов, другие лучше для парсинга выдачи поисковых систем, а третьи могут быть "заточены" под определенный сервис

    Другие улучшения:
    • Для парсера Rank::CMS добавлена опция эмуляции браузера, она включена по умолчанию и повышает процент распознавания многих CMS
    • В редакторе заданий появилась возможность сворачивать парсеры, что позволяет удобнее работать с большими заданиями
    Исправления в связи с изменениями в выдачи:
    • Rank::MajesticSEO, SE::Yandex, Rank::Archive, SE::Google::Images, SE::Google::TrustCheck, SE::Yandex::Catalog
    Печальная новость коснулась SE::Google:: pR - Google прекратил отображать PageRank для сайтов, но у нас в арсенале есть множество парсеров для гораздо более точной оценки рейтинга домена!
    • 0
  4. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser: видео урок - сбор отзывов о компании

    Денис Бартаев рассказывает, как собрать отзывы о компании в необходимом регионе:



    • Парсинг отзывов с популярного сервиса
    • Работа с парсером Net::HTTP, переход по сайту в глубину
    • Использование конструкторов запросов и результатов
    • Получение нескольких элементов контента одним регулярным выражением
    • Работа с асинхронными запросами в A-Parser
    • Просмотр результата в табличном виде в Excel

    Подписывайтесь на наш канал!

    Оставляйте в комментариях свои идеи и пожелания для будущих видео
    • 0
  5. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    1.1.532 - парсинг регистратора в Whois, множество исправлений

    Улучшения

    • В парсере Net::Whois добавлен парсинг названия регистратора домена

    Исправления в связи с изменениями в выдачи

    • SE::YouTube, SE::AOL, SE::Dogpile, SE::Yandex

    Исправления

    • Исправлено падение при использовании JavaScript(tools.js) на Windows, также исправлена некорректная работа на Linux
    • Исправлена проблема с логином на некоторых аккаунтах Яндекса
    • Исправлено определение ранка в парсере Rank::Alexa для доменов с www.
    • Исправлена работа с некоторыми доменными зонами в парсере Net::Whois, а также отображение статуса для некоторых зон
    • Исправлено падение Rank::CMS при использовании опции -nofork
    • Исправлены проблемы в работе нового прокси чекера: отключение чекера при изменении настроек, переопределение чекера в задании, а также проблема с отображением в некоторых браузерах
    • Исправлена работа опции Prepend/Append text в некоторых случаях
    • 0
  6. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser - 1.1.566 - кэширование запросов, удобная работа с настройками, множество улучшений


    Улучшения

    • Теперь для парсеров Net::HTTP, HTML::TextExtractor, HTML::LinkExtractor, Rank::CMS кэшируются одинаковые HTTP запросы при использовании любой комбинации из этих парсеров в одном задании, что исключает выполнение повторных запросов к одному URL, как следствие растет скорость, уменьшается нагрузка на целевые сайты
    • Добавлена опция Max connections per host позволяющая ограничить максимальное число одновременных подключений к одному домену/IP
    • Добавлена опция Global proxy ban позволяющая расшарить статистику по бану проксей между заданиями
    • В парсере HTML::LinkExtractor улучшено отображение табличных данных и списков
    • В парсере SE::Yandex::WordStat добавлена возможность указать минимальную частотность для добавления запроса на вложенный парсинг
    • В парсере SE::Yandex добавлена опция Parse all results позволяющая автоматически обходить ограничение на размер выдачи и собирать гораздо больше результатов
    • В редакторе заданий добавлена функция Copy overrides позволяющая копировать настройки из одного парсера в другой
    • В редакторе заданий добавлена функция Save overrides to preset позволяющая создать новый пресет на основе переопределенных значений
    • При просмотре логов с опцией "Только неудачные" теперь отображаются только те потоки, в которых были неудачные запросы
    • При использовании xPath совместно с сохранением отдельных запросов в один массив данные заполняются равномерно
    • В очереди заданий добавлена дата последнего изменения задания при отображении в компактном виде
    • В очереди заданий добавлена возможность скачать файл результатов при незавершенном парсинге
    • При использовании опции "Сохранять неудачные запросы" теперь дополнительно сохраняются оригинальные запросы для всего задания
    • Добавлена опция Report captcha - распознанные Google каптчи отправляются на наш сервер для анализа, включена по умолчанию
    Исправления в связи с изменениями в выдаче
    • SE::Yandex, Rank::DMOZ, SE::AOL
    Исправления
    • Исправлена проблема с большим потреблением памяти на ОС Windows
    • Исправлено неверное сохранение параметра уникализации в некоторых случаях
    • Не работала замена на группы в регулярных выражениях в Конструкторе запросов
    • В парсер HTML::LinkExtractor исправлен парсинг ссылок с пробелами
    • Исправлена проблема с отображением заданий в очереди с большим числом запросов добавленных через текстовое поле
    • 0
  7. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser: видео урок - парсим Rambler с XPath

    Денис Бартаев рассказывает, как в несколько кликов создать парсер любой поисковой системы на примере Rambler.ru. Мы получим всю необходимую информацию: ссылки, анкоры, сниппеты, число результатов, связанные ключевые слова и проверку на опечатку в запросе.



    В уроке рассмотрены
    • Использование XPath для создания кастомного парсера
    • Обход капчи без использования Antigate
    • Использование Template toolkit для форматирования результата
    • Объединение результатов парсинга в массив объектов с полями, связанными по индексу

    Подписывайтесь на наш канал!

    Оставляйте в комментариях свои идеи и пожелания для будущих видео
    • 0
  8. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser - 1.1.582 - множество исправлений поисковых систем

    Улучшения
    • В очереди заданий теперь запоминается текущая страница отдельно для активных и завершенных задач
    • Добавлена возможность вывести время выполнения каждого запроса
    Исправления в связи с изменениями в выдаче
    • SE::Yandex, SE::Bing, SE::Yandex::Register, SE::Comcast, SE::DisconnectMe, SE::Bing::Translator, Rank::LinkPad, SE::DuckDuckGo, SE::Yandex::Direct::Frequency
    Исправления
    • Улучшена обработка кодировки текста в HTML::TextExtractor
    • В очереди заданий в некоторых случаях могли не отображаться кнопки управления заданием


    Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

    14-й выпуск Сборника рецептов. Сегодня мы научимся делать кастомные парсеры с помощью XPath, будем анализировать страницы сайта и попробуем делать комбинированные пресеты. Кроме этого ниже обновление 2-х самых популярных пресетов и небольшой сюрприз :) Поехали!

    Быстрое создание кастомного парсера поисковой системы с помощью XPath
    В A-Parser есть парсеры для большинства популярных поисковых систем. Но реализовать и поддерживать парсеры для абсолютно всех существующих поисковиков очень сложно, поэтому нам на помощь приходит Net::HTTP с его замечательной возможностью парсить практически все. В данной статье речь пойдет о том, как с помощью XPath и Net::HTTP довольно быстро и легко создать кастомный парсер почти любой поисковой системы. Подробности - по ссылке выше.


    Анализ всех страниц сайта
    Администраторы сайтов и SEO-специалисты довольно часто сталкиваются с задачей анализа и мониторинга всех страниц сайта. Ранее мы уже публиковали Универсальный чекер страниц, который позволяет проверить доступность страниц на сайте. Теперь мы предоставляем вашему вниманию пресет для анализа всех страниц, который выводит глубину, время ответа, код и статус ответа, размер страницы и, если есть редирект, то конечный адрес редиректа. Все детали и пресет - по ссылке выше.


    Как сделать парсинг и скан сайтов в одном пресете
    Возможность использовать несколько парсеров в одном задании - это одно из преимуществ А-Парсера. Простая демонстрация такого функционала показана по ссылке выше.


    Кроме этого:
    • Обновлен пресет парсинга Авито
    • По многочисленным просьбам полностью переделан пресет парсинга 2GIS. Теперь он еще быстрее! А для тех, кто внимательно читает наши статьи - в посте есть небольшой подарок: полная база 2GIS.

    Еще больше различных рецептов в нашем Каталоге примеров!

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Предыдущие сборники
    • 0
  9. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser - 1.1.594 - Улучшение скорости парсинга Google в 10-20 раз



    После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту



    Улучшения
    • Переработан парсер SE::Google - увеличена скорость парсинга в 10-20 раз
    • Названия пресетов заданий теперь сортируются при добавлении
    Исправления
    • SE::Google - исправлена обработка каптчи в связи с изменением выдачи
    • Net::Whois - исправлена работа с некоторыми зонами
    • SE::Yandex::Register - исправлена работа с каптчей при регистрации аккаунта
    • Исправлено отображение дебаг информации для прокси чекеров
    • 0
  10. Опытный Аватар для Forbidden
    • Регистрация: 17.08.2010
    • Сообщений: 275
    • Репутация: 21
    A-Parser - 1.1.619 - большая оптимизация потребления памяти, увеличение скорости парсинга Яндекса



    В этой версии проделана большая работа по оптимизации потребления памяти, а также стабильной работе парсера 24/7 с множеством числом заданий

    Улучшения
    • Уменьшение потребления памяти
    • Оптимизация парсера SE::Yandex - увеличение предельной скорости парсинга в 2.5 раза(~1500 запросов минуту, i7-4770)
    Исправления в связи с изменениями в выдаче
    • SE::Google, SE::AOL, SE::Yandex, SE:ogpile, SE::YouTube, SE::Bing
    Исправления
    • Исправлен SE::Google при работе с антигейтом: неверная обработка запросов со скобками и очень длинных запросов
    • Исправлен Net::HTTP - при выполнении цепочки редиректов теперь передается оригинальный реферер
    • Исправлена работа с сессиями в SE::Yandex::WordStat
    • 2

    Спасибо сказали:

    SeotopInUa(17.08.2016), xkrainer(17.08.2016),
Страница 12 из 31 Первая ... 2101112131422 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
LTK Parser - парсер поисковых подсказок на разных языках
Софт, скрипты, лицензии 12 06.05.2012 21:10
Парсер контента под дорвеи и сателлиты X-Parser
Софт, скрипты, сервисы 0 15.08.2010 23:51
KD Parser - парсер ключевых слов
Софт, скрипты, лицензии 2 10.04.2010 21:47
Хороший Парсер Я.Директ и Wordstat - Магадан
Поисковые системы 10 24.11.2009 16:52
Хороший Парсер Я.Директ и Wordstat - Магадан
Софт, скрипты, сервисы 4 15.09.2009 19:38

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры