Прошу оценить новый парсер поисковой выдачи, написанный мной, и оставить сдесь комментарии. Парсит любой поисковик. Прошу строго не судить :)
Предыдущие версии программы работали только с Google и отбирали только DLE сайты. Версия же 3.0 более универсальна, потому решил поделится с сообществом веб-мастеров, дабы узнать мнение потребителя и учесть его в будущем.
Вообщем Butterfly 3.0 - Десктопная программа, прячущаяся в трей.
Для парсинга нужно выбрать из списка профиль нужного поисковика. Ввести ключевые слова (или указать файл с ключевыми словами), при необходимости выбрать профиль фильтрации ссылок и нажать кнопку "Искать".
Программа начнет парсинг, и если включена фильтрация, будет заходить на найденный сайт, проверять условия фильтрации и возвращать результат: проходит ли ссылка отбор или нет.
Все найденные и отобранные ссылки программа будет тут же сохранять в указанный заранее файл.
Имеется возможность не парсить поисковик, а брать базу сайтов из файла и поддавать фильтрации по указанному условию. Кроме того пользователь сам может изменять или добавлять новые профили парсинга поисковиков и отбора.
В стандартную поставку включаются 11 готовых профилей фильтрации:
Отбор сайтов на Bitrix
Отбор сайтов на DLE
Отбор сайтов на DLE (отбор реализованый в Butterfly 2)
Отбор сайтов на Drupal
Отбор сайтов на Joomla
Отбор сайтов на MaxSite
Отбор сайтов на phpBB
Отбор сайтов на UCOZ
Отбор сайтов на WordPress
Отбор бесплатных и открытых торент трекеров
Без отбора (сохранение всех найденных сайтов)
Каждый профиль отбора можно настроить следующим образом:
1. Указать фрагменты текста, которые обязательно должны быть в тексте страницы (например: "фрагмент1 И фрагмент2 ИЛИ фрагмент3 И фрагмент2 И фрагмент4") 2. Указать фрагменты текста, которые обязательно не должны быть в тексте страницы.
То есть мы имеем белый и черный список условий (конечно же один из них можно не заполнять). И если страничка удовлетворяет черному и белому списку - сайт будет отобран.
Каждый "Вариант" - это список условий. Для успешного отбора должен выполнятся как минимум один вариант условий (и все условия данного варианта). То есть мы имеем "Вариант1 ИЛИ Вариант2 ИЛИ ...".
Каждое условие - это текст, который должен быть (или не должен быть, если это черный список) в коде страницы.
Если выполняются все условия варианта, то выполняется и вариант - а значит и фильтр не отбросит сайт. То есть для условий мы имеем "Условие1 ИЛИ Условие2 ИЛИ ..."
Фильтры можна настраивать как угодно. Каждый фильтр - это отдельный INI-файл, который можно скопировать и принести (например) на работу.
Каждый критерий прописывается в настройках профиля фильтра, в "белом списке", как описано выше. Вы сами можете отредактировать критерии.
Например как видно из картинки, счтиается что сайт на движке "WordPress", если в коде страницы сайта встречается фраза "wp-content/themes/" и "wp-content/plugins/" одновременно (Вариант 2), либо встречается фраза "content=”WordPress”" (Вариант 1, на скриншоте не видно).
Для этого и других профилей можно отредактировать и добавить таких вариантов и условий сколько угодно.
---------- Сообщение добавлено 22:48 ---------- Предыдущее 22:45 ----------
Сообщение от TbIKBA
Последний вопрос перед скачиванием (клятвенно обещаю, с оставлением отхыва), фильтр на наличие в ЯК и количеству ТИЦ там есть?
На счет Яндекс каталога - есть отдельный профиль поиска, который парсит не выдачу поисковика, а Яндекс каталог, DMOZ и Rambler TOP 100.
Фильтра по количеству ТИЦ - нету, но в планах сделать пожже в платной версии
---------- Сообщение добавлено 23:28 ---------- Предыдущее 22:48 ----------
Кстате, я знаю разработчика WebParser. Он написал свою программу вдохновившись Butterfly 1. Тогда (где-то год назад) обе наши программы искали только DLE движки. Далее он сделал программу платной и постепенно наращивал ее функционалом. Я же решил переписать все с 0 и воплотить идею универсальности с профилями, оставив программу до сих пор бесплатной.