В сети находил скрипты граберов, но все они примитивные, тупо берут текст и лепят на собственный ресурс. Всегда было интересно как строится работа хорошего грабера. Может кто поделиться алгоритмом работы умного грабера или объяснить на пальцах? Возможно имеются готовые решения?
Если я правильно понял автора, то возможно он имел ввиду это: 1. Скрипт парсит ленту по крону, раз в час например. 2. Сравнивает с последней датой которая есть в БД (или не БД). 3. Если есть отличия, парсит контент страницы из ссылки в ленте и пишет в БД (например в таблицу модуля новостей или создает топик на форуме). ...или нет?
А которые берут текст и выкладывают на определённый ресурс - они разве не хорошие? Какие тогда хорошие?
Это же голимый копипаст! Рациональность таких текстов очень низкая.
Сообщение от Ems
Парсится документ на нужную инфу, далее эта инфа обрабатывается если надо и делается что нужно
Проблема именно в обработке и «делать что нужно». К примеру, грабер вытащил текст и немного подредактировал с заменой слов. Может существуют другие способы обработки полученной информации?
---------- Сообщение добавлено 08:43 ---------- Предыдущее 08:41 ----------
Сообщение от HiNeX
Если есть отличия, парсит контент страницы из ссылки в ленте и пишет в БД (например в таблицу модуля новостей или создает топик на форуме).
Тоже интересный вариант, но нужна незначительная переделка текста.
---------- Сообщение добавлено 08:46 ---------- Предыдущее 08:43 ----------
Также буду благодарен за любые ссылки (ТОЛЬКО В ЛИЧКУ) на скрипты используемых граберов. Плиз, только те, которые использовали или используете и которые чем-то понравились.
Что такое умный парсер? Тот, который сам находит инфу что нужна, вычленяет ее из остального кода и парсит? :) Или умный тот - которым можно спарсить все что угодно?
По парсерам... десктопный Content Downloader на сегодня лучший, имхо Если серверный вариант то тут 2 пути - или писать парсер под каждый сайт что требуется... или делать универсальный... Мне, например, сделали универсальный... + сразу можно сделать нужные замены... настройка донора - регекспами...
А почему так? Другим тоже интересно будет. Представьте, что на этом форуме будут только вопросы, а ответы все в личку посылать будут. Интересно на такой форум заходить будет?
grab - умный парсер (поддержка xpath, lxml, regexp, проксей). Работает по принципу дерева, те собираются элементы ветки и для каждого вызывается обработчик. Хотя я не уверен, что это вам будет полезно. Если не по части кодинга, то Content Downloader, Datacol (визуально выбираете что парсить и где парсить)