В сети находил скрипты граберов, но все они примитивные, тупо берут текст и лепят на собственный ресурс. Всегда было интересно как строится работа хорошего грабера. Может кто поделиться алгоритмом работы умного грабера или объяснить на пальцах? Возможно имеются готовые решения?
- 08.05.2012 08:42
- 08.05.2012 09:17
А которые берут текст и выкладывают на определённый ресурс - они разве не хорошие? Какие тогда хорошие? :)
Всё зависит от задач. А так, всё просто. Парсится документ на нужную инфу, далее эта инфа обрабатывается если надо и делается что нужно - 08.05.2012 10:04
Если я правильно понял автора, то возможно он имел ввиду это:
1. Скрипт парсит ленту по крону, раз в час например.
2. Сравнивает с последней датой которая есть в БД (или не БД).
3. Если есть отличия, парсит контент страницы из ссылки в ленте и пишет в БД (например в таблицу модуля новостей или создает топик на форуме).
...или нет? - 08.05.2012 10:46
Это же голимый копипаст! Рациональность таких текстов очень низкая.
Проблема именно в обработке и «делать что нужно». К примеру, грабер вытащил текст и немного подредактировал с заменой слов. Может существуют другие способы обработки полученной информации?
---------- Сообщение добавлено 08:43 ---------- Предыдущее 08:41 ----------
Тоже интересный вариант, но нужна незначительная переделка текста.
---------- Сообщение добавлено 08:46 ---------- Предыдущее 08:43 ----------
Также буду благодарен за любые ссылки (ТОЛЬКО В ЛИЧКУ) на скрипты используемых граберов. Плиз, только те, которые использовали или используете и которые чем-то понравились. - 08.05.2012 10:48
Gami, можно пройтись регуляркой перед записью, на третьем этапе.)
- 08.05.2012 11:48
Что такое умный парсер? Тот, который сам находит инфу что нужна, вычленяет ее из остального кода и парсит? :)
Или умный тот - которым можно спарсить все что угодно?
По парсерам... десктопный Content Downloader на сегодня лучший, имхо
Если серверный вариант то тут 2 пути - или писать парсер под каждый сайт что требуется... или делать универсальный...
Мне, например, сделали универсальный... + сразу можно сделать нужные замены... настройка донора - регекспами... - 08.05.2012 13:11
- 08.05.2012 13:29
grab - умный парсер (поддержка xpath, lxml, regexp, проксей). Работает по принципу дерева, те собираются элементы ветки и для каждого вызывается обработчик. Хотя я не уверен, что это вам будет полезно. Если не по части кодинга, то Content Downloader, Datacol (визуально выбираете что парсить и где парсить)
Спасибо сказали:
Gami(08.05.2012), - 08.05.2012 14:19
Что значит "пройти регуляркой"?
---------- Сообщение добавлено 12:18 ---------- Предыдущее 12:15 ----------
В других темах форум начали ругаться на прямые ссылки, вот и я для осторожности
---------- Сообщение добавлено 12:19 ---------- Предыдущее 12:18 ----------
А можно как-то пощупать работу или почитать описание? - 08.05.2012 15:14
Тэги топика:
Похожие темы
| Темы | Раздел | Ответов | Последний пост |
|---|---|---|---|
февральский алгоритм Google | 6 | 24.03.2011 00:54 | |
Как работает алгоритм АГС | Дайджест блогосферы | 0 | 24.04.2010 14:08 |
Новый алгоритм яндекса | Поисковые системы | 32 | 15.12.2009 18:01 |
Последний алгоритм Яндекса. | Поисковые системы | 3 | 23.11.2009 18:02 |







