Алгоритм грабера

(Ответов: 12, Просмотров: 1329)
Страница 1 из 2 12 Последняя
  1. Критик Аватар для Gami
    • Регистрация: 06.07.2010
    • Сообщений: 248
    • Репутация: 30
    В сети находил скрипты граберов, но все они примитивные, тупо берут текст и лепят на собственный ресурс. Всегда было интересно как строится работа хорошего грабера. Может кто поделиться алгоритмом работы умного грабера или объяснить на пальцах? Возможно имеются готовые решения?
    • 0
  2. Гуру Аватар для Ems
    • Регистрация: 24.05.2011
    • Сообщений: 2,032
    • Репутация: 663
    А которые берут текст и выкладывают на определённый ресурс - они разве не хорошие? Какие тогда хорошие? :)

    Всё зависит от задач. А так, всё просто. Парсится документ на нужную инфу, далее эта инфа обрабатывается если надо и делается что нужно
    • 0
  3. PHP Developer Аватар для HiNeX
    • Регистрация: 26.04.2012
    • Сообщений: 222
    • Репутация: 47
    • Webmoney BL: ?
    Если я правильно понял автора, то возможно он имел ввиду это:
    1. Скрипт парсит ленту по крону, раз в час например.
    2. Сравнивает с последней датой которая есть в БД (или не БД).
    3. Если есть отличия, парсит контент страницы из ссылки в ленте и пишет в БД (например в таблицу модуля новостей или создает топик на форуме).
    ...или нет?
    • 0
  4. Критик Аватар для Gami
    • Регистрация: 06.07.2010
    • Сообщений: 248
    • Репутация: 30
    Цитата Сообщение от Ems Посмотреть сообщение
    А которые берут текст и выкладывают на определённый ресурс - они разве не хорошие? Какие тогда хорошие?
    Это же голимый копипаст! Рациональность таких текстов очень низкая.

    Цитата Сообщение от Ems Посмотреть сообщение
    Парсится документ на нужную инфу, далее эта инфа обрабатывается если надо и делается что нужно
    Проблема именно в обработке и «делать что нужно». К примеру, грабер вытащил текст и немного подредактировал с заменой слов. Может существуют другие способы обработки полученной информации?

    ---------- Сообщение добавлено 08:43 ---------- Предыдущее 08:41 ----------

    Цитата Сообщение от HiNeX Посмотреть сообщение
    Если есть отличия, парсит контент страницы из ссылки в ленте и пишет в БД (например в таблицу модуля новостей или создает топик на форуме).
    Тоже интересный вариант, но нужна незначительная переделка текста.

    ---------- Сообщение добавлено 08:46 ---------- Предыдущее 08:43 ----------

    Также буду благодарен за любые ссылки (ТОЛЬКО В ЛИЧКУ) на скрипты используемых граберов. Плиз, только те, которые использовали или используете и которые чем-то понравились.
    • 0
  5. PHP Developer Аватар для HiNeX
    • Регистрация: 26.04.2012
    • Сообщений: 222
    • Репутация: 47
    • Webmoney BL: ?
    Gami, можно пройтись регуляркой перед записью, на третьем этапе.)
    • 0
  6. Старый оптимист Аватар для Думка
    • Регистрация: 07.03.2007
    • Сообщений: 687
    • Репутация: 367
    • Webmoney BL: ?
    Что такое умный парсер? Тот, который сам находит инфу что нужна, вычленяет ее из остального кода и парсит? :)
    Или умный тот - которым можно спарсить все что угодно?

    По парсерам... десктопный Content Downloader на сегодня лучший, имхо
    Если серверный вариант то тут 2 пути - или писать парсер под каждый сайт что требуется... или делать универсальный...
    Мне, например, сделали универсальный... + сразу можно сделать нужные замены... настройка донора - регекспами...
    ⭐ Индивидуальное Обучение: "Белые Доры" под Adsense! ⭐ Совместимо Adsense, ЯД - Выгодно и просто!
    • 0
  7. Banned
    • Регистрация: 16.04.2011
    • Сообщений: 1,120
    • Записей в дневнике: 1
    • Репутация: 481
    Цитата Сообщение от Gami Посмотреть сообщение
    (ТОЛЬКО В ЛИЧКУ)
    А почему так? Другим тоже интересно будет. Представьте, что на этом форуме будут только вопросы, а ответы все в личку посылать будут. Интересно на такой форум заходить будет?
    • 0
  8. Дипломник Аватар для Markus
    • Регистрация: 15.12.2009
    • Сообщений: 130
    • Репутация: 37
    grab - умный парсер (поддержка xpath, lxml, regexp, проксей). Работает по принципу дерева, те собираются элементы ветки и для каждого вызывается обработчик. Хотя я не уверен, что это вам будет полезно. Если не по части кодинга, то Content Downloader, Datacol (визуально выбираете что парсить и где парсить)
    • 1

    Спасибо сказали:

    Gami(08.05.2012),
  9. Критик Аватар для Gami
    • Регистрация: 06.07.2010
    • Сообщений: 248
    • Репутация: 30
    Цитата Сообщение от HiNeX Посмотреть сообщение
    можно пройтись регуляркой перед записью, на третьем этапе
    Что значит "пройти регуляркой"?

    ---------- Сообщение добавлено 12:18 ---------- Предыдущее 12:15 ----------

    Цитата Сообщение от Tiulkin Посмотреть сообщение
    А почему так? Другим тоже интересно будет
    В других темах форум начали ругаться на прямые ссылки, вот и я для осторожности

    ---------- Сообщение добавлено 12:19 ---------- Предыдущее 12:18 ----------

    Цитата Сообщение от Думка Посмотреть сообщение
    Мне, например, сделали универсальный... + сразу можно сделать нужные замены... настройка донора - регекспами...
    А можно как-то пощупать работу или почитать описание?
    • 0
  10. Banned
    • Регистрация: 16.04.2011
    • Сообщений: 1,120
    • Записей в дневнике: 1
    • Репутация: 481
    Цитата Сообщение от Gami Посмотреть сообщение
    Что значит "пройти регуляркой"?
    "Выкусить" интересующую часть при помощи регулярных выражений.
    ru.wikipedia.org/wiki/Регулярные_выражения
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
февральский алгоритм Google
Google 6 24.03.2011 00:54
Как работает алгоритм АГС
Дайджест блогосферы 0 24.04.2010 14:08
Новый алгоритм яндекса
Поисковые системы 32 15.12.2009 17:01
Последний алгоритм Яндекса.
Поисковые системы 3 23.11.2009 17:02

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры