Делаем парсеры контента своими руками

(Ответов: 14, Просмотров: 28041)
В статье описана технология создания парсера контента своими руками. Для этого нам понадобится: сайт источник (к примеру, доска объявлений), информацию с которого мы скачиваем программой Teleport Pro, либо полностью, либо только из какой-то конкретной рубрики. Потом выбираем движок для будущего сайта, пишем заготовку sql запроса, скачиваем программу text pipe pro, подготавливаем скрипт, парочка фишек и все, парсер контента собственными руками готов.
Страница 1 из 2 12 Последняя
  1. Banned
    • Регистрация: 08.09.2009
    • Сообщений: 1,478
    • Репутация: 80
    • Webmoney BL: ?
    всевозможные доски объявлений, со спаршеным контентом живут в индексе яндекса превосходно. Несмотря на то, что инфа на многих досках дублируется, яндекс не выкидывает их из индекса, до тех пор пока вебмастер в силу природной жадности не начинает размещать всякие попандеры и прочую хрень.

    Итак сейчас я покажу вам на примере, как можно быстро без особых усили и не имея навыков программирования создать такую вот досочку, скажем на 500 страниц.

    Для того, что бы исключить непонятки - поясню, что под парсером я имею в виду некую прогу которая тырит контент и делает его удобоимпортируемым в наш дизайн.

    Итак начнём. Для начала давайте выберем "жертву", пусть это будет какая ни будь отдельная рубрика Яндекс.каталога (о том, как разделять спаршенный контент, расскажу в слудующей статье, пока у нас будет одна категория).

    Скачиваем рубрику "как есть" прогой Teleport Pro (бесплатная, делает дубликаты сайтов). качаем только контент без сохранения структуры и картинок. Это просто.

    Далее выбираем движок. Предлагаю использовать DLE, устанавливаем его на денвер или на хостинг. Заходим в используемую базу, откываем таблицу где храняться все записи (в DLE это таблица dle_post в других движках другие)




    В DLE нужно заполнить как минимум четыре поля:
    Заголовок:title
    Автор:autor
    Короткий текст:short_story
    Полный текст:full_story

    Составляем заготовку slq запроса (для тех, кто не вкурсе - это написанная на языке sql инструкция, которую можно скопировать во вкладку slq в phpmyadmin и она что то там сделает с базой. При помощи sql запросов можно работать с базой напрямую, без всяких навороченых админок с визуальными редакторами)

    она будет выглядеть так:

    Код:
    INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('','admin','','')
    Оставляем вкладку с phpmyadmin пока открытой и ищем прогу text pipe pro.
    Утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой. В TextPipe Pro встроено почти полторы сотни фильтров. линк на демо
    Где вы её найдёте, думайте сами. Но в демоверсии ограничение максимум на 100 обработанных файлов.

    Открываем, сразу запускаем мастер фильтров

    Выбираем самый верхний фильтр "Поиск и замена по схеме".



    теперь подходим к самому основному - создание схемы по которой прога и будет выдирать нужную нам инфу. Писать мы будем на регулярных выражениях, точнее используем самую простую схему.

    Открываем наш яндекс каталог в виде html и копируем кусок html кода который содержит заголовок и описание (собсно то. что нам и нужно)



    Код:
    "r(this, 'ctya')">"Яндекс" - поисковая система по русскому интернету </a><br>Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.<div class="url">
    Теперь нужную нам текстовую информацию заменяем вот таким образом

    Код:
    "r\(this, 'ctya'\)">(.*?)</a><br>(.*?)<div class="url">
    (.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё.

    Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия"

    В поле замена на пишем наш sql запрос

    Код:
    INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2')
    Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым.

    у вас должно быть что то типа такого:



    На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок.



    Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл".

    На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем!

    Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово!
    Миниатюры dle1.jpg   dle3.jpg   dle4.jpg   dle5.jpg   dle6.jpg  

    • 4

    Спасибо сказали:

    zhurik(28.06.2013),
  2. Гуру Аватар для EvilGomel
    • Регистрация: 03.09.2009
    • Сообщений: 1,178
    • Репутация: 84
    • Webmoney BL: ?
    Можно пример такого сайта?
    • 0
  3. Banned
    • Регистрация: 08.09.2009
    • Сообщений: 1,478
    • Репутация: 80
    • Webmoney BL: ?
    Ну например deaxon.ru делался с использованием этой технологии
    • 0
  4. Member Аватар для ne0zx
    • Регистрация: 03.09.2009
    • Сообщений: 77
    • Репутация: 14
    Цитата Сообщение от noxon.su Посмотреть сообщение
    Ну например deaxon.ru делался с использованием этой технологии
    что за партнерка? или свой "платник" ?
    • 0
  5. Banned
    • Регистрация: 08.09.2009
    • Сообщений: 1,478
    • Репутация: 80
    • Webmoney BL: ?
    Ну как то пытался таким способом монетизировать доску обьявлений. Ниодной смс так и не получил :)
    • 0
  6. Member Аватар для ne0zx
    • Регистрация: 03.09.2009
    • Сообщений: 77
    • Репутация: 14
    я бы не удивился, если бы появилась партнерка с "закажи квартиру всего за 3 смс по 15р"
    • 0
  7. Banned
    • Регистрация: 08.09.2009
    • Сообщений: 1,478
    • Репутация: 80
    • Webmoney BL: ?
    Нет, на такое бы точно никто не повёлся :)
    • 0
  8. Опытный Аватар для Tilad
    • Регистрация: 16.12.2009
    • Сообщений: 274
    • Репутация: 44
    А сапа не убьет сайт такой?
    • 0
  9. Banned
    • Регистрация: 08.09.2009
    • Сообщений: 1,478
    • Репутация: 80
    • Webmoney BL: ?
    Пока вроде живи и здоровы все. Но ссылок мало продано. Продолжаем наблюдение :)

    Непонял, чё никому не интересно как многостроничники делаются? Одни просмотры, а обсуждения не видно. Я эту статью кучу времени писал :)
    • 1

    Спасибо сказали:

    zhurik(28.06.2013),
  10. Студент Аватар для Chezar
    • Регистрация: 17.12.2009
    • Сообщений: 48
    • Репутация: 17
    Спасибо, статья отличная !

    Появилась проблема, немогу понять как решить

    Когда я открываю загруженный телепортом html файл NotePad++ и копирую весь код в зону учебного прогона, в TextPipe появляются квадратики вместо некоторых символов, и соответственно ничего не рботает.

    А если открыть html обычным WordPad'ом винды и скопировать тоже весь код в TextPipe, то все нормально работает.

    Файлы сохранены в кодировке ANSI.

    Подскажите чем перекодировать все файлы, в подходящий формат для TextPipe

    Решил проблему так : в TextPipe жмём преобразовать --> Символы конец строки --> Авто выявление
    Последний раз редактировалось Chezar; 13.01.2010 в 00:29.
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
php: Парсер своими руками. Теория
Дайджест блогосферы 0 25.12.2009 17:36
Тренинг-семинар "Продающий текст своими руками"
Семинары и конференции 0 31.10.2009 01:50
Сбор proxy своими руками.
Прочее 33 16.10.2009 00:02
Парсеры новостей
Софт, скрипты, сервисы 6 17.09.2009 04:37

Интересные темы

парсер контента

Опытный веб-мастер делится секретами о том, где брать контент для сайта и что такое парсер.

парсер файлов

Может ли помочь софт при парсинге файлов, какой выбрать и стоит ли за него платить?

как сделать парсер

Какие недостатки у программ Xcovator и Xrefer, выгоднее ли сделать свой парсер для конкретных задач.

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры