всевозможные доски объявлений, со спаршеным контентом живут в индексе яндекса превосходно. Несмотря на то, что инфа на многих досках дублируется, яндекс не выкидывает их из индекса, до тех пор пока вебмастер в силу природной жадности не начинает размещать всякие попандеры и прочую хрень.
Итак сейчас я покажу вам на примере, как можно быстро без особых усили и не имея навыков программирования создать такую вот досочку, скажем на 500 страниц.
Для того, что бы исключить непонятки - поясню, что под парсером я имею в виду некую прогу которая тырит контент и делает его удобоимпортируемым в наш дизайн.
Итак начнём. Для начала давайте выберем "жертву", пусть это будет какая ни будь отдельная рубрика Яндекс.каталога (о том, как разделять спаршенный контент, расскажу в слудующей статье, пока у нас будет одна категория).
Скачиваем рубрику "как есть" прогой Teleport Pro (бесплатная, делает дубликаты сайтов). качаем только контент без сохранения структуры и картинок. Это просто.
Далее выбираем движок. Предлагаю использовать DLE, устанавливаем его на денвер или на хостинг. Заходим в используемую базу, откываем таблицу где храняться все записи (в DLE это таблица dle_post в других движках другие)
В DLE нужно заполнить как минимум четыре поля:
Заголовок:title
Автор:autor
Короткий текст:short_story
Полный текст:full_story
Составляем заготовку slq запроса (для тех, кто не вкурсе - это написанная на языке sql инструкция, которую можно скопировать во вкладку slq в phpmyadmin и она что то там сделает с базой. При помощи sql запросов можно работать с базой напрямую, без всяких навороченых админок с визуальными редакторами)
она будет выглядеть так:
Код:Оставляем вкладку с phpmyadmin пока открытой и ищем прогу text pipe pro.INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('','admin','','')Где вы её найдёте, думайте сами. Но в демоверсии ограничение максимум на 100 обработанных файлов.Утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой. В TextPipe Pro встроено почти полторы сотни фильтров. линк на демо
Открываем, сразу запускаем мастер фильтров
Выбираем самый верхний фильтр "Поиск и замена по схеме".
теперь подходим к самому основному - создание схемы по которой прога и будет выдирать нужную нам инфу. Писать мы будем на регулярных выражениях, точнее используем самую простую схему.
Открываем наш яндекс каталог в виде html и копируем кусок html кода который содержит заголовок и описание (собсно то. что нам и нужно)
Код:Теперь нужную нам текстовую информацию заменяем вот таким образом"r(this, 'ctya')">"Яндекс" - поисковая система по русскому интернету </a><br>Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.<div class="url">
Код:(.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё."r\(this, 'ctya'\)">(.*?)</a><br>(.*?)<div class="url">
Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия"
В поле замена на пишем наш sql запрос
Код:Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым.INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2')
у вас должно быть что то типа такого:
На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок.
Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл".
На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем!
Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово!
В статье описана технология создания парсера контента своими руками. Для этого нам понадобится: сайт источник (к примеру, доска объявлений), информацию с которого мы скачиваем программой Teleport Pro, либо полностью, либо только из какой-то конкретной рубрики. Потом выбираем движок для будущего сайта, пишем заготовку sql запроса, скачиваем программу text pipe pro, подготавливаем скрипт, парочка фишек и все, парсер контента собственными руками готов.
- 14.12.2009 01:54
Спасибо сказали:
zhurik(28.06.2013), - 14.12.2009 22:33
Можно пример такого сайта?
- 14.12.2009 23:40
Ну например deaxon.ru делался с использованием этой технологии
- 15.12.2009 01:18
- 15.12.2009 02:30
Ну как то пытался таким способом монетизировать доску обьявлений. Ниодной смс так и не получил :)
- 15.12.2009 13:57
я бы не удивился, если бы появилась партнерка с "закажи квартиру всего за 3 смс по 15р"
- 16.12.2009 23:42
Нет, на такое бы точно никто не повёлся :)
- 25.12.2009 03:36
А сапа не убьет сайт такой?
- 27.12.2009 17:42
Пока вроде живи и здоровы все. Но ссылок мало продано. Продолжаем наблюдение :)
Непонял, чё никому не интересно как многостроничники делаются? Одни просмотры, а обсуждения не видно. Я эту статью кучу времени писал :)Спасибо сказали:
zhurik(28.06.2013), - 13.01.2010 00:21
Спасибо, статья отличная !
Появилась проблема, немогу понять как решить
Когда я открываю загруженный телепортом html файл NotePad++ и копирую весь код в зону учебного прогона, в TextPipe появляются квадратики вместо некоторых символов, и соответственно ничего не рботает.
А если открыть html обычным WordPad'ом винды и скопировать тоже весь код в TextPipe, то все нормально работает.
Файлы сохранены в кодировке ANSI.
Подскажите чем перекодировать все файлы, в подходящий формат для TextPipe
Решил проблему так : в TextPipe жмём преобразовать --> Символы конец строки --> Авто выявлениеПоследний раз редактировалось Chezar; 13.01.2010 в 00:29.
Тэги топика:
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
php: Парсер своими руками. Теория | Дайджест блогосферы | 0 | 25.12.2009 17:36 |
Тренинг-семинар "Продающий текст своими руками" | Семинары и конференции | 0 | 31.10.2009 00:50 |
Сбор proxy своими руками. | Прочее | 33 | 15.10.2009 23:02 |
Парсеры новостей | Софт, скрипты, сервисы | 6 | 17.09.2009 03:37 |
Интересные темы
парсер контента
Опытный веб-мастер делится секретами о том, где брать контент для сайта и что такое парсер.
парсер файлов
Может ли помочь софт при парсинге файлов, какой выбрать и стоит ли за него платить?
как сделать парсер
Какие недостатки у программ Xcovator и Xrefer, выгоднее ли сделать свой парсер для конкретных задач.