•    (Ответов: 9  Просмотров: 3665)
Лента этого топика   
   
  1. #1
    Senior Member Аватар для noxon.su
    Регистрация
    08.09.2009
    Адрес
    Москва - Владивосток
    Сообщений
    1,467
    Поинтов: 1585

    По умолчанию Делаем парсеры контента своими руками

    всевозможные доски объявлений, со спаршеным контентом живут в индексе яндекса превосходно. Несмотря на то, что инфа на многих досках дублируется, яндекс не выкидывает их из индекса, до тех пор пока вебмастер в силу природной жадности не начинает размещать всякие попандеры и прочую хрень.

    Итак сейчас я покажу вам на примере, как можно быстро без особых усили и не имея навыков программирования создать такую вот досочку, скажем на 500 страниц.

    Для того, что бы исключить непонятки - поясню, что под парсером я имею в виду некую прогу которая тырит контент и делает его удобоимпортируемым в наш дизайн.

    Итак начнём. Для начала давайте выберем "жертву", пусть это будет какая ни будь отдельная рубрика Яндекс.каталога (о том, как разделять спаршенный контент, расскажу в слудующей статье, пока у нас будет одна категория).

    Скачиваем рубрику "как есть" прогой Teleport Pro (бесплатная, делает дубликаты сайтов). качаем только контент без сохранения структуры и картинок. Это просто.

    Далее выбираем движок. Предлагаю использовать DLE, устанавливаем его на денвер или на хостинг. Заходим в используемую базу, откываем таблицу где храняться все записи (в DLE это таблица dle_post в других движках другие)




    В DLE нужно заполнить как минимум четыре поля:
    Заголовок:title
    Автор:autor
    Короткий текст:short_story
    Полный текст:full_story

    Составляем заготовку slq запроса (для тех, кто не вкурсе - это написанная на языке sql инструкция, которую можно скопировать во вкладку slq в phpmyadmin и она что то там сделает с базой. При помощи sql запросов можно работать с базой напрямую, без всяких навороченых админок с визуальными редакторами)

    она будет выглядеть так:

    Код:
    INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('','admin','','')
    Оставляем вкладку с phpmyadmin пока открытой и ищем прогу text pipe pro.
    Утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой. В TextPipe Pro встроено почти полторы сотни фильтров. линк на демо
    Где вы её найдёте, думайте сами. Но в демоверсии ограничение максимум на 100 обработанных файлов.

    Открываем, сразу запускаем мастер фильтров

    Выбираем самый верхний фильтр "Поиск и замена по схеме".



    теперь подходим к самому основному - создание схемы по которой прога и будет выдирать нужную нам инфу. Писать мы будем на регулярных выражениях, точнее используем самую простую схему.

    Открываем наш яндекс каталог в виде html и копируем кусок html кода который содержит заголовок и описание (собсно то. что нам и нужно)



    Код:
    "r(this, 'ctya')">"Яндекс" - поисковая система по русскому интернету </a><br>Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.<div class="url">
    Теперь нужную нам текстовую информацию заменяем вот таким образом

    Код:
    "r\(this, 'ctya'\)">(.*?)</a><br>(.*?)<div class="url">
    (.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё.

    Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия"

    В поле замена на пишем наш sql запрос

    Код:
    INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2')
    Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым.

    у вас должно быть что то типа такого:



    На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок.



    Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл".

    На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем!

    Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово!
    Изображения
    • Тип файла: jpg dle1.jpg (21.7 Кб, Просмотров: 195)
    • Тип файла: jpg dle3.jpg (18.5 Кб, Просмотров: 188)
    • Тип файла: jpg dle4.jpg (14.3 Кб, Просмотров: 185)
    • Тип файла: jpg dle5.jpg (24.7 Кб, Просмотров: 193)
    • Тип файла: jpg dle6.jpg (36.8 Кб, Просмотров: 193)
    что такое минисайт, комментируем. Так же есть блог о сео, и ещё один блог о сео

  2. #2
    Senior Member Аватар для EvilGomel
    Регистрация
    03.09.2009
    Сообщений
    541
    Поинтов: 372

    По умолчанию

    Можно пример такого сайта?

  3. #3
    Senior Member Аватар для noxon.su
    Регистрация
    08.09.2009
    Адрес
    Москва - Владивосток
    Сообщений
    1,467
    Поинтов: 1585

    По умолчанию

    Ну например deaxon.ru делался с использованием этой технологии
    что такое минисайт, комментируем. Так же есть блог о сео, и ещё один блог о сео

  4. #4
    Member Аватар для ne0zx
    Регистрация
    02.09.2009
    Сообщений
    79
    Поинтов: 65

    По умолчанию

    Цитата Сообщение от noxon.su Посмотреть сообщение
    Ну например deaxon.ru делался с использованием этой технологии
    что за партнерка? или свой "платник" ?

  5. #5
    Senior Member Аватар для noxon.su
    Регистрация
    08.09.2009
    Адрес
    Москва - Владивосток
    Сообщений
    1,467
    Поинтов: 1585

    По умолчанию

    Ну как то пытался таким способом монетизировать доску обьявлений. Ниодной смс так и не получил
    что такое минисайт, комментируем. Так же есть блог о сео, и ещё один блог о сео

  6. #6
    Member Аватар для ne0zx
    Регистрация
    02.09.2009
    Сообщений
    79
    Поинтов: 65

    По умолчанию

    я бы не удивился, если бы появилась партнерка с "закажи квартиру всего за 3 смс по 15р"

  7. #7
    Senior Member Аватар для noxon.su
    Регистрация
    08.09.2009
    Адрес
    Москва - Владивосток
    Сообщений
    1,467
    Поинтов: 1585

    По умолчанию

    Нет, на такое бы точно никто не повёлся
    что такое минисайт, комментируем. Так же есть блог о сео, и ещё один блог о сео

  8. #8
    Member
    Регистрация
    16.12.2009
    Сообщений
    49
    Поинтов: 42

    По умолчанию

    А сапа не убьет сайт такой?

  9. #9
    Senior Member Аватар для noxon.su
    Регистрация
    08.09.2009
    Адрес
    Москва - Владивосток
    Сообщений
    1,467
    Поинтов: 1585

    По умолчанию

    Пока вроде живи и здоровы все. Но ссылок мало продано. Продолжаем наблюдение

    Непонял, чё никому не интересно как многостроничники делаются? Одни просмотры, а обсуждения не видно. Я эту статью кучу времени писал
    что такое минисайт, комментируем. Так же есть блог о сео, и ещё один блог о сео

  10. #10
    Junior Member
    Регистрация
    16.12.2009
    Сообщений
    22
    Поинтов: 24

    По умолчанию

    Спасибо, статья отличная !

    Появилась проблема, немогу понять как решить

    Когда я открываю загруженный телепортом html файл NotePad++ и копирую весь код в зону учебного прогона, в TextPipe появляются квадратики вместо некоторых символов, и соответственно ничего не рботает.

    А если открыть html обычным WordPad'ом винды и скопировать тоже весь код в TextPipe, то все нормально работает.

    Файлы сохранены в кодировке ANSI.

    Подскажите чем перекодировать все файлы, в подходящий формат для TextPipe

    Решил проблему так : в TextPipe жмём преобразовать --> Символы конец строки --> Авто выявление
    Последний раз редактировалось Chezar; 12.01.2010 в 21:29.

 
 
Похожие темы Рейтинг Раздел Ответов Последний пост
    php: Парсер своими руками. Теория
     
    Дайджест блогосферы 0 25.12.2009 14:36
    Тренинг-семинар "Продающий текст своими руками"
     
    Реклама 0 30.10.2009 21:50
    Сбор proxy своими руками.
     
    Прочее 33 15.10.2009 21:02
    Парсеры новостей
     
    Софт, скрипты, сервисы 6 17.09.2009 01:37
    Прокси своими руками. Делаем
     
    Софт, скрипты, сервисы 8 16.09.2009 16:33
Сейчас на сайте:
пользователей и 
129
 гостей
Пользователей:
6,031
Сообщений:
97,161
Тем:
6,096
Футболка webmasters бесплатно