Делаем парсеры контента своими руками - Webmasters.ru - RSS
http://webmasters.ru/forum/showthread.php?t=3818
SEO форум вебмастеров - Поисковые системы, оптимизация, раскрутка сайта, оптимизация и продвижение сайта в поисковых системах1743606143Elesite CMS60http://webmasters.ru/forum/images/wm/misc/rss.pngSEO форум вебмастеров Webmasters.ru
http://webmasters.ru/forum
Делаем парсеры контента своими руками by noxon.su
http://webmasters.ru/forum/showpost.php?p=74429
Sun, 13 Dec 2009 20:54:09 GMTвсевозможные доски объявлений, со спаршеным контентом живут в индексе яндекса превосходно. Несмотря на то, что инфа на многих досках дублируется, яндекс не выкидывает их из индекса, до тех пор пока вебмастер в силу природной жадности не начинает размещать всякие попандеры и прочую хрень.
Итак сейчас я покажу вам на примере, как можно быстро без особых усили и не имея навыков программирования создать такую вот досочку, скажем на 500 страниц.
Для того, что бы исключить непонятки - поясню, что под парсером я имею в виду некую прогу которая тырит контент и делает его удобоимпортируемым в наш дизайн.
Итак начнём. Для начала давайте выберем "жертву", пусть это будет какая ни будь отдельная рубрика Яндекс.каталога (о том, как разделять спаршенный контент, расскажу в слудующей статье, пока у нас будет одна категория).
Скачиваем рубрику "как есть" прогой Teleport Pro (бесплатная, делает дубликаты сайтов). качаем только контент без сохранения структуры и картинок. Это просто.
Далее выбираем движок. Предлагаю использовать DLE, устанавливаем его на денвер или на хостинг. Заходим в используемую базу, откываем таблицу где храняться все записи (в DLE это таблица dle_post в других движках другие)
http://webmasters.ru/forum/attachment.php?attachmentid=401&stc=1&d=1260737245
В DLE нужно заполнить как минимум четыре поля:
Заголовок:title
Автор:autor
Короткий текст:short_story
Полный текст:full_story
Составляем заготовку slq запроса (для тех, кто не вкурсе - это написанная на языке sql инструкция, которую можно скопировать во вкладку slq в phpmyadmin и она что то там сделает с базой. При помощи sql запросов можно работать с базой напрямую, без всяких навороченых админок с визуальными редакторами)
она будет выглядеть так:
INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('','admin','','')
Оставляем вкладку с phpmyadmin пока открытой и ищем прогу text pipe pro.
Утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой. В TextPipe Pro встроено почти полторы сотни фильтров. линк на демо (http://www.izone.ru/text/utilities/textpipe-pro.htm)
Где вы её найдёте, думайте сами. Но в демоверсии ограничение максимум на 100 обработанных файлов.
Открываем, сразу запускаем мастер фильтров
Выбираем самый верхний фильтр "Поиск и замена по схеме".
http://webmasters.ru/forum/attachment.php?attachmentid=403&stc=1&d=1260737353
теперь подходим к самому основному - создание схемы по которой прога и будет выдирать нужную нам инфу. Писать мы будем на регулярных выражениях, точнее используем самую простую схему.
Открываем наш яндекс каталог в виде html и копируем кусок html кода который содержит заголовок и описание (собсно то. что нам и нужно)
http://webmasters.ru/forum/attachment.php?attachmentid=404&stc=1&d=1260737353
"r(this, 'ctya')">"Яндекс" - поисковая система по русскому интернету Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.
Теперь нужную нам текстовую информацию заменяем вот таким образом
"r\(this, 'ctya'\)">(.*?)(.*?)
(.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё.
Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия"
В поле замена на пишем наш sql запрос
INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2')
Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым.
у вас должно быть что то типа такого:
http://webmasters.ru/forum/attachment.php?attachmentid=405&stc=1&d=1260737353
На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок.
http://webmasters.ru/forum/attachment.php?attachmentid=407&stc=1&d=1260737605
Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл".
На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем!
Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово!"Яндекс" - поисковая система по русскому интернету Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.
Теперь нужную нам текстовую информацию заменяем вот таким образом
"r\(this, 'ctya'\)">(.*?) (.*?)
(.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё.
Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия"
В поле замена на пишем наш sql запрос
INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2')
Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым.
у вас должно быть что то типа такого:
http://webmasters.ru/forum/attachment.php?attachmentid=405&stc=1&d=1260737353
На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок.
http://webmasters.ru/forum/attachment.php?attachmentid=407&stc=1&d=1260737605
Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл".
На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем!
Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово!]]>
Делаем парсеры контента своими руками by EvilGomel
http://webmasters.ru/forum/showpost.php?p=74608
Mon, 14 Dec 2009 17:33:05 GMTМожно пример такого сайта?Делаем парсеры контента своими руками by noxon.su
http://webmasters.ru/forum/showpost.php?p=74648
Mon, 14 Dec 2009 18:40:37 GMTНу например deaxon.ru делался с использованием этой технологииДелаем парсеры контента своими руками by ne0zx
http://webmasters.ru/forum/showpost.php?p=74749
Mon, 14 Dec 2009 20:18:20 GMTНу например deaxon.ru делался с использованием этой технологии
что за партнерка? или свой "платник" ?Делаем парсеры контента своими руками by noxon.su
http://webmasters.ru/forum/showpost.php?p=74802
Mon, 14 Dec 2009 21:30:56 GMTНу как то пытался таким способом монетизировать доску обьявлений. Ниодной смс так и не получил :)Делаем парсеры контента своими руками by ne0zx
http://webmasters.ru/forum/showpost.php?p=74931
Tue, 15 Dec 2009 08:57:58 GMTя бы не удивился, если бы появилась партнерка с "закажи квартиру всего за 3 смс по 15р"Делаем парсеры контента своими руками by noxon.su
http://webmasters.ru/forum/showpost.php?p=75451
Wed, 16 Dec 2009 18:42:14 GMTНет, на такое бы точно никто не повёлся :)Делаем парсеры контента своими руками by Tilad
http://webmasters.ru/forum/showpost.php?p=77584
Thu, 24 Dec 2009 22:36:46 GMTА сапа не убьет сайт такой?Делаем парсеры контента своими руками by noxon.su
http://webmasters.ru/forum/showpost.php?p=78228
Sun, 27 Dec 2009 12:42:56 GMTПока вроде живи и здоровы все. Но ссылок мало продано. Продолжаем наблюдение :)
Непонял, чё никому не интересно как многостроничники делаются? Одни просмотры, а обсуждения не видно. Я эту статью кучу времени писал :)Делаем парсеры контента своими руками by Chezar
http://webmasters.ru/forum/showpost.php?p=82474
Tue, 12 Jan 2010 19:21:40 GMTСпасибо, статья отличная !
Появилась проблема, немогу понять как решить
Когда я открываю загруженный телепортом html файл NotePad++ и копирую весь код в зону учебного прогона, в TextPipe появляются квадратики вместо некоторых символов, и соответственно ничего не рботает.
А если открыть html обычным WordPad'ом винды и скопировать тоже весь код в TextPipe, то все нормально работает.
Файлы сохранены в кодировке ANSI.
Подскажите чем перекодировать все файлы, в подходящий формат для TextPipe
Решил проблему так : в TextPipe жмём преобразовать --> Символы конец строки --> Авто выявление Символы конец строки --> Авто выявление]]>Делаем парсеры контента своими руками by noxon.su
http://webmasters.ru/forum/showpost.php?p=114819
Thu, 07 Oct 2010 10:20:06 GMTстранно, при чём тут символы конца строки?))Делаем парсеры контента своими руками by dfanat
http://webmasters.ru/forum/showpost.php?p=129739
Sun, 13 Feb 2011 23:43:00 GMTне работает у меня файлы
... Пойми её просто... её не держи.. Она.. как все кошки... не знает любви заменяю на
(.*?)
вывод получается такой
INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('достало чувство ненужности ... этой грёбанной собственной ненужности
в понедельник утром начинаешь завидовать отчисленным и безработным...
Ничто не увлекает женщин больше, чем обещания.
у меня недостаточно средств содержать совесть!','admin','достало чувство ненужности ... этой грёбанной собственной ненужности
в понедельник утром начинаешь завидовать отчисленным и безработным...
Ничто не увлекает женщин больше, чем обещания.
у меня недостаточно средств содержать совесть!','достало чувство ненужности ... этой грёбанной собственной ненужности
в понедельник утром начинаешь завидовать отчисленным и безработным...
Ничто не увлекает женщин больше, чем обещания.
у меня недостаточно средств содержать совесть!')... Пойми её просто... её не держи.. Она.. как все кошки... не знает любви заменяю на
(.*?)
вывод получается такой
INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('достало чувство ненужности ... этой грёбанной собственной ненужности
в понедельник утром начинаешь завидовать отчисленным и безработным...Ничто не увлекает женщин больше, чем обещания.у меня недостаточно средств содержать совесть!','admin','достало чувство ненужности ... этой грёбанной собственной ненужностив понедельник утром начинаешь завидовать отчисленным и безработным...Ничто не увлекает женщин больше, чем обещания.у меня недостаточно средств содержать совесть!','достало чувство ненужности ... этой грёбанной собственной ненужностив понедельник утром начинаешь завидовать отчисленным и безработным...Ничто не увлекает женщин больше, чем обещания.у меня недостаточно средств содержать совесть!')]]>Делаем парсеры контента своими руками by mzhk93
http://webmasters.ru/forum/showpost.php?p=482985
Fri, 28 Jun 2013 11:29:33 GMTРебятки, ткните носом, где достать полную версию textpipe pro !Делаем парсеры контента своими руками by Kenars
http://webmasters.ru/forum/showpost.php?p=553517
Mon, 16 Dec 2013 17:29:34 GMTбиблиотека SimpleHTMLDOM в php+ прямые руки = парсер любого сайта любой изощренности максимум за 4 часа легкой и увлекательной работы.Делаем парсеры контента своими руками by ggkettle
http://webmasters.ru/forum/showpost.php?p=553617
Mon, 16 Dec 2013 20:26:40 GMTспасибо конечно за статью, но ожидал увидеть парсер на языке PHP.
библиотека SimpleHTMLDOM в php+ прямые руки = парсер любого сайта любой изощренности максимум за 4 часа легкой и увлекательной работы.
Вот такой бы:D