Делаем парсеры контента своими руками - Webmasters.ru - RSS http://webmasters.ru/forum/showthread.php?t=3818 SEO форум вебмастеров - Поисковые системы, оптимизация, раскрутка сайта, оптимизация и продвижение сайта в поисковых системах 1743606143 Elesite CMS 60 http://webmasters.ru/forum/images/wm/misc/rss.png SEO форум вебмастеров Webmasters.ru http://webmasters.ru/forum Делаем парсеры контента своими руками by noxon.su http://webmasters.ru/forum/showpost.php?p=74429 Sun, 13 Dec 2009 20:54:09 GMT всевозможные доски объявлений, со спаршеным контентом живут в индексе яндекса превосходно. Несмотря на то, что инфа на многих досках дублируется, яндекс не выкидывает их из индекса, до тех пор пока вебмастер в силу природной жадности не начинает размещать всякие попандеры и прочую хрень. Итак сейчас я покажу вам на примере, как можно быстро без особых усили и не имея навыков программирования создать такую вот досочку, скажем на 500 страниц. Для того, что бы исключить непонятки - поясню, что под парсером я имею в виду некую прогу которая тырит контент и делает его удобоимпортируемым в наш дизайн. Итак начнём. Для начала давайте выберем "жертву", пусть это будет какая ни будь отдельная рубрика Яндекс.каталога (о том, как разделять спаршенный контент, расскажу в слудующей статье, пока у нас будет одна категория). Скачиваем рубрику "как есть" прогой Teleport Pro (бесплатная, делает дубликаты сайтов). качаем только контент без сохранения структуры и картинок. Это просто. Далее выбираем движок. Предлагаю использовать DLE, устанавливаем его на денвер или на хостинг. Заходим в используемую базу, откываем таблицу где храняться все записи (в DLE это таблица dle_post в других движках другие) http://webmasters.ru/forum/attachment.php?attachmentid=401&stc=1&d=1260737245 В DLE нужно заполнить как минимум четыре поля: Заголовок:title Автор:autor Короткий текст:short_story Полный текст:full_story Составляем заготовку slq запроса (для тех, кто не вкурсе - это написанная на языке sql инструкция, которую можно скопировать во вкладку slq в phpmyadmin и она что то там сделает с базой. При помощи sql запросов можно работать с базой напрямую, без всяких навороченых админок с визуальными редакторами) она будет выглядеть так: INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('','admin','','') Оставляем вкладку с phpmyadmin пока открытой и ищем прогу text pipe pro. Утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой. В TextPipe Pro встроено почти полторы сотни фильтров. линк на демо (http://www.izone.ru/text/utilities/textpipe-pro.htm) Где вы её найдёте, думайте сами. Но в демоверсии ограничение максимум на 100 обработанных файлов. Открываем, сразу запускаем мастер фильтров Выбираем самый верхний фильтр "Поиск и замена по схеме". http://webmasters.ru/forum/attachment.php?attachmentid=403&stc=1&d=1260737353 теперь подходим к самому основному - создание схемы по которой прога и будет выдирать нужную нам инфу. Писать мы будем на регулярных выражениях, точнее используем самую простую схему. Открываем наш яндекс каталог в виде html и копируем кусок html кода который содержит заголовок и описание (собсно то. что нам и нужно) http://webmasters.ru/forum/attachment.php?attachmentid=404&stc=1&d=1260737353 "r(this, 'ctya')">"Яндекс" - поисковая система по русскому интернету Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций. Теперь нужную нам текстовую информацию заменяем вот таким образом "r\(this, 'ctya'\)">(.*?)(.*?) (.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё. Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия" В поле замена на пишем наш sql запрос INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2') Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым. у вас должно быть что то типа такого: http://webmasters.ru/forum/attachment.php?attachmentid=405&stc=1&d=1260737353 На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок. http://webmasters.ru/forum/attachment.php?attachmentid=407&stc=1&d=1260737605 Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл". На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем! Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово! "Яндекс" - поисковая система по русскому интернету
Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.
Теперь нужную нам текстовую информацию заменяем вот таким образом "r\(this, 'ctya'\)">(.*?)
(.*?)
(.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё. Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия" В поле замена на пишем наш sql запрос INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2') Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым. у вас должно быть что то типа такого: http://webmasters.ru/forum/attachment.php?attachmentid=405&stc=1&d=1260737353 На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок. http://webmasters.ru/forum/attachment.php?attachmentid=407&stc=1&d=1260737605 Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл". На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем! Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово!]]> Делаем парсеры контента своими руками by EvilGomel http://webmasters.ru/forum/showpost.php?p=74608 Mon, 14 Dec 2009 17:33:05 GMT Можно пример такого сайта? Делаем парсеры контента своими руками by noxon.su http://webmasters.ru/forum/showpost.php?p=74648 Mon, 14 Dec 2009 18:40:37 GMT Ну например deaxon.ru делался с использованием этой технологии Делаем парсеры контента своими руками by ne0zx http://webmasters.ru/forum/showpost.php?p=74749 Mon, 14 Dec 2009 20:18:20 GMT Ну например deaxon.ru делался с использованием этой технологии что за партнерка? или свой "платник" ? Делаем парсеры контента своими руками by noxon.su http://webmasters.ru/forum/showpost.php?p=74802 Mon, 14 Dec 2009 21:30:56 GMT Ну как то пытался таким способом монетизировать доску обьявлений. Ниодной смс так и не получил :) Делаем парсеры контента своими руками by ne0zx http://webmasters.ru/forum/showpost.php?p=74931 Tue, 15 Dec 2009 08:57:58 GMT я бы не удивился, если бы появилась партнерка с "закажи квартиру всего за 3 смс по 15р" Делаем парсеры контента своими руками by noxon.su http://webmasters.ru/forum/showpost.php?p=75451 Wed, 16 Dec 2009 18:42:14 GMT Нет, на такое бы точно никто не повёлся :) Делаем парсеры контента своими руками by Tilad http://webmasters.ru/forum/showpost.php?p=77584 Thu, 24 Dec 2009 22:36:46 GMT А сапа не убьет сайт такой? Делаем парсеры контента своими руками by noxon.su http://webmasters.ru/forum/showpost.php?p=78228 Sun, 27 Dec 2009 12:42:56 GMT Пока вроде живи и здоровы все. Но ссылок мало продано. Продолжаем наблюдение :) Непонял, чё никому не интересно как многостроничники делаются? Одни просмотры, а обсуждения не видно. Я эту статью кучу времени писал :) Делаем парсеры контента своими руками by Chezar http://webmasters.ru/forum/showpost.php?p=82474 Tue, 12 Jan 2010 19:21:40 GMT Спасибо, статья отличная ! Появилась проблема, немогу понять как решить Когда я открываю загруженный телепортом html файл NotePad++ и копирую весь код в зону учебного прогона, в TextPipe появляются квадратики вместо некоторых символов, и соответственно ничего не рботает. А если открыть html обычным WordPad'ом винды и скопировать тоже весь код в TextPipe, то все нормально работает. Файлы сохранены в кодировке ANSI. Подскажите чем перекодировать все файлы, в подходящий формат для TextPipe Решил проблему так : в TextPipe жмём преобразовать --> Символы конец строки --> Авто выявление Символы конец строки --> Авто выявление]]> Делаем парсеры контента своими руками by noxon.su http://webmasters.ru/forum/showpost.php?p=114819 Thu, 07 Oct 2010 10:20:06 GMT странно, при чём тут символы конца строки?)) Делаем парсеры контента своими руками by dfanat http://webmasters.ru/forum/showpost.php?p=129739 Sun, 13 Feb 2011 23:43:00 GMT не работает у меня файлы ... Пойми её просто... её не держи.. Она.. как все кошки... не знает любви заменяю на (.*?) вывод получается такой INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('достало чувство ненужности ... этой грёбанной собственной ненужности в понедельник утром начинаешь завидовать отчисленным и безработным... Ничто не увлекает женщин больше, чем обещания. у меня недостаточно средств содержать совесть!','admin','достало чувство ненужности ... этой грёбанной собственной ненужности в понедельник утром начинаешь завидовать отчисленным и безработным... Ничто не увлекает женщин больше, чем обещания. у меня недостаточно средств содержать совесть!','достало чувство ненужности ... этой грёбанной собственной ненужности в понедельник утром начинаешь завидовать отчисленным и безработным... Ничто не увлекает женщин больше, чем обещания. у меня недостаточно средств содержать совесть!') ... Пойми её просто... её не держи.. Она.. как все кошки... не знает любви заменяю на (.*?) вывод получается такой INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('достало чувство ненужности ... этой грёбанной собственной ненужности в понедельник утром начинаешь завидовать отчисленным и безработным... Ничто не увлекает женщин больше, чем обещания. у меня недостаточно средств содержать совесть!','admin','достало чувство ненужности ... этой грёбанной собственной ненужности в понедельник утром начинаешь завидовать отчисленным и безработным... Ничто не увлекает женщин больше, чем обещания. у меня недостаточно средств содержать совесть!','достало чувство ненужности ... этой грёбанной собственной ненужности в понедельник утром начинаешь завидовать отчисленным и безработным... Ничто не увлекает женщин больше, чем обещания. у меня недостаточно средств содержать совесть!')]]> Делаем парсеры контента своими руками by mzhk93 http://webmasters.ru/forum/showpost.php?p=482985 Fri, 28 Jun 2013 11:29:33 GMT Ребятки, ткните носом, где достать полную версию textpipe pro ! Делаем парсеры контента своими руками by Kenars http://webmasters.ru/forum/showpost.php?p=553517 Mon, 16 Dec 2013 17:29:34 GMT библиотека SimpleHTMLDOM в php+ прямые руки = парсер любого сайта любой изощренности максимум за 4 часа легкой и увлекательной работы. Делаем парсеры контента своими руками by ggkettle http://webmasters.ru/forum/showpost.php?p=553617 Mon, 16 Dec 2013 20:26:40 GMT спасибо конечно за статью, но ожидал увидеть парсер на языке PHP. библиотека SimpleHTMLDOM в php+ прямые руки = парсер любого сайта любой изощренности максимум за 4 часа легкой и увлекательной работы. Вот такой бы:D