| всевозможные доски объявлений, со спаршеным контентом живут в индексе яндекса превосходно. Несмотря на то, что инфа на многих досках дублируется, яндекс не выкидывает их из индекса, до тех пор пока вебмастер в силу природной жадности не начинает размещать всякие попандеры и прочую хрень.
Итак сейчас я покажу вам на примере, как можно быстро без особых усили и не имея навыков программирования создать такую вот досочку, скажем на 500 страниц.
Для того, что бы исключить непонятки - поясню, что под парсером я имею в виду некую прогу которая тырит контент и делает его удобоимпортируемым в наш дизайн.
Итак начнём. Для начала давайте выберем "жертву", пусть это будет какая ни будь отдельная рубрика Яндекс.каталога (о том, как разделять спаршенный контент, расскажу в слудующей статье, пока у нас будет одна категория).
Скачиваем рубрику "как есть" прогой Teleport Pro (бесплатная, делает дубликаты сайтов). качаем только контент без сохранения структуры и картинок. Это просто.
Далее выбираем движок. Предлагаю использовать DLE, устанавливаем его на денвер или на хостинг. Заходим в используемую базу, откываем таблицу где храняться все записи (в DLE это таблица dle_post в других движках другие)

В DLE нужно заполнить как минимум четыре поля: Заголовок:title Автор:autor Короткий текст:short_story Полный текст:full_story
Составляем заготовку slq запроса (для тех, кто не вкурсе - это написанная на языке sql инструкция, которую можно скопировать во вкладку slq в phpmyadmin и она что то там сделает с базой. При помощи sql запросов можно работать с базой напрямую, без всяких навороченых админок с визуальными редакторами)
она будет выглядеть так:
Код: INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('','admin','','') Оставляем вкладку с phpmyadmin пока открытой и ищем прогу text pipe pro.
Утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой. В TextPipe Pro встроено почти полторы сотни фильтров. линк на демо Где вы её найдёте, думайте сами. Но в демоверсии ограничение максимум на 100 обработанных файлов.
Открываем, сразу запускаем мастер фильтров
Выбираем самый верхний фильтр "Поиск и замена по схеме".

теперь подходим к самому основному - создание схемы по которой прога и будет выдирать нужную нам инфу. Писать мы будем на регулярных выражениях, точнее используем самую простую схему.
Открываем наш яндекс каталог в виде html и копируем кусок html кода который содержит заголовок и описание (собсно то. что нам и нужно)

Код: "r(this, 'ctya')">"Яндекс" - поисковая система по русскому интернету </a><br>Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.<div class="url"> Теперь нужную нам текстовую информацию заменяем вот таким образом
Код: "r\(this, 'ctya'\)">(.*?)</a><br>(.*?)<div class="url"> (.*?) - на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря - то что надо. Обратите внимание на слэши перед "нормальными" скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё.
Скидываем это всё в поле "найти схему", предварительно в выпадающем списке выбрав тип поиска - Схема perl, а внизу поставить галку "Извлечь соответсвия"
В поле замена на пишем наш sql запрос
Код: INSERT INTO dle_post (title,autor,short_story,full_story) VALUES ('$1','admin','$2','$2') Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого "(.*?)" и второго "(.*?)" соответсвенно. Как видим полное и краткое описание у меня будет одинаковым.
у вас должно быть что то типа такого:

На вкладке "Зона учебного прогона", в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём "Тестовый прогон", если получилось что то типа этого, значит всё ок.

Возвращаемся на первую вкладку, Файл вывода ставим "выводить в один файл".
На вкладке "файлов в обработке", указываем папку куда скачали сайт через teleport pro. Запускаем!
Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово! |