В потугах податься в дорвейно-фармовый бизнес пришлось перечитать тонны материалов описывающих весь этот процесс и везде пишут одно и тоже - в трех словах "парсим ключи, чистим, делаем шаб для дора, генерим, заливаем, спамим", только где-то больше написано, где-то меньше, но суть одна и та же. Особенно нравится фразы типа "спарсенные ключевики чистим на предмет мусора". Скажите как понять что тот или иной кей мусорный? Непонятно. Так вот, к чему это я? Дабы не забивать себе голову "степенью мусорности" ключей и не тратить драгоценное время на эксперименты типа "такие ключи более конвертабельны, эти нет и т.п.", предлагаю собрать базу уже готовых, вкусных и очищенных ключиков. Да, это откровенной воды воровство, ну а что делать? Не мы такие, жизнь такая (с)
Итак, откуда же мы будем дергать наши заветные чистенькие ключики? Конечно же с чужих доров сидящих в топе. Выдача поисковика - наш лучший друг. Пути тут два, либо сами идем в Google и по нужным нам запросам, например "viagra online" находим дор, либо берем незаменимую вещь - AggressParser (скачать можно тут: http://vector-seo.info/parser/setup.exe) и собираем базу урлов доров, с которых будем брать кеи. Да, кстати, забыл пожалуй про самое главное - практически каждый дорвей имеет такую замечательную страницу map.html или sitemap.html, где наши ключики лежат как на блюдичке, нам остается только их оттуда забрать. Поэтому собирать базу претендентов на кражу будем следующим образом: 1) запускаем наш скачанный и установленный AggressParser, выбираем в поле "поисковик" Google.txt, а в поле "запросы" добавляем запросы следующего вида: buy viagra inurl:map.html viagra online: map.html buy viagra online inurl:sitemap.html ......и т.д. и т.п.
2) жмем кнопку "Запуск" и ожидаем...долго ожидаем. 3) когда парсер завершит работу, пишем название файла куда мы сохраним нашу базу, и нажимаем кнопку "сохранить"
Отлично! Первый шаг мы успешно преодолели. Теперь переходим к выдиранию наших ключей. Для этого нам понадобится написать небольший скрипт на php, либо воспользоваться готовыми парсерами контента (WebInfoExtractor и т.п.) Лично я не разу не понял как работает этот монстр и сваял свой небольшой скриптик на php. Что нам требуется от скрипта - нужно чтобы скрипт ходил по урлам из нашей собранной базы и выдергивал текст между тегами по признаку:
Код HTML:
<li><a href="something">наш ключ</a></li>
. По своей сути, подавляющее большинство страниц map.html представляют собой простейшую html страничку, где находится список ссылок на все страницы дора, соответственно с ключевиками, как было написано выше. (признаки для парсинга могут быть и другие, это всего лишь пример) наш скрипт будет выглядеть примерно следующим образом:
да, для работы этой вот штуки нужно установить денвер на локаль, либо запускать ее на хостинге, кому как нравится. итак, скрипт написан, тхт-файл с нашей базой урлов, лежит в папке скрипта, приступаем к глобальной краже - запускаем наш скрипт и ждем...ждем...ждем... по окончанию работы скрипта, в папке Вы обнаружете файл result.txt, в котором и будут лежать наши ключики. (программер с меня абсолютно не кудышний, так что не пинать мол "чувак иди учи пхп и т.п., сделал абы работало) Шикарно! Остался завершающий момент - Чистка. В этом нам поможет замечательная вещь - KeyWordKeeper от Newox ( качаем тут: http://newox.ru/kwk.php) Запускаем KWK, добавляем туда наш файл c ключами, очищаем на дубли, и чистим на наличие всяких <img><span> и т.п. Собственно говоря все. У нас готова база ключей, над которыми не нужно ломать голову - "а этот мусорный, а этот нет". Юзаем
п.с. может способ и кривой и воровать - это плохо, но увы это Интернет... п.п.с способ, а именно техническая не претендует на номинацию "ноу-хау", основная цель поведать принцип, а дальше все в Ваших руках. п.п.п.с. если что извините за ошибки
Последний раз редактировалось iskand3r; 11.09.2009 в 00:15.
Где-то на сёрче один добрый человек предложил яваскрипт в одну строчку, который из страницы делает список урлов (отлично для ручного парсинга гугла и яхи подходит). Сам скрипт javascript:all=document.links.length;mass='<b>Вс его ссылок на странице:\u0020'+all+'</b><br><br>\n';for(i=0;i<all;i++){mass+=document.li nks[i]+'<br>\n';}newwind=window.open('about:blank','resu lt','width=600,top=100,left=100,scrollbars=1');new wind.document.write(mass);
Его небольшая модификация для этой задачи даёт офигенный результат. Работает стократно быстрей. Если дор большой то ключей сразу будет очень много.
А смысл парсить тучу карт? У меня по виагре 6К запросов. Большая часть доров содержит почти все эти ключи. Хотя бы поэтому, я считаю что достаточно пары тройки доров чтобы вытянуть нефиговый список ключей (а в идеале и почищенный будет уже).
2iskand3r Там действительно ключей много больше, где-то на порядок. Но я свои ключи пополняю 1-2 раза в месяц выдирая из пары тройки больших доров. Меньше времени на чистку и сортировку уходит.
У меня ещё технически проблемная сторона вопроса в использовании массового парсинга и всех прочих трафикотребовательных методов — сам трафик. На 128кбит/сек приходится изгаляться чтобы получать большое количество данных.