Парсинг google
Нагляднее всего работает бесплатный парсер Байрона. Ещё нам понадобится список доменных зон интернет и бесплатная программа Befouler (cтрокоизвращатель). Скачать ее можно на любом варезнике.
Берём файл список доменных зон, "скармливаем" его Строкоизвращателю. Добавляем впереди каждой строки inurl:minibbs.cgi site:.
Полученный список добавляем в Парсер Байрона. Задержку нужно ставить 11 секунд (11000 мс.). Парсер Байрона хорош тем, что после определённого количества запросов google предложит ввести капчу, и мы сможем это сделать в нижнем фрейме. Также нужно периодически чистить кукисы.
Для того, чтобы углубить парсинг, нужно к запросам добавить дату, год:
0, 00, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 2009, 2008, 2007, 2006, 2005, 2004, 2003, 2002, 2001 и т.д.
Или слова из словаря 100 самых популярных английских (японских, эстонских, корейских) слов.
Дополнительные запросы для парсинга:
site:*com - в зоне .com без дефиса в имени домена
site:com -site:*com - в зоне com с одним или несколькими дефисами в имени домена
site:*-*com только домены с одним дефисом в имени домена
site:*-*-*com только домены с двумя дефисами в имени домена
site:*-*...-*com только домены с N кол-вом дефисов в имени домена
site:com -site:*com -site:*-*com -site:*-*-*com только домены с двумя дефисами подряд или с тремя и более дефисами в имени домена
site:*.*com только домены с одной точкой в имени домена (сабдомены)
site:*.*.*com только домены с двумя точками в имени домена
site:*.*...*.*com только домены с N кол-вом точек в имени домена
site:com/* в адресе одна и более поддиректорий
site:com/*/* в адресе есть 2 поддиреторий
site:com/*/*/* в адресе есть 3 поддиреторий
site:com/*/*.../* в адресе есть n поддиреторий
Вот еще полный список операторов.
Признаки парсинга
Признаки парсинга можно собрать у любого дорвея фарма-тематики из TOP10Google, используя запросы приведенные выше в "Мониторим бонусные хосты". Незаюзанные признаки для парсинга будут выложены в закрытом разделе нашего форума.
Парсинг беклинков
Для парсинга беклинков будем использовать поисковую систему yahoo.com. Запрос имеет вид:
link:www.movabletype.org/members/bettyclay. Парсить беклинки можно с помощью бесплатной программы Aggress Parser. Для того, чтобы Aggress Parser парсил Yahoo, его надо настроить. Для этого в папку C:\Program Files\AGGRESS\Parser\search кладём файл YahooB.txt с содержимым:
url-
AbsoluteUrl-http://siteexplorer.search.yahoo.com/search?p={REQUEST}&bwm=i&bwmf=u&bwms=p&fr2=seo-rd-se
UntilTextAfter-<span class="type">text/html</span> <span class="url">{TEXT}</span>
UntilNextLinkAfter-class="last next"><a class="btn" href="{NEXTLINK}"
Pattern-{TEXT}
- В папке search находяться файлы настроек для парсинга (Google.txt Yahoo.txt и т.д.)
- AbsoluteUrl- это первый урл на который зайдет парсер, макроподстановкой {REQUEST} можно подставить запрос.
- UntilTextAfter-<a href=”{TEXT}” это то что парситься, то есть парсер выдерет все между <a href=” и “.
- UntilNextLinkAfter-<a href="{NEXTLINK}" Ссылка на следующую страницу
- Url- подставляеться перед напарсеным следующим урлом, то есть если напарсеный урл неполный например /search.php=asdf, то сюда нужно написать http://google.com.
- Pattern-{TEXT}{BLACKWORD(www.yahoo.com/|%25} - Убрать строки, содержащие такие знаки, то есть www.yahoo.com/ и %25
Для повышения скорости парсинга, можно очистить содержимое файла: C:\Program Files\AGGRESS\Parser\system\topdomains.txt. Для успешной работы нужно выставлять параметры:
Время между запросами - 11, Time Out - 11.
Базу фильтровать на наличие дублей, можно также с помощью программы Aggress Parser:
Для того, чтобы дорвей вылез сразу и на хорошие позиции нужно собирать базу по признакам а не по чужим беклинкам.
Наказание за ссылки
- мерцание ссылок - большая часть входящих на дорвей ссылок была удалена владельцами сайтов, или перемещена на другую страницу, до того, как дорвей занял позиции в выдаче
- ссылки с линкопомойки - определение смотри выше.
- много ссылок с высоким PR - фильтр "покупные ссылки"
- ссылки на дорвей расставлялись в неправильном темпе - фильтр "покупные ссылки"
Текст ссылки
Никто не отменял "точное вхождение", поэтому все ссылки на один дорвей можно делать с одинаковым текстом. Но лучше 5% ссылок сделать по дополнительным кеям вашего дорвея. Например 75% ссылок "viagra", 2% "buy viagra", 3% "viagra online". Считается оптимальным спамить блоком ссылок по 2-6 ссылки в блоке. Между ссылками знак препинания, 1 или 2 слова. Не принято спамить списком <ol>, <ul> (в том месте, где разрешён html или AGCode) - т.к. Google может посчитать ваш блок ссылок оформленный в виде списка - элементом меню.
Софт для парсинга
Allsubmitter - Отличное ПО для парсинга поисковых систем, хранения и сортировки баз, определения PR, автоматического и ручного постинга.
Xkovator - неплохой парсер.
- 22.09.2010 20:48
« Хосты | Куда залить свой фид? »
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
Ссылки на всегда и помесячные ссылки, немного цифр | Дайджест блогосферы | 17 | 11.10.2011 23:58 |
Ссылки с редиректом | Общие вопросы поисковой оптимизации | 11 | 12.08.2011 18:59 |
Бесплатные ссылки | Дайджест блогосферы | 6 | 21.07.2010 13:00 |
Интересные темы
парсер запросов
Где можно скачать или взять готовые скрипты парсера запросов, какой лучше использовать, читайте подробнее.