Как правильно парсить и чем парсить по моим запросам.

(Ответов: 21, Просмотров: 28158)
Страница 1 из 3 123 Последняя
  1. Гуру Аватар для BABBLS
    • Регистрация: 04.09.2009
    • Сообщений: 756
    • Репутация: 33
    У меня многие спрашивают, как правильно парсить по твоим запроса, чем парсить и как максимально из них выжать все ресурсы.
    И я с этим решил создать небольшую статью, где я объясню как и чем парсить по моим запросам, чтобы выжать максимальное количество ресурсов.

    Введение.

    Начнем я думаю вот с чего.
    Что именно Вы увидите в моих запросах после покупки.
    Все мои запросы распределены на “Уникальные” запросы и запросы “C Подстановками” операторов.
    Уникальные запросы для парсинга – это запросы, которые имеют вид inurl:”guestbook.php” либо "/guestbook.php " -intext"/guestbook.php" выдача немного отличается у этих запросов, но они оба уникальные запросы.
    Запросы с подстановками операторов intext и intitle. Эти операторы используются для того чтобы, максимальное количество ресурсов собрать с уникального запроса.
    К примеру если Вы будете обращаться к уникальному запросу inurl:”guestbook.php”, то Вы по нему можете собрать только 1к результатов, т.к. Google больше 1000 результатов не выдает. А если вы обратитесь к Google с этим же уникальным запросов inurl:”guestbook.php”, но с операторами, типа inurl:”guestbook.php” intitle:”GuestBook”, то вы рубеж 1000 результатов обойдете, и вы уже соберете 2к уникальных ресурсов. И чем больше таких операторов вы подставляете к своим уникальным запросам, тем больше Вы соберете уникальных ресурсов, в моих запросах таких операторов очень большое количество, как и уникальных запросов.

    Также мои запросы распределены по количеству результатов в Google (это очень долгая и муторная работа).
    От 1000 результатов в выдаче Google и больше 1000 результатов.
    Это было сделано для экономии времени при парсинге.
    К примеру запросы у которых до 1000 результатов в выдаче Google, по ним нельзя больше 1к результатов собрать к ним не имеет смысла подставлять к примеру доменные зоны, типа site:.com и т.д.. просто нет смысла в этом. Вы все ровно больше уже не соберете.
    А те запросы у которых больше 1000 результатов в выдаче Google к ним можно подставлять доменные зоны и не только… чтоб собрать как можно больше ресурсов.

    Я все делаю, для того чтобы Вы экономили свое время.
    Чтобы собрать запросы такие как у меня уйдет не один месяц, а еще их надо прочекать на результаты в Google, я Вам предлагаю уже готовое решение.
    Все ради Вас мои дорогие клиенты.



    Глава номер 1.
    Чем парсить и как парсить.

    Парсинг Xcovator’om.
    На мой взгляд, это одна из лучшим парсилок из тех которые есть.
    Её самые лучшие качества – это то, что она умеет хорошо работать с проксями, и собирать массу уникальных ресурсов без всяких тормозов.
    Плохие качества – это то, что она очень - много жрет памяти процессора. Загруженность у меня от 50 – 70%. И это ни как нельзя исправить.
    Как правильно парсить, как настроить xcovator, все это и многое другое Вы узнаете ниже.
    - Запускаем Xcovator.
    - Если он у вас еще не активирован, то заходим во вкладку Options вводим логин и пароль, которые Вы приобрели у автора, данного продукта. Ввели данные, перезагружаем xcovator.
    - Для того чтобы нормально парсить Вам нужны хорошие прокси, можно и паблик если нету возможностей купить прокси. Заходим в туже вкладку Options и в окошке File Locations [File Patch / URL] вводим адреса, где находятся листы с прокси.
    - Переходим во вкладку Tasks / Threads List.
    Ставим галочку на модуле Google – т.к. мы будем парсить Google.
    В окошко Search Terms (one per line) вводите запросы, для начала лучше введите запросы которые больше 1000 результатов в выдаче Google.
    Спускаемся немного ниже и видим название Add Zones нажимаем на квадратик рядом с этим названием, и Вам высвечивается окошко, там 69 доменных зон, они нам пригодятся. Ставим рядом с названием Add Zones галочку – это значит что Вы выбрали парсинг с доменными зонами. Так и надо делать если вы решили парсить запросы где больше 1000 результатов в выдаче Google.
    Доменные зоны можно удалять, можно оставлять только те которые Вам нужны.
    Рядом с Add Zones если вкладка Add Words в эту вкладку можно вписывать слова, для еще большего углубления парсинга, но если Вы впишите много слов, то на парсинг уйдет очень много времени, советую пока что использовать только доменные зоны. А когда вы используете все доменные зоны (всего 267 доменные зоны), то можно уже использовать дополнительные слова.
    - Если Вы будете парсить запросы где до 1000 результатов в выдаче Google, то не следует использовать доменные зоны и дополнительные слова, их надо парсить так как они есть.
    - Выставляем потоки Max Threads (максимум 300 потоков) Tries - это попытки, т.е. сколько раз парсер будет пытаться вытащить результаты с запроса, рекомендую ставить 10. Timeout – рекомендую выставить 20. Все остальное оставляете без изменений.
    - Нажимает кнопку START и парсер начинает сам грабить и чекать прокси и по этим проксям собирать результаты с Google.
    - Во в кладке URLs Collection, Вы можете увидеть все собранные ресурсы. Ниже в этой же вкладке Вы можете поставить галочку Unique Domains In The List – если вы эту галочку выставите, то в процессе парсинга xcovator будет чекать напаршенные результаты на уникальность по строке и по домену.


    Парсинг Xrefer’om
    Тоже хороший парсер, идет в комплекте в Xrumer.
    Я Вам для начала расскажу как парсить с помощью Xrefer’a мои запросы где больше 1000 результатов в выдаче в Google.
    - Для начала заходим в папку с хрефером, и находим папку Words туда ложем мои запросы где больше 1000 результатов в Google.
    - Запускаем Xrefer.
    - Переходим во вкладку Options, ставим галочку на Disable filtering harvested links by Filter – это нам не надо т.к. по моим запросам и так собираются уникальные ресурсы.
    Снимаем также галочку с Do not use “Additive words” – это нам надо для того чтобы мы могли использовать дополнительно доменные зоны, это нам надо т.к. мы будем использовать запросы где больше 1000 результатов в Google.
    И я посоветую еще снять галочку на Check for anonymity, т.к. при парсинге Google нам не к чему анонимность.
    Сохраняем настройки.
    - Заходим во вкладку Words database и выбираем там наш файл больше 1000.
    - Нажимаем на следующую вкладку “Additive words database” и там нажимаем на кнопочку “Edit additive words” и в этом окне вставляем доменные зоны. (список доменных зон). Сохраняем.
    - И все мы можем парсить.
    Также делаем и с запросами где до 1000 результатов в выдаче Google, только в опциях ставим галочку на Do not use “Additive words” – это чтобы не использовать доменные зоны.
    P.S. Если Вы приобретаете по моей реф. ссылке Xrumer, то Вы получаете базу запросов для парсинга форумов, бесплатно.


    Продолжение следует)
    • 1

    Спасибо сказали:

  2. Banned
    • Регистрация: 02.09.2009
    • Сообщений: 1,065
    • Репутация: 19
    Хорошая статья. Некоторые ваще очень заинтересовали, именно эксковатор, интересно было почитать о нем, а то мало кто юзает и не пишут ничего о нем) А новичкам - хороший мануал по хреферу! Сенкс вообщем!
    • 0
  3. Гуру Аватар для !alexandr!
    • Регистрация: 24.07.2009
    • Сообщений: 611
    • Репутация: 15
    Спасибо за статью, сам пользуюсь хрефом, очень классный софт, и описание к нему хорошее.
    • 0
  4. Гуру Аватар для BABBLS
    • Регистрация: 04.09.2009
    • Сообщений: 756
    • Репутация: 33
    спасибо:) я рад что вам понравилась статья.
    скоро будет описание работы с аурой
    • 0
  5. Senior Member
    • Регистрация: 04.09.2009
    • Сообщений: 820
    • Репутация: 10
    Спаибо, много интересного и нового написано в статье как для новичка :)
    • 0
  6. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,143
    • Репутация: 104
    О, первое толковое объяснение про парсинг ... спасибо давай ещё .. и ещё мож объяснить какая разница между хрумером и хрефером ?
    • 0
  7. Гуру Аватар для BABBLS
    • Регистрация: 04.09.2009
    • Сообщений: 756
    • Репутация: 33
    Цитата Сообщение от r2d2 Посмотреть сообщение
    О, первое толковое объяснение про парсинг ... спасибо давай ещё .. и ещё мож объяснить какая разница между хрумером и хрефером ?
    может xkovator'om и xrefer'om??
    • 0
  8. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,143
    • Репутация: 104
    блин, я новичек и даже между собой не знаю какая разница :) ... прошу кого-то кто шарит расскать или статью написать с меня рейтинг

    ентое дело для меня новое хочу попробывать...
    • 0
  9. Гуру Аватар для BABBLS
    • Регистрация: 04.09.2009
    • Сообщений: 756
    • Репутация: 33
    отличие в xkovator'e и hrefer'e, они парсят по разному, у меня например совсем разные результаты парсинга выходят их этих двух парсилок, когда я паршу по одним и тем же запросам.
    да и еще хковатор хорошо работает с пркоси, а вотхрефер иногда парсит мимо проксей.
    • 0
  10. Гуру Аватар для bezumniy
    • Регистрация: 03.09.2009
    • Сообщений: 1,071
    • Репутация: 13
    Спасибо статья действительно толковая.
    Но сам парсинг хорошо расписан у Jhonn22 (советую почитать)
    и как то Aggres parser больше нравится.
    • 0
Страница 1 из 3 123 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
Продвижение по НЧ запросам
Общие вопросы поисковой оптимизации 8 31.12.2010 15:43
Правильно собираем трафик по низко- и среднечастотным запросам
Дайджест блогосферы 1 10.05.2010 11:03
Как просчитать трафик по определенным запросам + мнение блогосферы
Дайджест блогосферы 0 07.04.2010 03:38
Эффективное получение трафика по низкочастотным запросам
Общие вопросы поисковой оптимизации 120 06.11.2009 18:53
Продвижение по низкочастотным запросам от Сергея Кошкина...
Семинары и конференции 1 23.10.2009 14:03

Интересные темы

парсер форумов

Для чего нужно парсить форумы, какие бывают парсеры форумов. Подробнее читаем здесь.

как сделать парсер

Как сделать парсер своими силами, подробно и доступно об этом можно прочитать здесь.

парсер запросов

Что такое парсинг, как сделать свой парсер запросов и как им пользоваться, подробнее здесь.

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры