Web-разработка - Репутация: 549
- Webmoney BL: ?
| Давно хотел написать нечто подобное, так как статьи на форуме были "с общей идеей" и до многого надо было думать головой, я же решил написать под хайд почти все свои фишки, которыми я пользуюсь при поиске трастовых ресурсов. Естественно можно делать это и руками, при формировании запроса, затем уже этот запрос кидаю в ОлСаб, который благополучно собирает для меня базу. Естественно это не все, но основная часть работы выполнена. Итак, чтобы не забыть самому о чем писать, да и людям, чтобы легко разобраться, напишу сначала план:
- 1) Выбор CMS, которую будем искать.
- 2) Выбираем признаки этой CMS
- 3) Сбор и чистка базы
- 4) Сужаем область поиска.
- 5) Собираем чужие базы.
Выбор CMS для базы. Что нам нужно от базы? Ссылки! Или нет? Для начала необходимо определиться с какой целью мы будем использовать базу. В моей статье речь идет о ссылках с профилей, которые попадут в ЯВМ. Вообще есть много сайтов, где можно оставить ссылку в профиле, но на некоторых сложная регистрация, на некоторых анкорные ссылки, на некоторых без анкора. Поэтому я для себя выделил вот такой список:
Скрытый текст (вы должны войти под своим логином или зарегистрироваться и иметь 50 сообщение(ий)): У вас нет прав чтобы видеть скрытый текст, содержащийся здесь. | Также есть много других движков, котрые не столь популярны или многие закрыты. По ним я не ищу, так как собирать с запроса 2-3 форума не есть хорошо. Выбираем признаки CMS У каждого форума есть свои уникальные признаки, какая-то фраза (или несколько) в тексте или уникальное сочетание символов в урле. Для этого необходимо найти пару "подходящих" профилей и сравнить их. То что у них одинакого и есть уникальные признаки. Именно их и будем искать. И опять-таки хайд с теми признаками, которыми я пользуюсь.
Скрытый текст (вы должны войти под своим логином или зарегистрироваться и иметь 150 сообщение(ий)): У вас нет прав чтобы видеть скрытый текст, содержащийся здесь. | Сбор и чистка базы. Итак, у нас есть признаки того, что искать, теперь самое интересное - поиск такого запроса, который даст нам только то, что нужно. Если Вы введете запрос inurl:"признак_CMS" то не соберете все форумы на этой CMS, где можно оставить ссылку. Так как многие удалили поле подпись или урл, на ipBoard могут быть закрыты профили для незарегистрированных юзеров и т.д. Посему отсеиваем шлак сразу в запросе.
Скрытый текст (вы должны войти под своим логином или зарегистрироваться и иметь 150 сообщение(ий)): У вас нет прав чтобы видеть скрытый текст, содержащийся здесь. | Ну и затем готовые запросы закидываем в парсеры и получаем урлы базы. По чистке базы есть несколько слов. Есть 2 способа - прогнать какой-либо текстовый сайт, а затем массово проверить на открытость ссылки каждый новый профиль. Или же вручную просмотреть каждый профиль на открытость ссылки. Например с помощью оперы с RDS. Сужаем область поиска Вот это самый интересный этап. Так как обычно форумов слишком много и чтобы собрать все форумы, надо сужать запросы.
Скрытый текст (вы должны войти под своим логином или зарегистрироваться и иметь 100 сообщение(ий)): У вас нет прав чтобы видеть скрытый текст, содержащийся здесь. | Сужаем по тематичности. Хотя здесь очень сложно это сделать, так как будем искать слова, типа "авто", "строительство" и т.д. которые могут ввести люди в своих профилях вовсе не относящихся к авто или стройке. Но попробывать можно. Собираем чужие базы. К сожалению, тут я недалеко продвинулся и собирал лишь форумы на phpBB. Для этого необходимо ввести запрос с признаком этого движка и добавить урл, который прогонялся по чужой базе. Таким образом можно собрать неплохую базу и сразу же проверить на закрытость ссылки в ноиндекс или тег нофоллоу, что не так просто сделать при сборе "с нуля" Заключение Не стоит писать о том, что мы проверили только на ноиндекс и нофолоу. Мы искали сразу профиля в индексе, а значит они индексируются. Таким образом можно собрать действительно неплохую базу. Спасибо за внимание! Последний раз редактировалось semyon; 27.11.2012 в 17:21. |
|