Вот вчеа нужна была прога для парсинга. Нашел BackLink Gear но он парсит со страниц. Но ето меделнно и кажды сайт нужно отдельно вводить. Написал небольшой скриптик, парсит беки сайтов которые находяться в файле urlyahoo.txt и ложит беки в backs.txt. Преимущество скрипта в том что он не шарит по страницам а качает .tsv в котором первые 1000 беков(лимит хоть по страницам шарь хоть файл скачай) но намного быстрее. Работает на курле. Кстати те урлы что отпарсил он из файла urlyahoo.txt удаляет (делал для себя спец. чтобы если скрипт вырубился и не рыскать в поисках того на каком урле он именно остановился) .ВотPHP код:Вот подумал может у кого нет курла то пускай попробуют так<?php
set_time_limit(0);
function curl($url,$post)
{
$cfile = 'cookies.txt';
$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cfile);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cfile);
curl_setopt($ch, CURLOPT_POST, 1);
$result = curl_exec($ch);
curl_close($ch);
return $result;
};
$sleep = 4;
$fileurl = "urlyahoo.txt";
$fd = fopen($fileurl, 'r');
$read = fread($fd, filesize($fileurl));
fclose($fd);
$read = explode("\r\n", $read);
$count = count($read);
for($i=0;$i<$count;$i++)
{
list($url, $all) = explode(" ", $read[$i]);
unset($read[$i]);
$reads = implode("\r\n", $read);
$fd = fopen($fileurl, 'w');
fwrite($fd, $reads);
fclose($fd);
$result = curl("http://siteexplorer.search.yahoo.com/export?p=".$url."&bwm=i&fr=sfp", "");
$result = explode("\n", $result);
$countstr = count($result);
for($a=2;$a<$countstr;$a++)
{
list($text, $ssil) = explode(" ", $result[$a]);
if($ssil)
{
//echo $ssil."<br>";
$fd = fopen("backs.txt", "a");
fwrite($fd, $ssil."\r\n");
fclose($fd);
}
}
sleep($sleep);
}
?>PHP код:п.с за роботу второго не ручаюсь(не тестил)<?php
set_time_limit(0);
$sleep = 4;
$fileurl = "urlyahoo.txt";
$fd = fopen($fileurl, 'r');
$read = fread($fd, filesize($fileurl));
fclose($fd);
$read = explode("\r\n", $read);
$count = count($read);
for($i=0;$i<$count;$i++)
{
list($url, $all) = explode(" ", $read[$i]);
unset($read[$i]);
$reads = implode("\r\n", $read);
$fd = fopen($fileurl, 'w');
fwrite($fd, $reads);
fclose($fd);
$result = file_get_contents("http://siteexplorer.search.yahoo.com/export?p=".$url."&bwm=i&fr=sfp");
$result = explode("\n", $result);
$countstr = count($result);
for($a=2;$a<$countstr;$a++)
{
list($text, $ssil) = explode(" ", $result[$a]);
if($ssil)
{
//echo $ssil."<br>";
$fd = fopen("backs.txt", "a");
fwrite($fd, $ssil."\r\n");
fclose($fd);
}
}
sleep($sleep);
}
?>
ппс Только не надо говорить что скрипт криво написан)))согласен, можно было более рационально все сделать, но писал чисто для себя, а на красоту мне как-то пофиг)) только бы работал)
Подскажите хорошую тулзу для парсинга беков по yahoo.
(Ответов: 13, Просмотров: 2505)
- 18.11.2009 18:35Студент

- Регистрация: 06.11.2009
- Сообщений: 83
- Репутация: 19
- 18.11.2009 19:01
Про .tsv не знал, спасибо :)
- 20.11.2009 08:07Студент

- Регистрация: 17.11.2009
- Сообщений: 67
- Репутация: 10
Один из самых удобных и функциональных паблик парсеров на сегодняшний день - безусловно Хрумер. Парсить с помощью этой тулзы одно удовольствие: быстрая настройка, подгонка шаблонов под выдачу нужной ПС,многопоточность, сохранение результатов в разных форматов, сортировка и прочие прелести.
Единственный минус - Хрефер теперь поставляется только в комплекте с Хрумером, но зато достаточно много людей дающих сервера с вышеупопянутым софтом на прокат всего за несколько талеров. - 20.11.2009 12:46
Хрефер все же более масштабный и универсальный продукт. А вот конкретно под парсинг Яху вполне удобно использовать то, что предложил zifanchuck. К тому же можно конкретно под свои нужды доработать.
Тэги топика:
Похожие темы
| Темы | Раздел | Ответов | Последний пост |
|---|---|---|---|
Количество беков на 1кк конкурентов | Дорвеи и black SEO | 5 | 03.01.2010 07:32 |
Готовые запросы для парсинга гостевых | Дорвеи и black SEO | 0 | 25.12.2009 17:35 |
Запросы для парсинга гостевых | Дорвеи и black SEO | 9 | 18.12.2009 02:07 |
У кого-нибудь есть опыт получения трафика/беков для блога с трекбеков? | Блоги | 30 | 05.11.2009 18:19 |
Свежая база - а беков мало :( | Дорвеи и black SEO | 32 | 29.10.2009 14:49 |
Интересные темы
curl парсер
Гуру онлайн-бизнеса делятся подробной информацией, какой curl парсер используют они в своей работе.

