Здравствуйте, только что для себя открыл один (из множества) нехороший сайтов, собирающих информацию о доменах рунета. Эта хрень без ведома владельца парсит title, description и keywords, собирает данные по регистратору и доменам на одном IP. Особенно не понравилось их отношение к вопросу "Как исключить сайт из списка" _runfo.ru/about/
Кто знает как их забанить? Может их робот как-нибудь представляется и его можно вырубить в htaccess или заблочить по IP.
- 10.02.2014 19:00
- 10.02.2014 19:03
фигня а не сайт, нече толкового там нету
- 10.02.2014 19:05
kvins, я не рекламировать его пришел, по делу что можете сказать?
- 10.02.2014 20:16
WSairus, а что вредного в нём - можете объяснить?
Я вот сразу полезное нашел - отличный домен)))
п.с. если только логи отслеживать на подозрительные посещения... но уже будет поздно) - 10.02.2014 21:06
Судя по "актуальности" информации - это не паук, а парсинг по списку (посмотрел данные о доменах, которые продавал за последние полгода). Взять список полный список ру-доменов можно у любого регистратора, и потом пройтись по нему. Так что, я сомневаюсь в существовании отдельного user-agent.
- 10.02.2014 23:01
Gann, именно то что вы нашли хорошим я и считаю плохим. По одному сайту всего за несколько кликов можно всю сетку подтянуть.
HelgerLEE, думаете он парсит логи регистраторов не заходя на сайт. Однако если NS поставить не сразу, то он его все равно находит. Да и title с description он не из воздуха берет. - 11.02.2014 00:31
WSairus, каждый регистратор в ру-зоне выкладывает в доступ для партнеров список ВСЕХ имеющихся ру-доменов, независимо, делегированы они или нет. Весит такой файлик тхт формата - 310 мегабайт и содержит вот такие строчки:
строки файла
0-0-24.RU;REGRU-REG-RIPN;2011-11-16;2013-11-16;DELEGATED
0-0-3.RU;REGRU-REG-RIPN;2013-01-02;2014-01-02;DELEGATED
0-0-6.RU;REGRU-REG-RIPN;2011-11-16;2013-11-16;DELEGATED
0-0-7.RU;RU-CENTER-REG-RIPN;2011-11-22;2013-11-22;DELEGATED
0-0.RU;RU-CENTER-REG-RIPN;2000-03-02;2014-04-01;DELEGATED
0-00.RU;RU-CENTER-REG-RIPN;2008-10-28;2014-10-28;DELEGATED
0-01.RU;R01-REG-RIPN;2010-10-29;2014-10-29;DELEGATED
0-02.RU;RU-CENTER-REG-RIPN;2013-08-20;2014-08-20;DELEGATED
0-03.RU;REGRU-REG-RIPN;2013-02-13;2014-02-13;DELEGATED
0-04.RU;AGAVA-REG-RIPN;2012-11-11;2013-11-11;NOT DELEGATED
0-05.RU;REGRU-REG-RIPN;2013-03-04;2014-03-04;DELEGATED
0-07.RU;R01-REG-RIPN;2013-11-25;2014-11-25;DELEGATED
0-0STORE.RU;REGGI-REG-RIPN;2011-09-22;2014-09-22;DELEGATED
0-1-1-2-3-5-8-13-21-34-55-89-144-233-377-610-987-1597-2584-4181.RU;REGRU-REG-RIPN;2011-04-11;2014-04-11;DELEGATED
0-1-2-3.RU;REGRU-REG-RIPN;2011-08-25;2014-08-25;DELEGATED
0-1-2.RU;REGRU-REG-RIPN;2008-09-05;2014-09-05;DELEGATED
0-1.RU;RU-CENTER-REG-RIPN;2000-03-22;2014-04-01;DELEGATED
0-10.RU;REGISTRATOR-REG-RIPN;2010-01-22;2014-01-22;DELEGATED
0-100.RU;RU-CENTER-REG-RIPN;2008-07-17;2014-07-17;NOT DELEGATED[свернуть]
При некоторых манипуляциях с регулярными выражениями (эксель у меня виснет на этом файле) выдрать по одному домену признаки сетки проблем не составит.
А, имея терпение, все данные, имеющиеся на сайте, собираются пачками по 1000 штук через Yandex XML ( _http://api.yandex.ru/xml/doc/dg/concepts/response.xml ).
Так что никаких тайных знаний и даже относительно несложная реализация.
P.S. В вышеприведенном фрагменте - шедевр, домен из чисел Фибоначчи: 0-1-1-2-3-5-8-13-21-34-55-89-144-233-377-610-987-1597-2584-4181.RU
Кому, интересно, такой понадобился? :)Последний раз редактировалось HelgerLEE; 11.02.2014 в 00:58.
- 11.02.2014 00:56
Меня не устраивает воровство моих метатегов, т.к. стараюсь сделать их уникальными. И сильно расстраивает невозможность отказаться от "услуг" этого сайта.
- 11.02.2014 01:05
В моем файлике (декабрь 2013) - 4903264 домена.
Финальный: ZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ ZZZZZZZZZZZZZ.RU;REGTIME-REG-RIPN;2009-10-02;2014-10-02;DELEGATED
Вы уверены, что из, почти, 5 миллионов доменов паразиты будут целенаправленно отслеживать метатеги ваших проектов?
Мне на свои, а они на этом сайте все есть - параллельно, упрут - напишу новые, жизнь-то продолжается. Но я сильно сомневаюсь, что до этого дойдет. Скорее, с выдачи напрямую стянут, чем с подобного "справочника".