Гугл индексирует страницы, запрещенные в robot.txt

**matador2011** · 31.08.2012 20:36

вот что записано в robot.txt:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: */feed$
Disallow: */trackback$
Disallow: */comments$
Disallow: /tag/
Disallow: /category/*/*
Disallow: /*?
Disallow: /*?*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: */feed$
Disallow: */trackback$
Disallow: */comments$
Disallow: /tag/
Disallow: /category/*/*
Disallow: /*?
Disallow: /*?*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Host:********.ru

Sitemap: http://********.ru/sitemap.xml

естественно вместо звездочек сайт...
Так вот в яндексе 58 страниц в индексе а у гугла 1180, причем в гугле есть страницы с такими вот адресами:
http://********.ru/wp-content/plugin...2&r=1344531102
http://********.ru/wp-content/plugin...2&r=1343944030

как мне от такого добра избавится??

**Dukhovnik** · 31.08.2012 20:40

а это вы смотрите страницы которые не под фильтром или ВСЕ страницы, которые есть в гугл?

**~~24list~~** · 31.08.2012 21:07

User-agent: * или удалите второй абзац и все.
Сейчас у вас стоит запрет на индексирования только яндексом

**matador2011** · 31.08.2012 21:20

Dukhovnik, вроде как все страницы!

---------- Сообщение добавлено 19:20 ---------- Предыдущее 19:19 ----------

24list,разве строчка

User-agent: *

не означает что последующие за ней инструкции действительны для роботов всех поисковиков, включая и гугл???

**~~24list~~** · 31.08.2012 21:23

да верно, но в следующем абзаце вы указываете инструкции только для Yandex, и предыдущие теряют всякий смысл

**Ilich** · 31.08.2012 21:43

24list, почему предыдущие инструкции теряют смысл?

По теме, инструкции роботс - это не указание роботу, а лишь рекомендация. т.е. робот всё-равно может ходить по запрещённым страницам. другое дело, что он не включает их в индекс. почему у вас включил, понятия не имею. Единственный вариант, что робот проиндексировал эти страницы до того как вы написали этот роботс тхт. Если так, то эти страницы скоро вылетят из индекса, если не так...то понятия не имею. Подождём более продвинутых комментаторов)

**idimka** · 01.09.2012 22:17

Да гугл вобще офигел в этом плане, на двух моих старых проектах такое было, помогло добавления ноуиндекса в метаописаниях страниц, а robots.txt гугл игнорировал по-полной...

**matador2011** · 02.09.2012 21:41

кстати по запросу site:http://*****.ru
Выдает Результатов: примерно 1 180 (0,10 сек.)
Причем еще вот что пишет:
Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на 35 уже показанных.
Если вы хотите, можно повторить поиск, включив опущенные результаты.

Может забить на это все?? или все же добиться исключения не нужных страниц??

**redapp** · 02.09.2012 22:15

Кстати, та же проблема - если искать гуглом по "site: *****.ru", то выдает 2500 страниц, из которых 2400 - это сопли вида "*****.ru/категория/запись.htm?replytocom=165" или с фидом на конце и при этом в самой выдаче такие страницы помечены как "Описание веб-страницы недоступно из-за ограничений в файле robots.txt."
Черт, дак как их тогда удалить-то из выдачи вобще?

**pyramida** · 02.09.2012 22:55

Сообщение от matador2011

Причем еще вот что пишет: Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на 35 уже показанных.

гугле посчитал что остальное дубликаты.

---------- Сообщение добавлено 23:25 ---------- Предыдущее 23:25 ----------

redapp, в инструментах ВМТ есть какие параметры у страницы не учитывать.

	31.08.2012 20:36 #1
matador2011 Дипломник Регистрация: 07.01.2012 Сообщений: 104 Репутация: 8	вот что записано в robot.txt: User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed$ Disallow: /trackback$ Disallow: /comments$ Disallow: /tag/ Disallow: /category//* Disallow: /? Disallow: /?* Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /wp-includes/ User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed$ Disallow: /trackback$ Disallow: /comments$ Disallow: /tag/ Disallow: /category//* Disallow: /? Disallow: /?* Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /wp-includes/ Host:******.ru Sitemap: http://****.ru/sitemap.xml естественно вместо звездочек сайт... Так вот в яндексе 58 страниц в индексе а у гугла 1180, причем в гугле есть страницы с такими вот адресами: http://****.ru/wp-content/plugin...2&r=1344531102 http://******.ru/wp-content/plugin...2&r=1343944030 как мне от такого добра избавится??
0 matador2011

	31.08.2012 20:40 #2
Dukhovnik Дипломник Регистрация: 11.04.2012 Сообщений: 238 Репутация: 17 Webmoney BL: ?	а это вы смотрите страницы которые не под фильтром или ВСЕ страницы, которые есть в гугл?
0 Dukhovnik

	31.08.2012 21:07 #3
~~24list~~ Banned Регистрация: 22.05.2011 Сообщений: 129 Репутация: 23	User-agent: * или удалите второй абзац и все. Сейчас у вас стоит запрет на индексирования только яндексом Последний раз редактировалось 24list; 31.08.2012 в 21:11.
-2 24list

	31.08.2012 21:20 #4
matador2011 Дипломник Регистрация: 07.01.2012 Сообщений: 104 Репутация: 8	Dukhovnik, вроде как все страницы! ---------- Сообщение добавлено 19:20 ---------- Предыдущее 19:19 ---------- 24list,разве строчка User-agent: * не означает что последующие за ней инструкции действительны для роботов всех поисковиков, включая и гугл???
0 matador2011

	31.08.2012 21:23 #5
~~24list~~ Banned Регистрация: 22.05.2011 Сообщений: 129 Репутация: 23	да верно, но в следующем абзаце вы указываете инструкции только для Yandex, и предыдущие теряют всякий смысл Последний раз редактировалось 24list; 31.08.2012 в 21:25.
-2 24list

Гугл индексирует страницы, запрещенные в robot.txt

Опции темы

Тэги топика:

Похожие темы

Гугл не индексирует бэки

Гугл не индексирует сайт

Гугл не индексирует сайт

Drugrevenue и запрещенные препараты

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры

	31.08.2012 21:43 #6
Ilich Опытный Регистрация: 05.11.2011 Сообщений: 335 Репутация: 32	24list, почему предыдущие инструкции теряют смысл? По теме, инструкции роботс - это не указание роботу, а лишь рекомендация. т.е. робот всё-равно может ходить по запрещённым страницам. другое дело, что он не включает их в индекс. почему у вас включил, понятия не имею. Единственный вариант, что робот проиндексировал эти страницы до того как вы написали этот роботс тхт. Если так, то эти страницы скоро вылетят из индекса, если не так...то понятия не имею. Подождём более продвинутых комментаторов)
0 Ilich

	01.09.2012 22:17 #7
idimka Дипломник Регистрация: 06.09.2009 Сообщений: 203 Репутация: 38	Да гугл вобще офигел в этом плане, на двух моих старых проектах такое было, помогло добавления ноуиндекса в метаописаниях страниц, а robots.txt гугл игнорировал по-полной...
0 idimka

	02.09.2012 21:41 #8
matador2011 Дипломник Регистрация: 07.01.2012 Сообщений: 104 Репутация: 8	кстати по запросу site:http://*****.ru Выдает Результатов: примерно 1 180 (0,10 сек.) Причем еще вот что пишет: Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на 35 уже показанных. Если вы хотите, можно повторить поиск, включив опущенные результаты. Может забить на это все?? или все же добиться исключения не нужных страниц??
0 matador2011

	02.09.2012 22:15 #9
redapp Опытный Регистрация: 14.01.2011 Сообщений: 350 Репутация: 69	Кстати, та же проблема - если искать гуглом по "site: ***.ru", то выдает 2500 страниц, из которых 2400 - это сопли вида "***.ru/категория/запись.htm?replytocom=165" или с фидом на конце и при этом в самой выдаче такие страницы помечены как "Описание веб-страницы недоступно из-за ограничений в файле robots.txt." Черт, дак как их тогда удалить-то из выдачи вобще? Отличный VPS по низким ценам в Германии
0 redapp

	02.09.2012 22:55 #10
pyramida Гуру Регистрация: 09.10.2011 Сообщений: 1,814 Репутация: 251	Сообщение от matador2011 Причем еще вот что пишет: Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на 35 уже показанных. гугле посчитал что остальное дубликаты. ---------- Сообщение добавлено 23:25 ---------- Предыдущее 23:25 ---------- redapp, в инструментах ВМТ есть какие параметры у страницы не учитывать.
0 pyramida

Темы	Раздел	Ответов	Последний пост
Гугл не индексирует бэки	Google	12	22.07.2012 01:00
Гугл не индексирует сайт	Google	14	26.06.2012 22:05
Гугл не индексирует сайт	Вопросы от новичков	1	19.06.2012 04:23
Drugrevenue и запрещенные препараты	Партнерские программы	4	11.09.2009 02:18