Вот robots.txt экспериментального сайта, находится он на ucoze, так как сайт экспериментальный и выделять ему место на хостинге мне не хочется. Как видите, он немного обрезан, так как публиковать хост и сайтмап мне не требуется. Проблема в следующем, в яндексе запрещенные каталоги и адреса не индексируются, но в поиске Google в индексе крепко держатся некоторые странички из этих каталогов, особенно из /secure/, хотя, по сути, от индекса они закрыты. Может быть кто-нибудь сталкивался с подобной проблемой на данном "движке", написание отдельного блока под Гугл тоже не спасает..
"Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс." - https://support.google.com/webmaster...r/156449?hl=ru
Отправь в панели вебмастера запрос на удаления из выдачи этих страниц. Однако, если на данные страницы ведут внешние ссылки, есть вероятность, что они снова попадут в индекс.
3s777, Описание веб-страницы недоступно из-за ограничений в файле robots.txt, просто не особо я с этим движком дружу)
Дело не в движке. Дело в том, что роботс не управляет индексированием, как я и писал. Вам нужно использовать метатег ноиндекс, чтобы удалить не нужное из индекса и только потом закрывать в роботс. Только так сработает в гугле.
genjnat, читаем ----- Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag рекомендуется использовать, чтобы исключить из индекса файлы, формат которых отличается от HTML (например, изображения или другие типы документов). ------ Пруфа хватает, на гугле форуме и серче.