Приветствую. Собственно проблема: Есть сайт на WP, совсем недавно обнаружил, что гугл проиндексировал в три раза больше страниц чем яндекс. Как выяснилось, он проиндексировал страницы медиафайлов. Урлы медиафайлов вида: http://domen.org/PostName/PhotoName/
т.е. запретить по маске урла (типа Disallow: /attachment/*) не выйдет, у каждого медиафайла урл совсем разный и не имеет общих частей. кроме PostName, но это погоды не играет.
Готов пожертвовать урлами второй вложености, ибо все что подлежит индексации имеет урл http://domen.org/PostName/
Десятки попыток типа Disallow: /*/* и т.д. успехом не увенчались, тестил в яндекс вебмастере, все эти варианты закрывают весь сайт полностью.
Как убрать кучу ненужных страниц из индекса? Руками каждый урл прописывать не вариант.
А придется :) Для гугла, файл роботс это только "закрыть сканирование", а не "закрыть сканирование и удалить из индекса". Разница понятна? Вам только метатегами закрывать.