В большинстве случаев, это страницы попавшие в индекс еще до появления директивы, или бот нашел страницу раньше чем robots.txt. Ну а если ПСы уже усвоили рототс, то никак. Ну или нормальным путем – Allow: /запрещенная-страница
Гугль бот иногда игнорирует роботс, они рекомендуют страницу писать через мета, алаев даже статьи расписывал на эту тему. С яндексом не встречал такого, не могу сказать точно.
patrician, вот про гугл что-то я не уверен; закидывал запрет на страницы пагинации нового сайта через мета-теги - таки торчат почему то в индексе, думаю теперь в роботс засунуть...