Здравствуйте! Подскажите как лучше сделать.
Поставил сегодня Нетпак Спайдер и он мне выдал наличие кучи дублей на сайте. Хочу от них избавиться для этого думаю добавить в роботс.тхт вот такие строки
Disallow: /*&SECTION_ID=*
Disallow: /*/search/*
Disallow: /*PAGEN_17*
Disallow: /*back_url_admin=*
1. Чтобы избавиться от дублестраниц вида:
mysite.ru/novosti-inform/?ID=92&SECTION_ID=17
mysite.ru/novosti-inform/?ID=92&SECTION_ID=25&sphrase_id=41100
здесь mysite.ru/novosti-inform/?ID=92 обычный УРЛ, а остальное формируются Битриксом при переходах по ссылкам «смотреть также»
2. При физически пустой папке mysite.ru/search/ появилось несколько десятков страниц вида:
mysite.ru/search/?tags=литература
mysite.ru/search/?q=&where=&tags=литература&how=d
3. Страницы с перечнями новостных анонсов, как полным списком, так и по разделам, толку наверно от них в индексе никакого:
mysite.ru/novosti-inform/?PAGEN_17=5
mysite.ru/novosti-inform/?SECTION_ID=14&PAGEN_17=2
4. И вот такое нашел, ясно, что это моей админской деятельности остается, но тоже наверно их всех «в топку» надо:
mysite.ru/novosti-inform/?back_url_admin= … бла-бла … %3Dyes
Не силен в программировании, больше в тематике сайта разбираюсь. С логикой и синтаксисом тут все нормально будет если так прописать в роботсе, это решит проблему дублей? Или надо еще что-то посерьезней (или более правильней)? Спасибо за советы.
- 25.01.2014 21:20
Последний раз редактировалось Сергей_К; 25.01.2014 в 21:25. Причина: убрал реальный урл
- 25.01.2014 23:27
Все эти неучтенные урлы (и потенциальные служебные, которые могут вылезти) можно закрыть парой строк:
Disallow: *?*
Disallow: /search/
Только проверьте, чтобы на сайте не было нужных страниц с урлами, содержащими "?". - 26.01.2014 00:16
DESTER,
Спасибо, по 2 пункту Disallow: /search/ конечно решит исключение всего что насорил внутренний поиск.
А вот с остальными нет, так как *?* входит в "главный" , правильный урл инфо-блока т.е. mysite.ru/novosti-inform/?ID=92 или там mysite.ru/novosti-inform/?ID=192 , а вот все урлы, что содержит хоть что-то после номера ID желательно исключить. также как и все что содержит PAGEN_17 и back_url_admin=
Я затрудняюсь в правильном написании условий, не моя это область знаний - 26.01.2014 00:49
Адрес сайта давайте, или пишите в ЛС, помогу) Нужно сначала сайт просканировать, потом уже что то говорить.
- 26.01.2014 01:18
hnurewnik,
сайт http://medalirus.ru - 26.01.2014 01:57
Во первых, страницы доступны по двум разным путям:
http://medalirus.ru/anenskaya-medal/...29-1911-in.php
http://medalirus.ru/anenskaya-medal/...9-1911-in.php/
Колдуйте с редиректами. Убрать последний слеш в url нужно.
Во вторых, не закрывайте урлы типа - http://medalirus.ru/novosti-inform/?SECTION_ID=30 , это Ваши категории. Переделайте урл на чпу или не трогайте вообще. Ну можете посмотреть заходы с поиска на эти категории - если есть, то темболее оставлять.
А по поводу robots.txt
User-agent: *
Disallow: /search/
Disallow: *back_url_admin
Host: medalirus.ru
Sitemap: http://medalirus.ru/sitemap.xml
Но еще вкачайте карту сайта на сервер, прежняя карта сайта пустая. Ссылка на карту.Последний раз редактировалось hnurewnik; 26.01.2014 в 02:08.
- 26.01.2014 15:25
Спасибо за доп. подсказки по узким моментам.
1. Это несколько штук образовалось, когда ошибался с копированием урла при перелинковке, тут я вручную эти ссылки со слэшами исправлю. А для индексных страниц разделов, где слэши реально часто мешаются, все уже наколдовано :) .
2. http://medalirus.ru/novosti-inform/?SECTION_ID=30 да это категории, подразделы, но мне кажется индексно - трафиковая ценность у них похоже нулевая, за прошлый месяц через них на сайт был всего 2 захода. Там только перечни, а точней 100% повторы анонсов с "настоящих" страниц. Может пользы от их удаления будет больше?
3. А если в robots.txt прописать
User-agent: Yandex
Clean-param: SECTION_ID
Clean-param: sphrase_id
Clean-param: PAGEN_17
Clean-param: back_url_admin (хотя здесь Disallow: *back_url_admin - наверно лучше будет, а то там еще такой хвост в конце идет, одним обнулением параметра не обойтись)
а для Гугла в Вебмастере их же исключить, поможет?
4. Disallow: /search/ - ясно.
Спасибо за СитиМап, у меня файл не пустой у него просто адрес другой http://medalirus.ru/sitemap_index.xml а оттуда на http://medalirus.ru/sitemap_000.xml , ПС этот Битрикс вариант вполне устраивает.Последний раз редактировалось Сергей_К; 26.01.2014 в 15:35.
Тэги топика:
Похожие темы
Темы | Раздел | Ответов | Последний пост |
---|---|---|---|
помогите закрыть страницу в robots.txt | Вопросы от новичков | 3 | 29.03.2012 17:03 |
Помогите с robots.txt для DLE | Web программирование | 13 | 29.01.2012 16:09 |
Помогите составить robots.txt | Вопросы от новичков | 4 | 09.11.2011 19:07 |
Помогите разобраться с robots.txt | Web программирование | 10 | 21.08.2011 00:37 |