Помогите с дописываниенм условий в robots.txt

(Ответов: 6, Просмотров: 690)
  1. Студент
    • Регистрация: 27.08.2012
    • Сообщений: 31
    • Репутация: 0
    • Webmoney BL: ?
    Здравствуйте! Подскажите как лучше сделать.
    Поставил сегодня Нетпак Спайдер и он мне выдал наличие кучи дублей на сайте. Хочу от них избавиться для этого думаю добавить в роботс.тхт вот такие строки

    Disallow: /*&SECTION_ID=*
    Disallow: /*/search/*
    Disallow: /*PAGEN_17*
    Disallow: /*back_url_admin=*

    1. Чтобы избавиться от дублестраниц вида:
    mysite.ru/novosti-inform/?ID=92&SECTION_ID=17
    mysite.ru/novosti-inform/?ID=92&SECTION_ID=25&sphrase_id=41100
    здесь mysite.ru/novosti-inform/?ID=92 обычный УРЛ, а остальное формируются Битриксом при переходах по ссылкам «смотреть также»
    2. При физически пустой папке mysite.ru/search/ появилось несколько десятков страниц вида:
    mysite.ru/search/?tags=литература
    mysite.ru/search/?q=&where=&tags=литература&how=d
    3. Страницы с перечнями новостных анонсов, как полным списком, так и по разделам, толку наверно от них в индексе никакого:
    mysite.ru/novosti-inform/?PAGEN_17=5
    mysite.ru/novosti-inform/?SECTION_ID=14&PAGEN_17=2
    4. И вот такое нашел, ясно, что это моей админской деятельности остается, но тоже наверно их всех «в топку» надо:
    mysite.ru/novosti-inform/?back_url_admin= … бла-бла … %3Dyes

    Не силен в программировании, больше в тематике сайта разбираюсь. С логикой и синтаксисом тут все нормально будет если так прописать в роботсе, это решит проблему дублей? Или надо еще что-то посерьезней (или более правильней)? Спасибо за советы.
    Последний раз редактировалось Сергей_К; 25.01.2014 в 20:25. Причина: убрал реальный урл
    • 0
  2. Сеошнег Аватар для DESTER
    • Регистрация: 15.02.2012
    • Сообщений: 454
    • Репутация: 112
    • Webmoney BL: ?
    Все эти неучтенные урлы (и потенциальные служебные, которые могут вылезти) можно закрыть парой строк:

    Disallow: *?*
    Disallow: /search/

    Только проверьте, чтобы на сайте не было нужных страниц с урлами, содержащими "?".
    • 0
  3. Студент
    • Регистрация: 27.08.2012
    • Сообщений: 31
    • Репутация: 0
    • Webmoney BL: ?
    DESTER,
    Спасибо, по 2 пункту Disallow: /search/ конечно решит исключение всего что насорил внутренний поиск.
    А вот с остальными нет, так как *?* входит в "главный" , правильный урл инфо-блока т.е. mysite.ru/novosti-inform/?ID=92 или там mysite.ru/novosti-inform/?ID=192 , а вот все урлы, что содержит хоть что-то после номера ID желательно исключить. также как и все что содержит PAGEN_17 и back_url_admin=
    Я затрудняюсь в правильном написании условий, не моя это область знаний
    • 0
  4. Дипломник Аватар для hnurewnik
    • Регистрация: 17.11.2012
    • Сообщений: 180
    • Репутация: 137
    Адрес сайта давайте, или пишите в ЛС, помогу) Нужно сначала сайт просканировать, потом уже что то говорить.
    • 0
  5. Студент
    • Регистрация: 27.08.2012
    • Сообщений: 31
    • Репутация: 0
    • Webmoney BL: ?
    hnurewnik,

    сайт http://medalirus.ru
    • 0
  6. Дипломник Аватар для hnurewnik
    • Регистрация: 17.11.2012
    • Сообщений: 180
    • Репутация: 137
    Во первых, страницы доступны по двум разным путям:

    http://medalirus.ru/anenskaya-medal/...29-1911-in.php
    http://medalirus.ru/anenskaya-medal/...9-1911-in.php/

    Колдуйте с редиректами. Убрать последний слеш в url нужно.

    Во вторых, не закрывайте урлы типа - http://medalirus.ru/novosti-inform/?SECTION_ID=30 , это Ваши категории. Переделайте урл на чпу или не трогайте вообще. Ну можете посмотреть заходы с поиска на эти категории - если есть, то темболее оставлять.

    А по поводу robots.txt

    User-agent: *
    Disallow: /search/
    Disallow: *back_url_admin
    Host: medalirus.ru
    Sitemap: http://medalirus.ru/sitemap.xml

    Но еще вкачайте карту сайта на сервер, прежняя карта сайта пустая. Ссылка на карту.
    Последний раз редактировалось hnurewnik; 26.01.2014 в 01:08.
    • 0
  7. Студент
    • Регистрация: 27.08.2012
    • Сообщений: 31
    • Репутация: 0
    • Webmoney BL: ?
    Спасибо за доп. подсказки по узким моментам.
    1. Это несколько штук образовалось, когда ошибался с копированием урла при перелинковке, тут я вручную эти ссылки со слэшами исправлю. А для индексных страниц разделов, где слэши реально часто мешаются, все уже наколдовано :) .
    2. http://medalirus.ru/novosti-inform/?SECTION_ID=30 да это категории, подразделы, но мне кажется индексно - трафиковая ценность у них похоже нулевая, за прошлый месяц через них на сайт был всего 2 захода. Там только перечни, а точней 100% повторы анонсов с "настоящих" страниц. Может пользы от их удаления будет больше?
    3. А если в robots.txt прописать
    User-agent: Yandex
    Clean-param: SECTION_ID
    Clean-param: sphrase_id
    Clean-param: PAGEN_17
    Clean-param: back_url_admin (хотя здесь Disallow: *back_url_admin - наверно лучше будет, а то там еще такой хвост в конце идет, одним обнулением параметра не обойтись)
    а для Гугла в Вебмастере их же исключить, поможет?
    4. Disallow: /search/ - ясно.
    Спасибо за СитиМап, у меня файл не пустой у него просто адрес другой http://medalirus.ru/sitemap_index.xml а оттуда на http://medalirus.ru/sitemap_000.xml , ПС этот Битрикс вариант вполне устраивает.
    Последний раз редактировалось Сергей_К; 26.01.2014 в 14:35.
    • 0

Похожие темы

Темы Раздел Ответов Последний пост
помогите закрыть страницу в robots.txt
Вопросы от новичков 3 29.03.2012 16:03
Помогите с robots.txt для DLE
Web программирование 13 29.01.2012 15:09
Помогите составить robots.txt
Вопросы от новичков 4 09.11.2011 18:07
Помогите разобраться с robots.txt
Web программирование 10 20.08.2011 23:37

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры