Помогите с дописываниенм условий в robots.txt

**Сергей_К** · 25.01.2014 20:20

Здравствуйте! Подскажите как лучше сделать.
Поставил сегодня Нетпак Спайдер и он мне выдал наличие кучи дублей на сайте. Хочу от них избавиться для этого думаю добавить в роботс.тхт вот такие строки

Disallow: /*&SECTION_ID=*
Disallow: /*/search/*
Disallow: /*PAGEN_17*
Disallow: /*back_url_admin=*

1. Чтобы избавиться от дублестраниц вида:
mysite.ru/novosti-inform/?ID=92&SECTION_ID=17
mysite.ru/novosti-inform/?ID=92&SECTION_ID=25&sphrase_id=41100
здесь mysite.ru/novosti-inform/?ID=92 обычный УРЛ, а остальное формируются Битриксом при переходах по ссылкам «смотреть также»
2. При физически пустой папке mysite.ru/search/ появилось несколько десятков страниц вида:
mysite.ru/search/?tags=литература
mysite.ru/search/?q=&where=&tags=литература&how=d
3. Страницы с перечнями новостных анонсов, как полным списком, так и по разделам, толку наверно от них в индексе никакого:
mysite.ru/novosti-inform/?PAGEN_17=5
mysite.ru/novosti-inform/?SECTION_ID=14&PAGEN_17=2
4. И вот такое нашел, ясно, что это моей админской деятельности остается, но тоже наверно их всех «в топку» надо:
mysite.ru/novosti-inform/?back_url_admin= … бла-бла … %3Dyes

Не силен в программировании, больше в тематике сайта разбираюсь. С логикой и синтаксисом тут все нормально будет если так прописать в роботсе, это решит проблему дублей? Или надо еще что-то посерьезней (или более правильней)? Спасибо за советы.

**DESTER** · 25.01.2014 22:27

Все эти неучтенные урлы (и потенциальные служебные, которые могут вылезти) можно закрыть парой строк:

Disallow: *?*
Disallow: /search/

Только проверьте, чтобы на сайте не было нужных страниц с урлами, содержащими "?".

**Сергей_К** · 25.01.2014 23:16

DESTER,
Спасибо, по 2 пункту Disallow: /search/ конечно решит исключение всего что насорил внутренний поиск.
А вот с остальными нет, так как *?* входит в "главный" , правильный урл инфо-блока т.е. mysite.ru/novosti-inform/?ID=92 или там mysite.ru/novosti-inform/?ID=192 , а вот все урлы, что содержит хоть что-то после номера ID желательно исключить. также как и все что содержит PAGEN_17 и back_url_admin=
Я затрудняюсь в правильном написании условий, не моя это область знаний

**hnurewnik** · 25.01.2014 23:49

Адрес сайта давайте, или пишите в ЛС, помогу) Нужно сначала сайт просканировать, потом уже что то говорить.

**Сергей_К** · 26.01.2014 00:18

hnurewnik,

сайт http://medalirus.ru

**hnurewnik** · 26.01.2014 00:57

Во первых, страницы доступны по двум разным путям:

http://medalirus.ru/anenskaya-medal/...29-1911-in.php
http://medalirus.ru/anenskaya-medal/...9-1911-in.php/

Колдуйте с редиректами. Убрать последний слеш в url нужно.

Во вторых, не закрывайте урлы типа - http://medalirus.ru/novosti-inform/?SECTION_ID=30 , это Ваши категории. Переделайте урл на чпу или не трогайте вообще. Ну можете посмотреть заходы с поиска на эти категории - если есть, то темболее оставлять.

А по поводу robots.txt

User-agent: *
Disallow: /search/
Disallow: *back_url_admin
Host: medalirus.ru
Sitemap: http://medalirus.ru/sitemap.xml

Но еще вкачайте карту сайта на сервер, прежняя карта сайта пустая. Ссылка на карту.

**Сергей_К** · 26.01.2014 14:25

Спасибо за доп. подсказки по узким моментам.
1. Это несколько штук образовалось, когда ошибался с копированием урла при перелинковке, тут я вручную эти ссылки со слэшами исправлю. А для индексных страниц разделов, где слэши реально часто мешаются, все уже наколдовано :) .
2. http://medalirus.ru/novosti-inform/?SECTION_ID=30 да это категории, подразделы, но мне кажется индексно - трафиковая ценность у них похоже нулевая, за прошлый месяц через них на сайт был всего 2 захода. Там только перечни, а точней 100% повторы анонсов с "настоящих" страниц. Может пользы от их удаления будет больше?
3. А если в robots.txt прописать
User-agent: Yandex
Clean-param: SECTION_ID
Clean-param: sphrase_id
Clean-param: PAGEN_17
Clean-param: back_url_admin (хотя здесь Disallow: *back_url_admin - наверно лучше будет, а то там еще такой хвост в конце идет, одним обнулением параметра не обойтись)
а для Гугла в Вебмастере их же исключить, поможет?
4. Disallow: /search/ - ясно.
Спасибо за СитиМап, у меня файл не пустой у него просто адрес другой http://medalirus.ru/sitemap_index.xml а оттуда на http://medalirus.ru/sitemap_000.xml , ПС этот Битрикс вариант вполне устраивает.

	25.01.2014 20:20 #1
Сергей_К Студент Регистрация: 27.08.2012 Сообщений: 31 Репутация: 0 Webmoney BL: ?	Здравствуйте! Подскажите как лучше сделать. Поставил сегодня Нетпак Спайдер и он мне выдал наличие кучи дублей на сайте. Хочу от них избавиться для этого думаю добавить в роботс.тхт вот такие строки Disallow: /&SECTION_ID= Disallow: //search/ Disallow: /PAGEN_17 Disallow: /back_url_admin= 1. Чтобы избавиться от дублестраниц вида: mysite.ru/novosti-inform/?ID=92&SECTION_ID=17 mysite.ru/novosti-inform/?ID=92&SECTION_ID=25&sphrase_id=41100 здесь mysite.ru/novosti-inform/?ID=92 обычный УРЛ, а остальное формируются Битриксом при переходах по ссылкам «смотреть также» 2. При физически пустой папке mysite.ru/search/ появилось несколько десятков страниц вида: mysite.ru/search/?tags=литература mysite.ru/search/?q=&where=&tags=литература&how=d 3. Страницы с перечнями новостных анонсов, как полным списком, так и по разделам, толку наверно от них в индексе никакого: mysite.ru/novosti-inform/?PAGEN_17=5 mysite.ru/novosti-inform/?SECTION_ID=14&PAGEN_17=2 4. И вот такое нашел, ясно, что это моей админской деятельности остается, но тоже наверно их всех «в топку» надо: mysite.ru/novosti-inform/?back_url_admin= … бла-бла … %3Dyes Не силен в программировании, больше в тематике сайта разбираюсь. С логикой и синтаксисом тут все нормально будет если так прописать в роботсе, это решит проблему дублей? Или надо еще что-то посерьезней (или более правильней)? Спасибо за советы. Последний раз редактировалось Сергей_К; 25.01.2014 в 20:25. Причина: убрал реальный урл
0 Сергей_К

	25.01.2014 22:27 #2
DESTER Сеошнег Регистрация: 15.02.2012 Сообщений: 454 Репутация: 112 Webmoney BL: ?	Все эти неучтенные урлы (и потенциальные служебные, которые могут вылезти) можно закрыть парой строк: Disallow: ? Disallow: /search/ Только проверьте, чтобы на сайте не было нужных страниц с урлами, содержащими "?". Влияние ссылок с социальных сетей
0 DESTER

	25.01.2014 23:16 #3
Сергей_К Студент Регистрация: 27.08.2012 Сообщений: 31 Репутация: 0 Webmoney BL: ?	DESTER, Спасибо, по 2 пункту Disallow: /search/ конечно решит исключение всего что насорил внутренний поиск. А вот с остальными нет, так как ? входит в "главный" , правильный урл инфо-блока т.е. mysite.ru/novosti-inform/?ID=92 или там mysite.ru/novosti-inform/?ID=192 , а вот все урлы, что содержит хоть что-то после номера ID желательно исключить. также как и все что содержит PAGEN_17 и back_url_admin= Я затрудняюсь в правильном написании условий, не моя это область знаний
0 Сергей_К

	25.01.2014 23:49 #4
hnurewnik Дипломник Регистрация: 17.11.2012 Сообщений: 179 Репутация: 137	Адрес сайта давайте, или пишите в ЛС, помогу) Нужно сначала сайт просканировать, потом уже что то говорить. SEO-продвижение, аудит сайта, СЯ
0 hnurewnik

	26.01.2014 00:18 #5
Сергей_К Студент Регистрация: 27.08.2012 Сообщений: 31 Репутация: 0 Webmoney BL: ?	hnurewnik, сайт http://medalirus.ru
0 Сергей_К

Помогите с дописываниенм условий в robots.txt

Опции темы

Тэги топика:

Похожие темы

помогите закрыть страницу в robots.txt

Помогите с robots.txt для DLE

Помогите составить robots.txt

Помогите разобраться с robots.txt

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры

	26.01.2014 00:57 #6
hnurewnik Дипломник Регистрация: 17.11.2012 Сообщений: 179 Репутация: 137	Во первых, страницы доступны по двум разным путям: http://medalirus.ru/anenskaya-medal/...29-1911-in.php http://medalirus.ru/anenskaya-medal/...9-1911-in.php/ Колдуйте с редиректами. Убрать последний слеш в url нужно. Во вторых, не закрывайте урлы типа - http://medalirus.ru/novosti-inform/?SECTION_ID=30 , это Ваши категории. Переделайте урл на чпу или не трогайте вообще. Ну можете посмотреть заходы с поиска на эти категории - если есть, то темболее оставлять. А по поводу robots.txt User-agent: * Disallow: /search/ Disallow: *back_url_admin Host: medalirus.ru Sitemap: http://medalirus.ru/sitemap.xml Но еще вкачайте карту сайта на сервер, прежняя карта сайта пустая. Ссылка на карту. Последний раз редактировалось hnurewnik; 26.01.2014 в 01:08. SEO-продвижение, аудит сайта, СЯ
0 hnurewnik

	26.01.2014 14:25 #7
Сергей_К Студент Регистрация: 27.08.2012 Сообщений: 31 Репутация: 0 Webmoney BL: ?	Спасибо за доп. подсказки по узким моментам. 1. Это несколько штук образовалось, когда ошибался с копированием урла при перелинковке, тут я вручную эти ссылки со слэшами исправлю. А для индексных страниц разделов, где слэши реально часто мешаются, все уже наколдовано :) . 2. http://medalirus.ru/novosti-inform/?SECTION_ID=30 да это категории, подразделы, но мне кажется индексно - трафиковая ценность у них похоже нулевая, за прошлый месяц через них на сайт был всего 2 захода. Там только перечни, а точней 100% повторы анонсов с "настоящих" страниц. Может пользы от их удаления будет больше? 3. А если в robots.txt прописать User-agent: Yandex Clean-param: SECTION_ID Clean-param: sphrase_id Clean-param: PAGEN_17 Clean-param: back_url_admin (хотя здесь Disallow: *back_url_admin - наверно лучше будет, а то там еще такой хвост в конце идет, одним обнулением параметра не обойтись) а для Гугла в Вебмастере их же исключить, поможет? 4. Disallow: /search/ - ясно. Спасибо за СитиМап, у меня файл не пустой у него просто адрес другой http://medalirus.ru/sitemap_index.xml а оттуда на http://medalirus.ru/sitemap_000.xml , ПС этот Битрикс вариант вполне устраивает. Последний раз редактировалось Сергей_К; 26.01.2014 в 14:35.
0 Сергей_К

Темы	Раздел	Ответов	Последний пост
помогите закрыть страницу в robots.txt	Вопросы от новичков	3	29.03.2012 16:03
Помогите с robots.txt для DLE	Web программирование	13	29.01.2012 15:09
Помогите составить robots.txt	Вопросы от новичков	4	09.11.2011 18:07
Помогите разобраться с robots.txt	Web программирование	10	20.08.2011 23:37