Можно использовать директиву Disallow, но чтобы накопительный вес передавался правильно, то нужно использовать уже не его, итак…Сегодня тема «Влияние Clean-param на Seo — как правильно настраивать»… соответственно, вы уже догадались какой параметр мы будем сегодня берем в работу).
Содержание статьи
Пример использование и предназначение
Clean-param — необходим для очистки некоторых get-параметров в ссылках сайтах, чтобы роботы поисковиков могли правильно понимать именно Правильные ссылки.
Например, есть ссылки — мы хотим, чтобы ссылки с параметром path — не учитывались, а только без него:
site.ru/index.php?path=524&product=524
site.ru/index.php?product=524
Они все показывают одно и тоже содержимое и путают роботов поисковиков, соответственно нужно в robots.txt указать так:
User-agent: Yandex
Clean-param: path /index.php
и тогда робот поймет, что нужно учитывать только site.ru/do_this.php?product=524 эту ссылку, а там, где параметр path — нужно игнорировать. Вот так просто мы избавились от дублей.
Обратите внимание: Яндекс это считает критической ошибкой и указывает так:
Найдены страницы-дубли с GET-параметрами |
Некоторые страницы с GET-параметрами в URL дублируют содержимое других страниц (без GET-параметров). Например, https://example.com/tovary?from=mainpage дублирует https://example.com/tovary. Из-за их обхода информация о важных для вас страницах может медленнее передаваться в поисковую базу, что может влиять на состояние сайта в поиске.
|
Естественно, на это нужно сразу реагировать.
Нюансы:
- сама директива является межсекционной — то есть может использоваться в любом месте файла.
Как закрыть страницы с utm метками от индексации
Очень просто, нужно лишь не указывать вторую часть, а лишь вот так :
User-agent: Yandex
Clean-param: utm
если второй параметр не указываем, то значит надо применять ко всему сайту!!!
Преимущества использования директивы clean param
- Допустим, у вас 10 тысяч товаров в интернет-магазине и все имеют utm метки или другие не нужные для роботов поисковых систем get-параметры. Им приходится обходить все эти страницы и индексировать их и «вес страницы начинает гулять»
- Вторая причина для использования clean-param и ее преимущество: снижается нагрузка на ваш сервер, так как роботы не будут его постоянно обходить, если вы все правильно укажите в robots.txt
Синтаксис
Clean-param: p0[&p1&p2&..&pn] [path]
первый параметр — это как раз отлавливаемый get
а второй — путь, для которого применяем правила.
1 — в первом параметре можно указывать сразу несколько get через &
Clean-param: pid&sort /forum/*.php
2- в конце первого параметра неявно дописывается * — то есть, все, что дальше это любой символ и мы указываем только начало
3 — в первом параметре можно указать регулярное выражение, но только эти символы: A-Za-z0-9.-/*_
4 — если не указать второй параметр — то считается, что этот get будет «ловится» и фильтроваться на всем сайте.
Для первого и второго параметра общее правило:
- длина не более 500 символов
- регистр учитывается!!!
Сочетание с Disallow
Они могут легко сочетаться, при этом Clean-param может указываться в любой месте — но!!! — преимущество у disallow — если там указано правило — не учитывать страницы форума, а в Clean-param фильтруется get — то это не имеет смысла, потому что страницы форума все не проиндексированы:
User-agent: Yandex
Disallow:/forum
Clean-param: pid&ref /forum*/showthread.php