Спросить сейчас

Как настроить robots.txt?

14 апреля 2022
Как настроить robots.txt?
Кристина Соколовская
SEO специалист

Что дает файл robots txt для сайта?

Robots txt - это текстовый файл, в котором прописаны ограничения для поисковых краулеров. Эти правила скорее желательны (так как поисковый робот все равно может проиндексировать страницу). Если контент страницы носит конфиденциальный характер его (контент) лучше запаролить.

Файл robots txt определяет, что показывать для сканирования поисковому роботу. Для сайта с точки зрения краулингового бюджета это полезно. То есть робот не будет расходовать свои ресурсы на мусорных страницах, а получит нужный и проработанный контент, что приведет ваш сайт к первым позициям в выдаче. В этом главная задача robots txt для сайта, а чтобы ее реализовать необходимо максимально корректно заполнить этот файл.

Как создать robots txt?

Файл роботс существует в формате .txt, то есть его мы будем создавать в Блокноте (подходят также Notepad++ или Sublime Text, но усложнять тут незачем. Мы берем самый простой редактор текстов). Когда нежелательные страницы в robots.txt будут прописаны, можно добавить robots.txt в корневой каталог (добавлять следует только туда). 

Заходим на FTP-сервер вашего хостинга и ищем папку, где находится файл index.php, там и размещаем. В некоторых CMS сайта есть специальный пункт для загрузки такого файла. Теперь мы можем разобраться, где находится robots.txt.

Название у файла строго прописывается как: robots.txt (нельзя писать с заглавной буквы).

Для проверки наличия этого файла на сайте есть простой способ. Введите в адресную строку браузера такой адрес: ваш_сайт.ru/robots.txt

Директивы robots txt

robots txt

Прописать robots.txt можно:

  1. Вручную - мы рассмотрим ниже символы, правила и примеры, дающие базовое представление о принципе работы файла.
  2. Генератором - для данного способа можно воспользоваться сервисом https://pr-cy.ru/robots/ или https://iksweb.ru/tools/robots/.
  3. Используя готовый шаблон - для данного способа также будет приведен файл ниже.

Давайте остановимся на первом способе. В нем мы сможем настроить индивидуальные директивы, что даст более точные направления обхода краулеру.

  • Директива User-agent

Когда мы хотим, чтобы она исполнялась для всех приходящих краулеров мы ставим значение: *. Разделять наборы директив следует пустой строкой. То есть перед последующим User-agent пропускаем строку. 

Но нельзя ставить пропуск строки внутри правила для одного бота, так как это все же разделитель. Также, поисковый бот будет исполнять написанную конкретно для него директиву (если такая задана) и игнорировать другие.

Пример:

User-agent: *

Allow: /

User-agent: Yandex

Allow: /

User-agent: Googlebot

Allow: /

  • Директива Disallow

Когда мы хотим запретить индексацию, необходимо прописать Disallow: /название раздела/ (пример: Disallow: /bitrix/). Косая черта - это начало для URL-адреса, который мы хотим исключить.

  • Директива Allow

Для разрешения индексации мы добавляем Allow. Имеет приоритет, среди правил (пример: Allow: /search/map.php).

  • Директива Sitemap

Через данную директиву мы сообщаем, где находится XML карта сайта поисковым роботам. Указывается полный URL. Через нее поисковый бот узнает приоритетность сканирования страниц.

Пример:

Sitemap: https://website.com/sitemap2022.xml

  • Директива Clean-param

Избавляет от дублирующейся информации поискового бота, снижая нагрузку на сервер. Через нее можно описывать такие GET параметры, как UTM метки.

Пример:

Clean-param: ref /folder/get_page.pl - для всех страниц с разными GET-параметрами после page.pl происходит сведение к исходной и далее обработка только ее.

Управление индексацией сайта с robots txt

файл robots txt

Мы задаем инструкции директивами. Происходит индексация согласно инструкциям в robots.txt. Если возникает потребность закрыть сайт от индексации, можно это реализовать через корректный файл robots.txt, однако стоит понимать, что есть риск потерять весь наработанный рейтинг, если таковой имелся. Это стоит взять на заметку.

Закрывать сайт следует когда:

  • Сайт не доработан, или на нем происходят изменения. Недоработанный контент может повредить рейтингу в поиске, поэтому сайт на время лучше скрыть.
  • Мобильная версия разрабатывается на отдельном домене. Тогда, чтобы не индексировались дубли, лучше скрыть.
  • Площадка тестируется на другом домене. Также - это создает дубли, которые лучше скрывать.

Давайте рассмотрим, как определить некоторые правила:

Не разрешать индексацию никому

User-agent: *

Disallow: /

Не разрешать индексацию отдельному боту

User-agent: Googlebot

Disallow: /

Разрешить индексацию только одному боту

User-agent: *

Disallow: /

User-agent: Yandex

Allow: /

Также хочется отдельно рассмотреть примеры для конкретного содержимого:

Не разрешать индексацию папки

User-agent: *

Disallow: /page/

Disallow: /category/page/

Не разрешать индексацию страниц с параметрами

User-agent: *

Disallow: /*?

Не разрешать индексацию страниц с определёнными расширениями

User-agent: *

Disallow: /*.html # запрет для HTML-страниц

Disallow: /*.php # запрет для PHP-страниц

Robots txt пример

Чтобы просто скопировать универсальный файл, можете кликнуть ниже. Пример настройки Robots.txt для Bitrix скачать

Как выглядит настройка robots txt?

  1. Такой файл только один должен быть.
  2. Вес файла не должен превышать 32 КБ.
  3. Директивы прописываются только на латинском языке. Адрес сайта также: если он кириллический, его нужно переконвертировать в punycode.
  4. Создавайте файл с названием robots.txt (txt - это расширение). Даже заглавная буква уже сделает некорректной работу.
  5. Чтобы прописать новую директиву, переходим на новую строчку. В строке содержится одна инструкция (если их больше, то файл работает некорректно).
  6. В конце инструкций никаких знаков ставить не нужно (это касается точки с запятой или просто точки).
  7. Когда вы прописали директивы, нужно сохранить файл в корневой каталог сайта. Сделать это можно через FTP-клиента.
  8. Способ для проверки файла мы указали выше. Просто добавляете /robots.txt к названию сайта. Этот файл в открытом доступе, поэтому вы всегда сможете его посмотреть.

Надеюсь, что после данного материала вопрос - как настроить robots.txt, станет более понятным, и вы его корректно заполните.

Robots.txt для Яндекса

Директивы Robots.txt для конкретных поисковых роботов, вместо общей для всех ботов (User-agent:*) лучше воспринимаются краулерами. Также иногда есть надобность закрыть в файле роботс тхт одни страницы для Google и открыть их для Яндекса (и наоборот). Будет полезно, если вы заглянете в Яндекс Вебмастер "Индексирование - Статистика обхода" и "Индексирование - Страницы в поиске". Эта информация покажет, что попало в обход краулера.

Проверка файла robots txt

robots txt

Правильный robots txt можно получить путем проверки файла в Яндекс Вебмастере или Google search console. Загружаем в соответствующий раздел (там интуитивно понятный и простой интерфейс) и смотрим, где встречаются ошибки.

Ошибки, часто встречающиеся в файле robots.txt

  • Не путайте инструкции. User-agent - это название поискового краулера, Disallow - директива, или страница. Не меняйте их местами.
  • В одной инструкции Disallow не может быть двух каталогов сразу.
  • Название должно быть robots.txt, а не Robots.txt или ROBOTS.TXT.
  • Обратите внимание: файл должен называться robots.txt. Буква S здесь обязательна. Не пишите txt.
  • Пустой строки в User-agent быть не должно, ставим * если хотим обозначить правила для всех ботов.

Подводя итог, для внутренней оптимизации файл robots.txt определяющий, с него обычно начинают проверку. В него также загружают sitemap.xml, который уже задает схему обхода.

Понимание, что написано в файле robots.txt и периодический мониторинг Яндекс Вебмастера дадут вам преимущество при выборе поисковым роботом, какой сайт повысить в выдаче.