Robots txt - это текстовый файл, в котором прописаны ограничения для поисковых краулеров. Эти правила скорее желательны (так как поисковый робот все равно может проиндексировать страницу). Если контент страницы носит конфиденциальный характер его (контент) лучше запаролить.
Файл robots txt определяет, что показывать для сканирования поисковому роботу. Для сайта с точки зрения краулингового бюджета это полезно. То есть робот не будет расходовать свои ресурсы на мусорных страницах, а получит нужный и проработанный контент, что приведет ваш сайт к первым позициям в выдаче. В этом главная задача robots txt для сайта. А чтобы ее реализовать, необходимо максимально корректно заполнить этот файл.
Файл роботс существует в формате .txt, то есть его мы будем создавать в Блокноте (подходят также Notepad++ или Sublime Text, но усложнять тут незачем. Мы берем самый простой редактор текстов). Когда нежелательные страницы в robots.txt будут прописаны, можно добавить robots.txt в корневой каталог (добавлять следует только туда).
Заходим на FTP-сервер вашего хостинга и ищем папку, где находится файл index.php, там и размещаем. В некоторых CMS сайта есть специальный пункт для загрузки такого файла. Теперь мы можем разобраться, где находится robots.txt.
Название у файла строго прописывается как: robots.txt (нельзя писать с заглавной буквы).
Для проверки наличия этого файла на сайте есть простой способ. Введите в адресную строку браузера такой адрес: ваш_сайт.ru/robots.txt
Прописать robots.txt можно:
Давайте остановимся на первом способе. В нем мы сможем настроить индивидуальные директивы, что даст более точные направления обхода краулеру.
Когда мы хотим, чтобы она исполнялась для всех приходящих краулеров, ставим значение: *. Разделять наборы директив следует пустой строкой. То есть перед последующим User-agent пропускаем строку.
Но нельзя ставить пропуск строки внутри правила для одного бота, так как это все же разделитель. Также, поисковый бот будет исполнять написанную конкретно для него директиву (если такая задана) и игнорировать другие.
Пример:
User-agent: *
Allow: /
User-agent: Yandex
Allow: /
User-agent: Googlebot
Allow: /
Когда мы хотим запретить индексацию, необходимо прописать Disallow: /название раздела/ (пример: Disallow: /bitrix/). Косая черта - это начало для URL-адреса, который мы хотим исключить.
Для разрешения индексации мы добавляем Allow. Имеет приоритет, среди правил (пример: Allow: /search/map.php).
Через данную директиву мы сообщаем, где находится XML карта сайта поисковым роботам. Указывается полный URL. Через нее поисковый бот узнает приоритетность сканирования страниц.
Пример:
Sitemap: https://website.com/sitemap2022.xml
Избавляет от дублирующейся информации поискового бота, снижая нагрузку на сервер. Через нее можно описывать такие GET параметры, как UTM метки.
Пример:
Clean-param: ref /folder/get_page.pl - для всех страниц с разными GET-параметрами после page.pl происходит сведение к исходной и далее обработка только ее.
Мы задаем инструкции директивами. Происходит индексация согласно инструкциям в robots.txt. Если возникает потребность закрыть сайт от индексации, можно это реализовать через корректный файл robots.txt, однако стоит понимать, что есть риск потерять весь наработанный рейтинг, если таковой имелся. Это стоит взять на заметку.
Закрывать сайт следует когда:
Давайте рассмотрим, как определить некоторые правила:
Не разрешать индексацию никому |
User-agent: * Disallow: / |
Не разрешать индексацию отдельному боту |
User-agent: Googlebot Disallow: / |
Разрешить индексацию только одному боту |
User-agent: * Disallow: / User-agent: Yandex Allow: / |
Также хочется отдельно рассмотреть примеры для конкретного содержимого:
Не разрешать индексацию папки |
User-agent: * Disallow: /page/ Disallow: /category/page/ |
Не разрешать индексацию страниц с параметрами |
User-agent: * Disallow: /*? |
Не разрешать индексацию страниц с определёнными расширениями |
User-agent: * Disallow: /*.html # запрет для HTML-страниц Disallow: /*.php # запрет для PHP-страниц |
Чтобы просто скопировать универсальный файл, можете кликнуть ниже. Пример настройки Robots.txt для Bitrixскачать
Надеюсь, что после данного материала вопрос - как настроить robots.txt, станет более понятным, и вы его корректно заполните.
Директивы Robots.txt для конкретных поисковых роботов, вместо общей для всех ботов (User-agent:*) лучше воспринимаются краулерами. Также иногда есть надобность закрыть в файле роботс тхт одни страницы для Google и открыть их для Яндекса (и наоборот). Будет полезно, если вы заглянете в Яндекс Вебмастер "Индексирование - Статистика обхода" и "Индексирование - Страницы в поиске". Эта информация покажет, что попало в обход краулера.
Правильная настройка robots.txt помогает поисковикам эффективнее индексировать важные страницы сайта, позволяет избежать индексации дублей контента, что улучшает позиции в выдаче. Грамотное использование директив может ускорить индексацию новых и важных разделов сайта.
Не используйте robots.txt для скрытия конфиденциальной информации. Файл общедоступен и может быть прочитан кем угодно. Вместо закрытия важных разделов в robots.txt, лучше защитить их паролем или настроить правила доступа на сервере.
Для сайтов с разными языковыми версиями используйте отдельные директивы для каждой версии.
Пример: User-agent: *Allow: /en/ Allow: /fr/ Allow: /de/ Disallow: /temp/
Правильный robots txt можно получить путем проверки файла в Яндекс Вебмастере или Google search console. Загружаем в соответствующий раздел (там интуитивно понятный и простой интерфейс) и смотрим, где встречаются ошибки.
Подводя итог, для внутренней оптимизации файл robots.txt определяющий, с него обычно начинают проверку. В него также загружают sitemap.xml, который уже задает схему обхода.
Понимание, что написано в файле robots.txt и периодический мониторинг Яндекс Вебмастера дадут вам преимущество при выборе поисковым роботом, какой сайт повысить в выдаче.