Robots.txt: Что это такое и как его правильно настроить для сайта

Robots.txt: что это и как составить правильный файл с примерами

9 сентября 2024414

Каждый веб-сайт может сталкивается с задачей контроля индексации своих страниц поисковыми системами. Один из основных инструментов для этого — robots.txt. В этой статье мы рассмотрим, что это за файл, зачем он нужен и как правильно его использовать для оптимизации вашего сайта.

Что такое robots.txt

Robots — это текстовый файл, который находится в корневой директории вашего сайта. Его основная функция — регулирование взаимодействия поисковых роботов с вашим сайтом. С его помощью вы можете разрешить или запретить индексацию определенных страниц, папок или файлов.

Зачем нужен

Основная цель robots.txt — оптимизация индексации сайта. С его помощью вы можете:

Скрыть служебные страницы. Например, страницы администратора, конфиденциальные данные или тестовые версии страниц.
Ускорить индексацию. Ограничив доступ к менее важным страницам, вы помогаете поисковым системам быстрее индексировать важный контент.
Снизить нагрузку на сервер. Поисковые роботы могут создавать дополнительную нагрузку на сервер, обходя ненужные страницы, файл позволяет снизить эту нагрузку.

Как составить

Robots.txt имеет простой текстовый формат и состоит из директив, указывающих, какие страницы следует или не следует индексировать. Рассмотрим основные директивы.

В файле robots используются различные директивы, каждая из которых имеет свое назначение.

Основные директивы robots.txt

1. User-agent

Описание: Определяет, к какому поисковому роботу применяются указанные правила.

Пример использования:

User-agent: Googlebot

Этот пример применяет правила только для робота Google.

Если указать символ *, то правила будут действовать для всех роботов:

User-agent: *

2. Disallow

Описание: Запрещает доступ к указанной странице или директории для робота.

Пример использования директивы Disallow:

Disallow: /admin/

Этот пример запрещает доступ к папке /admin/ для всех страниц внутри нее.

3. Allow

Описание: Разрешает доступ к указанной странице или директории, даже если на более высоком уровне уже установлен запрет. Эта директива полезна, если нужно частично открыть доступ к определенным страницам внутри запрещенной папки.

Disallow: /blog/
Allow: /blog/public/

Этот пример запрещает доступ к папке /blog/, но разрешает индексацию страницы /blog/public/.

4. Sitemap

Описание: Указывает путь к карте сайта (файл sitemap.xml). Это помогает поисковым роботам быстрее находить и индексировать страницы вашего сайта.

Sitemap: https://example.com/sitemap.xml

Этот пример указывает, что карта сайта находится по адресу

5. Noindex (не стандартизирована, поддерживается Яндексом)

Описание: Запрещает индексацию содержимого страницы, хотя и не является стандартом для всех поисковых систем.

User-agent: Yandex
Noindex: /private/

Этот пример запрещает Яндексу индексировать содержимое папки /private/.

6. Clean-param

Описание: Указывает параметры URL, которые можно игнорировать при индексации, чтобы избежать дублирования страниц. Поддерживается, в основном, Яндексом.

Clean-param: session_id /path/to/page

Этот пример говорит Яндексу игнорировать параметр session_id при индексации страницы /path/to/page.

Пример robots.txt:

User-agent: *
Disallow: /private/
Allow: /private/public-page.html
Disallow: /bitrix/
Disallow: /search/
Disallow: /ajax/
Disallow: /personal/
Disallow: /*?
Disallow: /auth/
Disallow: /feedback/
Disallow: /html/
Disallow: /libs/
Disallow: /tools/

Crawl-delay: 5
Sitemap: https://example.com/sitemap.xml
Host: www.example.com

Что он делает:

Запрещает индексирование ко всей папке /private/ благодаря директиве, но делает исключение для страницы /private/public-page.html.
Запрещает сканирование к ссылкам, содержащим символ "?"
Устанавливает задержку в 5 секунд между запросами для всех роботов.
Указывает путь к sitemap.xml.
Задает основной домен сайта как www.example.com.

Эти директивы помогают эффективно управлять процессом индексации вашего сайта поисковыми роботами, снижать нагрузку на сервер и улучшать видимость сайта в поисковых системах.

Готовые Файлы robots.txt для популярных CMS

Правильный robots.txt для Wordpress

Disallow: /cgi-bin # Стандартная папка на хостинге.
Disallow: /wp-admin/ # Закрываем директивой админку.
Disallow: /? # Все параметры запроса на главной.
Disallow: *?s= # Поиск.
Disallow: *&s= # Поиск.
Disallow: /search # Поиск.
Disallow: /author/ # Архив автора.
Disallow: */embed$ # Все встраивания. Символ $ — конец строки.
Disallow: */page/ # Все виды пагинации.
Disallow: */xmlrpc.php # Файл WordPress API
Disallow: *utm*= # Ссылки с utm-метками
Disallow: *openstat= # Ссылки с метками openstat #

# Укажите актуальный путь к XML-карте сайта
Sitemap: https://site.ru/sitemap.xml

Правильный robots.txt для Bitrix

User-agent: * # правила для всех роботов
Disallow: /cgi-bin # папка на хостинге
Disallow: /bitrix/ # папка с системными файлами битрикса
Disallow: *bitrix_*= # GET-запросы битрикса
Disallow: /local/ # папка с системными файлами битрикса
Disallow: /*index.php$ # дубли страниц index.php
Disallow: /auth/ # авторизацияDisallow: *auth= # авторизация
Disallow: /personal/ # личный кабинет
Disallow: *register= # регистрация
Disallow: *forgot_password= # забыли пароль
Disallow: *change_password= # изменить пароль
Disallow: *login= # логин
Disallow: *logout= # выход
Disallow: */search/ # поиск
Disallow: *action= # действия
Disallow: *print= # печать
Disallow: *?new=Y # новая страница
Disallow: *?edit= # редактирование
Disallow: *?preview= # предпросмотр
Disallow: *backurl= # трекбеки
Disallow: *back_url= # трекбеки
Disallow: *back_url_admin= # трекбеки
Disallow: *captcha # каптча
Disallow: */feed # все фиды
Disallow: */rss # rss фид
Disallow: *?FILTER*= # здесь и ниже различные популярные параметры фильтров
Disallow: *?ei=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *B_ORDER=
Disallow: *BRAND=
Disallow: *CLEAR_CACHE=
Disallow: *ELEMENT_ID=
Disallow: *price_from=
Disallow: *price_to=
Disallow: *PROPERTY_TYPE=
Disallow: *PROPERTY_WIDTH=
Disallow: *PROPERTY_HEIGHT=
Disallow: *PROPERTY_DIA=
Disallow: *PROPERTY_OPENING_COUNT=
Disallow: *PROPERTY_SELL_TYPE=
Disallow: *PROPERTY_MAIN_TYPE=
Disallow: *PROPERTY_PRICE[*]=
Disallow: *S_LAST=
Disallow: *SECTION_ID=
Disallow: *SECTION[*]=
Disallow: *SHOWALL=
Disallow: *SHOW_ALL=
Disallow: *SHOWBY=
Disallow: *SORT=
Disallow: *SPHRASE_ID=
Disallow: *TYPE=
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Disallow: *from= # ссылки с метками from
Allow: */upload/ # открываем папку с файлами uploads
Allow: /bitrix/*.js # здесь и далее открываем для индексации скрипты
Allow: /bitrix/*.css
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg
Allow: /local/*.jpeg
Allow: /local/*.png
Allow: /local/*.gif

# Укажите актуальный путь к XML-карте сайта
Sitemap: https://site.ru/sitemap.xml

Правильный robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /tmp/

# Укажите актуальный путь к XML-карте сайта
Sitemap: https://site.ru/sitemap.xml

Ошибки при составлении robots.txt

Несмотря на простоту, ошибки в его создании могут привести к серьезным проблемам с индексацией. Вот несколько типичных ошибок:

Полный запрет индексации: Неосторожное использование директивы Disallow: / может заблокировать сканирование ко всему сайту.
Пропуск важных страниц: Если вы случайно добавите важные страницы в список директивы Disallow, они не будут отображаться в поисковой выдаче.
Некорректный путь к sitemap: Убедитесь, что путь к файлу sitemap.xml указан правильно.

Проверка robots.txt

После создания важно проверить его на ошибки. Это можно сделать с помощью различных инструментов, таких как:

Google Search Console: В разделе «Файлы robots.txt» вы можете проверить правильность работы.
Яндекс.Вебмастер: Также предоставляет инструменты для анализа и тестирования robots.txt.

Основные правила, характеристики файла и синтаксис robots.txt

При создании файла robots необходимо соблюдать определенные правила и следовать ключевым характеристикам, которые обеспечат его правильную работу. Рассмотрим их подробнее.

Название: Имя файла должно быть строго "robots.txt". Использование заглавных букв, кириллицы и других символов недопустимо.
Количество: Для одного сайта можно использовать только один файл robots. Создание нескольких файлов для одного веб-ресурса не допускается.
Расположение: robots должен находиться и быть доступен в корневом каталоге сайта. Например, для сайта http://site.ru/ его нужно разместить по адресу http://site.ru/robots.txt. Файл не должен находиться в подкаталогах сайта, таких как http://site.ru/pages/robots.txt. Если у вас нет доступа к корневому каталогу, обратитесь к хостинг-провайдеру. В случае невозможности размещения файла в корневом каталоге можно использовать мета-теги как альтернативу.
Поддомены и нестандартные порты: Файл robots.txt может быть размещен на поддоменах или по нестандартным портам. Например, это может быть http://subdomain.site.ru/robots.txt или http://site.ru:8181/robots.txt.
Комментарии: Любой текст, начинающийся с символа #, считается комментарием. Комментарии можно использовать для добавления заметок, объясняющих, почему определенные страницы или разделы были исключены из индексации.
Формат: Файл robots.txt должен быть текстовым документом в кодировке UTF-8, включающей символы ASCII. Использование других кодировок или символов запрещено.
Группы: Robots.txt состоит из групп директив. В одной группе могут содержаться несколько значений, каждая из которых пишется на отдельной строке.
Содержание группы: Каждая группа включает информацию о том, для какого User-agent прописаны директивы, а также какие файлы или каталоги разрешены или запрещены для индексации.
Порядок следования инструкций: Файл читается сверху вниз. Поисковый робот Google и Yandex будет следовать только тем инструкциям, которые соответствуют его User-agent.
Разрешение индексации по умолчанию: Если Disallow не указана, robots.txt пуст, его размер превышает 32 КБ, он выдает ошибку 404 или другой код, отличный от 200 OK, либо файл отсутствует, страницы и каталоги будут индексироваться.
Чувствительность к регистру: Инструкции в robots.txt чувствительны к регистру. Например, Disallow: /file.asp относится к URL http://www.site.ru/file.asp, но не применяется к http://www.site.ru/File.asp.
Пробелы: Пробелы не влияют на выполнение инструкций. Однако рекомендуется использовать их только там, где это необходимо для улучшения читабельности.
Закрывающие символы: В robots.txt не используются закрывающие символы, такие как точки в конце строки.
Корректное написание директив: Они пишутся с заглавной буквы на латинице, например, "Allow", а не "ALLOW".
Пустые строки: Пустая строка используется для разделения директив User-agent. После завершения группы для одного User-agent необходимо добавить пустую строку, чтобы правильно завершить инструкции.
Символ «/»: Используется для указания статических страниц. Например, Disallow: /wp-includes запрещает индексацию каталога ядра WordPress.
Приоритет: Для поисковых роботов порядок следования не имеет значения. Если Allow и Disallow конфликтуют, предпочтение отдается Allow.
Минимизация инструкций: Нет необходимости прописывать инструкции для каждой отдельной страницы. Оптимизируйте его, используя общие директивы, которые применимы ко всем типовым URL-адресам вашего веб-сайта. Эффективный robots.txt должен быть кратким и одновременно охватывать все необходимые страницы.

Заключение

Robots.txt — важный инструмент в арсенале любого SEO-специалиста. Полностью правильная настройка помогает улучшить индексацию сайта у поисковиков, сократить нагрузку на сервер и защитить конфиденциальные данные. Однако важно помнить, что robots должен быть составлен и протестирован с особой тщательностью, чтобы избежать ошибок, которые могут негативно повлиять на видимость сайта в поисковых системах.