Robots.txt: что это и как составить правильный файл с примерами

Robots.txt: что это и как составить правильный файл с примерами

 Захаренко ЕвгенийЗахаренко Евгений
9 сентября 202442

Каждый веб-сайт может сталкивается с задачей контроля индексации своих страниц поисковыми системами. Один из основных инструментов для этого — robots.txt. В этой статье мы рассмотрим, что это за файл, зачем он нужен и как правильно его использовать для оптимизации вашего сайта.

Что такое robots.txt

Robots — это текстовый файл, который находится в корневой директории вашего сайта. Его основная функция — регулирование взаимодействия поисковых роботов с вашим сайтом. С его помощью вы можете разрешить или запретить индексацию определенных страниц, папок или файлов.

Зачем нужен

Основная цель robots.txt — оптимизация индексации сайта. С его помощью вы можете:

  • Скрыть служебные страницы. Например, страницы администратора, конфиденциальные данные или тестовые версии страниц.
  • Ускорить индексацию. Ограничив доступ к менее важным страницам, вы помогаете поисковым системам быстрее индексировать важный контент.
  • Снизить нагрузку на сервер. Поисковые роботы могут создавать дополнительную нагрузку на сервер, обходя ненужные страницы, файл позволяет снизить эту нагрузку.

Как составить

Robots.txt имеет простой текстовый формат и состоит из директив, указывающих, какие страницы следует или не следует индексировать. Рассмотрим основные директивы.

В файле robots используются различные директивы, каждая из которых имеет свое назначение. 

Основные директивы robots.txt

1. User-agent

Описание: Определяет, к какому поисковому роботу применяются указанные правила. 

Пример использования:

User-agent: Googlebot

Этот пример применяет правила только для робота Google.

Если указать символ *, то правила будут действовать для всех роботов:

User-agent: *

2. Disallow

Описание: Запрещает доступ к указанной странице или директории для робота. 

Пример использования директивы Disallow:

Disallow: /admin/

Этот пример запрещает доступ к папке /admin/ для всех страниц внутри нее.

3. Allow

Описание: Разрешает доступ к указанной странице или директории, даже если на более высоком уровне уже установлен запрет. Эта директива полезна, если нужно частично открыть доступ к определенным страницам внутри запрещенной папки. 

Disallow: /blog/
Allow: /blog/public/

Этот пример запрещает доступ к папке /blog/, но разрешает индексацию страницы /blog/public/.

4. Sitemap

Описание: Указывает путь к карте сайта (файл sitemap.xml). Это помогает поисковым роботам быстрее находить и индексировать страницы вашего сайта. 

Sitemap: https://example.com/sitemap.xml

Этот пример указывает, что карта сайта находится по адресу

5. Noindex (не стандартизирована, поддерживается Яндексом)

Описание: Запрещает индексацию содержимого страницы, хотя и не является стандартом для всех поисковых систем. 

User-agent: Yandex
Noindex: /private/

Этот пример запрещает Яндексу индексировать содержимое папки /private/.

6. Clean-param

Описание: Указывает параметры URL, которые можно игнорировать при индексации, чтобы избежать дублирования страниц. Поддерживается, в основном, Яндексом. 

Clean-param: session_id /path/to/page

Этот пример говорит Яндексу игнорировать параметр session_id при индексации страницы /path/to/page.

Пример robots.txt:

User-agent: *
Disallow: /private/
Allow: /private/public-page.html
Disallow: /bitrix/
Disallow: /search/
Disallow: /ajax/
Disallow: /personal/
Disallow: /*?
Disallow: /auth/
Disallow: /feedback/
Disallow: /html/
Disallow: /libs/
Disallow: /tools/

Crawl-delay: 5
Sitemap: https://example.com/sitemap.xml
Host: www.example.com

Что он делает:

  • Запрещает индексирование ко всей папке /private/ благодаря директиве, но делает исключение для страницы /private/public-page.html.
  • Запрещает сканирование к ссылкам, содержащим символ "?"
  • Устанавливает задержку в 5 секунд между запросами для всех роботов.
  • Указывает путь к sitemap.xml.
  • Задает основной домен сайта как www.example.com.

Эти директивы помогают эффективно управлять процессом индексации вашего сайта поисковыми роботами, снижать нагрузку на сервер и улучшать видимость сайта в поисковых системах.

Готовые Файлы robots.txt для популярных CMS

Правильный robots.txt для Wordpress

Disallow: /cgi-bin # Стандартная папка на хостинге.
Disallow: /wp-admin/ # Закрываем директивой админку.
Disallow: /? # Все параметры запроса на главной.
Disallow: *?s= # Поиск.
Disallow: *&s= # Поиск.
Disallow: /search # Поиск.
Disallow: /author/ # Архив автора.
Disallow: */embed$ # Все встраивания. Символ $ — конец строки.
Disallow: */page/ # Все виды пагинации.
Disallow: */xmlrpc.php # Файл WordPress API
Disallow: *utm*= # Ссылки с utm-метками
Disallow: *openstat= # Ссылки с метками openstat #

# Укажите актуальный путь к XML-карте сайта
Sitemap: https://site.ru/sitemap.xml

Правильный robots.txt для Bitrix

User-agent: * # правила для всех роботов
Disallow: /cgi-bin # папка на хостинге
Disallow: /bitrix/ # папка с системными файлами битрикса
Disallow: *bitrix_*= # GET-запросы битрикса
Disallow: /local/ # папка с системными файлами битрикса
Disallow: /*index.php$ # дубли страниц index.php
Disallow: /auth/ # авторизацияDisallow: *auth= # авторизация
Disallow: /personal/ # личный кабинет
Disallow: *register= # регистрация
Disallow: *forgot_password= # забыли пароль
Disallow: *change_password= # изменить пароль
Disallow: *login= # логин
Disallow: *logout= # выход
Disallow: */search/ # поиск
Disallow: *action= # действия
Disallow: *print= # печать
Disallow: *?new=Y # новая страница
Disallow: *?edit= # редактирование
Disallow: *?preview= # предпросмотр
Disallow: *backurl= # трекбеки
Disallow: *back_url= # трекбеки
Disallow: *back_url_admin= # трекбеки
Disallow: *captcha # каптча
Disallow: */feed # все фиды
Disallow: */rss # rss фид
Disallow: *?FILTER*= # здесь и ниже различные популярные параметры фильтров
Disallow: *?ei=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *B_ORDER=
Disallow: *BRAND=
Disallow: *CLEAR_CACHE=
Disallow: *ELEMENT_ID=
Disallow: *price_from=
Disallow: *price_to=
Disallow: *PROPERTY_TYPE=
Disallow: *PROPERTY_WIDTH=
Disallow: *PROPERTY_HEIGHT=
Disallow: *PROPERTY_DIA=
Disallow: *PROPERTY_OPENING_COUNT=
Disallow: *PROPERTY_SELL_TYPE=
Disallow: *PROPERTY_MAIN_TYPE=
Disallow: *PROPERTY_PRICE[*]=
Disallow: *S_LAST=
Disallow: *SECTION_ID=
Disallow: *SECTION[*]=
Disallow: *SHOWALL=
Disallow: *SHOW_ALL=
Disallow: *SHOWBY=
Disallow: *SORT=
Disallow: *SPHRASE_ID=
Disallow: *TYPE=
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Disallow: *from= # ссылки с метками from
Allow: */upload/ # открываем папку с файлами uploads
Allow: /bitrix/*.js # здесь и далее открываем для индексации скрипты
Allow: /bitrix/*.css
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg
Allow: /local/*.jpeg
Allow: /local/*.png
Allow: /local/*.gif

# Укажите актуальный путь к XML-карте сайта
Sitemap: https://site.ru/sitemap.xml

Правильный robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /tmp/

# Укажите актуальный путь к XML-карте сайта
Sitemap: https://site.ru/sitemap.xml

Ошибки при составлении robots.txt

Несмотря на простоту, ошибки в его создании могут привести к серьезным проблемам с индексацией. Вот несколько типичных ошибок:

  1. Полный запрет индексации: Неосторожное использование директивы Disallow: / может заблокировать сканирование ко всему сайту.
  2. Пропуск важных страниц: Если вы случайно добавите важные страницы в список директивы Disallow, они не будут отображаться в поисковой выдаче.
  3. Некорректный путь к sitemap: Убедитесь, что путь к файлу sitemap.xml указан правильно.

Проверка robots.txt

После создания важно проверить его на ошибки. Это можно сделать с помощью различных инструментов, таких как:

  • Google Search Console: В разделе «Файлы robots.txt» вы можете проверить правильность работы.
  • Яндекс.Вебмастер: Также предоставляет инструменты для анализа и тестирования robots.txt.

Основные правила, характеристики файла и синтаксис robots.txt

При создании файла robots необходимо соблюдать определенные правила и следовать ключевым характеристикам, которые обеспечат его правильную работу. Рассмотрим их подробнее.

  1. Название: Имя файла должно быть строго "robots.txt". Использование заглавных букв, кириллицы и других символов недопустимо.
  2. Количество: Для одного сайта можно использовать только один файл robots. Создание нескольких файлов для одного веб-ресурса не допускается.
  3. Расположение: robots должен находиться и быть доступен в корневом каталоге сайта. Например, для сайта http://site.ru/ его нужно разместить по адресу http://site.ru/robots.txt. Файл не должен находиться в подкаталогах сайта, таких как http://site.ru/pages/robots.txt. Если у вас нет доступа к корневому каталогу, обратитесь к хостинг-провайдеру. В случае невозможности размещения файла в корневом каталоге можно использовать мета-теги как альтернативу.
  4. Поддомены и нестандартные порты: Файл robots.txt может быть размещен на поддоменах или по нестандартным портам. Например, это может быть http://subdomain.site.ru/robots.txt или http://site.ru:8181/robots.txt.
  5. Комментарии: Любой текст, начинающийся с символа #, считается комментарием. Комментарии можно использовать для добавления заметок, объясняющих, почему определенные страницы или разделы были исключены из индексации.
  6. Формат: Файл robots.txt должен быть текстовым документом в кодировке UTF-8, включающей символы ASCII. Использование других кодировок или символов запрещено.
  7. Группы: Robots.txt состоит из групп директив. В одной группе могут содержаться несколько значений, каждая из которых пишется на отдельной строке.
  8. Содержание группы: Каждая группа включает информацию о том, для какого User-agent прописаны директивы, а также какие файлы или каталоги разрешены или запрещены для индексации.
  9. Порядок следования инструкций: Файл читается сверху вниз. Поисковый робот Google и Yandex будет следовать только тем инструкциям, которые соответствуют его User-agent.
  10. Разрешение индексации по умолчанию: Если Disallow не указана, robots.txt пуст, его размер превышает 32 КБ, он выдает ошибку 404 или другой код, отличный от 200 OK, либо файл отсутствует, страницы и каталоги будут индексироваться.
  11. Чувствительность к регистру: Инструкции в robots.txt чувствительны к регистру. Например, Disallow: /file.asp относится к URL http://www.site.ru/file.asp, но не применяется к http://www.site.ru/File.asp.
  12. Пробелы: Пробелы не влияют на выполнение инструкций. Однако рекомендуется использовать их только там, где это необходимо для улучшения читабельности.
  13. Закрывающие символы: В robots.txt не используются закрывающие символы, такие как точки в конце строки.
  14. Корректное написание директив: Они пишутся с заглавной буквы на латинице, например, "Allow", а не "ALLOW".
  15. Пустые строки: Пустая строка используется для разделения директив User-agent. После завершения группы для одного User-agent необходимо добавить пустую строку, чтобы правильно завершить инструкции.
  16. Символ «/»: Используется для указания статических страниц. Например, Disallow: /wp-includes запрещает индексацию каталога ядра WordPress.
  17. Приоритет: Для поисковых роботов порядок следования не имеет значения. Если Allow и Disallow конфликтуют, предпочтение отдается Allow.
  18. Минимизация инструкций: Нет необходимости прописывать инструкции для каждой отдельной страницы. Оптимизируйте его, используя общие директивы, которые применимы ко всем типовым URL-адресам вашего веб-сайта. Эффективный robots.txt должен быть кратким и одновременно охватывать все необходимые страницы.

Заключение

Robots.txt — важный инструмент в арсенале любого SEO-специалиста. Полностью правильная настройка помогает улучшить индексацию сайта у поисковиков, сократить нагрузку на сервер и защитить конфиденциальные данные. Однако важно помнить, что robots должен быть составлен и протестирован с особой тщательностью, чтобы избежать ошибок, которые могут негативно повлиять на видимость сайта в поисковых системах.

Больше полезной информации в
 Телеграм-канале
 Захаренко ЕвгенийЗахаренко Евгений

Вас может заинтересовать:

0 комментариев
Комментариев ещё нет — ваш может стать первым.


Оцените статью

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1
1 vote, average rating 5 of 5 5 5