Блог
👽 SEO-оптимизация
Ошибки в robots.txt, которые могут убить ваш трафик

👽 SEO-оптимизация

Ошибки в robots.txt, которые могут убить ваш трафик

5 февраля 2025
7 мин.
1628

Руководитель Rush Analytics Дмитрий Цытрош
Обновлено 6 мая 2025 Что изменено?

Robots.txt — это текстовый файл в корне сайта, который указывает поисковым роботам, какие страницы или разделы можно сканировать, а какие — нет. Он помогает управлять индексацией сайта, предотвращая попадание в поиск служебных или дублирующих страниц.

СОДЕРЖАНИЕ

Введение в robots.txt
Технические требования к файлу robots.txt
Директивы robots.txt
Заключение

Введение в robots.txt

Файл robots.txt является специальным текстовым файлом, который служит основным инструментом для регулирования поведения поисковых роботов на сайте. Размещаемый в корневой папке веб-ресурса, этот файл в кодировке UTF-8 содержит набор инструкций, указывающих веб-краулерам, какие разделы сайта разрешены или запрещены для индексации. Важно понимать, что поисковые системы воспринимают эти директивы как рекомендации, а не как обязательные к исполнению команды, что требует особого внимания при настройке важных ограничений доступа.

Для корректной работы файл должен быть доступен через стандартные веб-протоколы: http, https или ftp, причем его местоположение строго регламентировано – только корневая директория сайта. При отсутствии файла robots.txt поисковые роботы будут по умолчанию индексировать весь контент, что может привести к появлению в поисковой выдаче нежелательных страниц. Правильная настройка этого файла позволяет эффективно управлять процессом сканирования сайта и обеспечивать оптимальное представление контента в результатах поиска.

Файл robots.txt часто недооценивают, но это критический компонент технического SEO. Неправильная настройка может привести к катастрофическим последствиям, особенно при запуске новых разделов или редизайне.
Джон Мюллер,Search Advocate в Google

Ошибки в файле robots.txt могут привести к проблемам с индексацией и ухудшить видимость вашего сайта в поисковых системах. Чтобы оперативно выявлять нежелательные изменения в robots.txt и других ключевых элементах страницы, воспользуйтесь инструментом Метасканер — этот сервис ежедневно мониторит Title, H1, Description, Robots.txt и коды ответа, уведомляя вас о любых сбоях. Быстрая реакция на ошибки позволит сохранить стабильный SEO-трафик и поддерживать высокий уровень индексации сайта.

важно

Даже небольшая ошибка в robots.txt может привести к блокировке индексации важных страниц сайта. Регулярно проверяйте файл на корректность после любых изменений и настройте мониторинг индексации в поисковых системах.

Технические требования к файлу robots.txt

Создание корректного файла robots.txt требует соблюдения строгих технических спецификаций. Название файла должно быть написано исключительно латиницей в нижнем регистре, а его формат предполагает размещение только в корневой директории сайта. Критически важным является отклик сервера – при запросе файла должен возвращаться код успешного ответа 200.

Размер файла не должен превышать 32 КБ, а кодировка обязательно должна быть UTF-8. Для доменов на кириллице существует особое требование – все URL-адреса необходимо конвертировать в формат Punycode. Это обеспечивает корректное распознавание инструкций поисковыми роботами. Важно регулярно проверять соблюдение всех этих параметров, поскольку нарушение любого из них может привести к полному игнорированию директив файла поисковыми системами.

Чек-лист для проверки технической корректности файла robots.txt

✅ Файл имеет название “robots.txt” (строго в нижнем регистре)
✅ Файл расположен в корневой директории сайта
✅ Сервер возвращает код 200 при запросе файла
✅ Размер файла не превышает 32 КБ
✅ Используется кодировка UTF-8 без BOM
✅ Корректно обработаны кириллические URL (конвертированы в Punycode)

Директивы robots.txt

Директивы robots.txt представляют собой специальные инструкции, формирующие правила взаимодействия поисковых систем с вашим сайтом. Каждая директива должна размещаться на новой строке и соблюдать строгий синтаксис: название, двоеточие и параметр.

Базовый набор включает User-agent для идентификации поискового робота, Disallow для запрета индексации и Allow для явного разрешения доступа. Расширенные директивы включают Clean-param для обработки динамических URL, Crawl-delay для контроля скорости сканирования и Sitemap для указания карты сайта. Историческая директива Host, ранее используемая Яндексом, сейчас считается устаревшей.

Важно понимать, что директивы могут взаимодействовать друг с другом, создавая сложные правила индексации. Например, комбинация User-agent и Disallow может создавать различные правила для разных поисковых систем, а совместное использование Allow и Disallow позволяет точно настраивать доступ к определенным разделам сайта. При составлении инструкций необходимо учитывать специфику работы каждой поисковой системы, так как некоторые параметры могут интерпретироваться по-разному.

данные

Согласно исследованию, проведенному Ahrefs в 2023 году, 26% сайтов из топ-10000 имеют критические ошибки в файле robots.txt, при этом самыми распространенными проблемами являются неправильное использование директивы Disallow (47% всех ошибок) и блокировка CSS/JS файлов, необходимых для корректного рендеринга (31%).

Директива	Google	Яндекс	Bing
User-agent	✔️	✔️	✔️
Disallow	✔️	✔️	✔️
Allow	✔️	✔️	✔️
Clean-param	❌	✔️	❌
Host	❌	❌	❌
Crawl-delay	❌	❌	✔️
Sitemap	✔️	✔️	✔️

Для вас подарок! В свободном доступе до конца месяца

Получите подборку файлов

Для роста продаж с вашего сайта

Чек-лист по выбору SEO-подрядчика

5 шагов для быстрого роста
конверсии вашего сайта

Как проверить репутацию вашего бренда

Чек-лист по проверке рекламы
в Яндекс-Директ

Получить документы

Уже скачали 1348 раз

User-agent

Директива User-agent является обязательной для правильной конфигурации robots.txt и определяет, к каким поисковым роботам применяются последующие правила. Синтаксис директивы требует указания идентификатора после двоеточия, где символ звездочка (*) означает применение правил ко всем веб-краулерам одновременно. Для настройки индивидуального поведения используются специфические идентификаторы основных поисковых систем: Googlebot для Google, YandexBot для Яндекса, Bingbot для Bing и Mail.Ru для одноименной системы.

У каждой поисковой системы существуют также специализированные роботы: Googlebot-Image и YandexImages для индексации изображений, Googlebot-Mobile и YandexMobileBot для мобильных версий сайта. Директива должна располагаться в начале каждой группы правил, поскольку она определяет область действия всех последующих инструкций до следующего User-agent. Основные идентификаторы поисковых роботов включают:

• Googlebot, Googlebot-Image, Googlebot Mobile для Google

• YandexBot, YandexImages, YandexMobileBot для Яндекс

• Bingbot для Microsoft Bing

• Mail.Ru для Mail.ru

• AdsBot-Google для Google Ads

• Mediapartners-Google для Google AdSense

Disallow

Директива Disallow является основным инструментом для запрета доступа поисковых роботов к определенным разделам сайта. Базовый синтаксис директивы требует указания после двоеточия конкретного пути или URL, который необходимо закрыть от индексации. Существует несколько стандартных вариантов использования: Disallow: / полностью запрещает индексацию сайта, а Disallow: без указания пути разрешает сканирование всего контента. При указании путей поддерживаются специальные символы: звездочка (*) заменяет любую последовательность символов, а знак доллара ($) означает точное совпадение окончания URL.

Типичные сценарии применения включают: закрытие от индексации административных разделов (Disallow: /admin/), технических страниц (Disallow: /temp/), файлов определенного типа (Disallow: *.pdf$) и служебных скриптов (Disallow: /cgi-bin/). При составлении правил необходимо учитывать регистрозависимость и особенности обработки специальных символов различными поисковыми системами.

Мы часто наблюдаем ситуации, когда разработчики блокируют слишком много контента через директиву Disallow, не понимая всех последствий. В одном случае клиент заблокировал весь каталог товаров шаблоном Disallow: /products/, что привело к 90% падению органического трафика всего за две недели.
Лили Рэй,SEO-директор Path Interactive

Allow

Директива Allow используется для разрешения доступа к определенным разделам сайта, даже если они находятся внутри запрещенных директивой Disallow каталогов. Синтаксис требует указания после двоеточия пути к разрешенному разделу, например: Allow: /catalog/public/. При взаимодействии с Disallow действует система приоритетов: более длинный и конкретный путь имеет преимущество перед коротким и общим. Поддерживается использование специальных символов: звездочка () заменяет любую последовательность символов, а знак доллара ($) означает точное совпадение окончания URL.

Различные поисковые системы обрабатывают директиву Allow по-разному: робот Google bot отдает предпочтение запрещающим правилам Disallow, тогда как Яндекс полноценно поддерживает совместную работу Allow и Disallow. Типичный пример использования включает открытие отдельных страниц в закрытых разделах (Allow: /admin/sitemap.xml) или разрешение индексации определенных типов файлов в закрытой директории (Allow: /private/.pdf$).

Clean-param

Директива Clean-param предназначена для управления индексацией динамических URL, помогая поисковым роботам эффективно обрабатывать страницы с параметрами запроса и предотвращать появление дублированного контента. Синтаксис директивы включает два компонента: список игнорируемых параметров и опциональное указание пути. Базовая форма записи выглядит так: Clean-param: parameter_name /path/. Например, Clean-param: session_id /forum/ указывает игнорировать сессионные идентификаторы на страницах форума.

Для обработки нескольких параметров используется следующий формат: Clean-param: param1&param2 /path/. Важно учитывать, что эта директива поддерживается исключительно Яндексом, в то время как другие поисковые системы ее игнорируют. При необходимости работы с динамическими URL в Google следует использовать альтернативные методы, такие как мета-тег canonical или параметры URL в Google Search Console.

Примеры корректного использования Clean-param

User-agent: Yandex

Игнорировать параметры сортировки и фильтров на страницах каталога

Clean-param: sort&order&filter /catalog/

Игнорировать сессионные идентификаторы на всем сайте

Clean-param: session_id&sid /

Игнорировать UTM-метки только на страницах блога

Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term /blog/

Директива применяется только к тем URL, которые соответствуют указанному пути. Для разных URL можно создавать отдельные правила Clean-param с разными наборами параметров.

Host

Директива Host разработана Яндексом специально для указания приоритетного доменного имени при наличии нескольких зеркал сайта. Синтаксис директивы прост и требует указания основного домена после двоеточия: Host: www.example.com. Важно соблюдать несколько ключевых правил: в файле robots.txt допускается только одна активная директива Host; она должна размещаться либо в секции для Яндекса (User-agent: Yandex), либо в общей секции (User-agent: *). При наличии множественных директив Host поисковый робот учитывает только первую из них. Следует отметить, что Google и другие поисковые системы не поддерживают эту директиву, используя вместо неё альтернативные методы определения основного зеркала сайта, такие как canonical URL или настройки в консоли веб-мастера.

Crawl-delay

Директива Crawl-delay предназначена для контроля скорости обхода сайта поисковыми роботами и защиты сервера от перегрузок. Синтаксис директивы требует указания числового значения в секундах после двоеточия, определяющего паузу между запросами робота к страницам сайта. Например: Crawl-delay: 3 означает трехсекундный интервал между запросами.

Поддержка директивы различается среди поисковых систем: Bing и Yahoo! напрямую соблюдают указанные параметры, в то время как Яндекс и Google игнорируют Crawl-delay, предоставляя вместо этого специальные инструменты управления краулингом в своих панелях вебмастеров. Чрезмерно высокие значения Crawl-delay могут существенно замедлить индексацию сайта, поэтому рекомендуется использовать эту директиву только при явной необходимости регулирования нагрузки.

Sitemap

Директива Sitemap в файле robots.txt указывает поисковым системам расположение карты сайта – специального файла со списком всех URL ресурса. Синтаксис требует указания полного пути к файлу: Sitemap: https://example.com/sitemap.xml. Поддерживаются различные форматы файлов: XML (основной формат), RSS, TXT, а также сжатые версии в формате gzip. Все ведущие поисковые системы, включая Google и Яндекс, полностью поддерживают эту директиву.

В одном файле robots.txt допускается размещение нескольких директив Sitemap, каждая из которых должна быть указана на отдельной строке. Важной особенностью является возможность размещения директивы в любом месте файла – её действие распространяется на всех роботов независимо от секции User-agent. При недоступности указанного файла или неверном формате URL поисковые системы просто пропускают соответствующую директиву, продолжая обработку остальных правил robots.txt.

Бинарные операторы

В файле robots.txt применяются два ключевых бинарных оператора: знак доллара ($) и звездочка (*). Оператор $ обеспечивает точное совпадение в конце строки, что особенно полезно при работе с определенными типами файлов. Например, правило Disallow: .pdf$ запрещает индексацию всех PDF-документов. Оператор * заменяет любое количество символов в строке: Allow: /catalog/.html разрешает индексацию всех HTML-страниц в каталоге. Google и Яндекс поддерживают оба оператора, позволяя создавать гибкие правила для управления индексацией.

При составлении сложных правил с комбинацией операторов важно учитывать их приоритет и правильный порядок написания. Некорректное использование операторов может привести к неожиданным результатам, поэтому рекомендуется проверять работу правил через инструменты веб-мастеров обеих поисковых систем.

Комментарии в robots.txt обозначаются символом решетки (#) и служат для документирования правил файла. Поисковые роботы Google и Яндекс полностью игнорируют текст, следующий за символом # до конца строки. Разработчики могут использовать комментарии двумя способами: размещая их на отдельных строках для общего описания секций (# Правила для всех роботов) или добавляя пояснения после директив (Disallow: /admin/ # запрет доступа к админ-панели).

Важно соблюдать единый стиль написания комментариев для удобства дальнейшего обслуживания файла. Стоит помнить, что директива, начинающаяся с символа #, становится неактивной и не обрабатывается поисковыми роботами.

Кодировка файла

Файл robots требует корректной кодировки для правильной обработки поисковыми системами. Рекомендуемыми форматами являются UTF-8 без BOM (Byte Order Mark) или ASCII. Ведущие поисковые системы Google и Яндекс официально поддерживают и рекомендуют использование UTF-8 как наиболее универсальной кодировки.

Неправильная кодировка может привести к ошибкам в интерпретации директив, особенно при использовании нелатинских символов в URL-адресах. Для обеспечения корректной работы важно проверять кодировку файла специализированными инструментами и настраивать сервер на передачу robots.txt с правильным заголовком Content-Type: text/plain.

Расположение файла

Файл robots должен располагаться исключительно в корневом каталоге на сайте и быть доступным по прямому URL вида example.com/robots.txt. Поисковые системы Google и Яндекс строго следуют этому требованию и не обрабатывают файлы с другим названием или расположением в поддиректориях. Сервер должен возвращать код ответа 200 при запросе файла, а его размер не должен превышать установленный лимит в 500 КБ.

При работе с многоязычными сайтами необходимо создавать отдельный robots.txt для каждого поддомена. Критически важно обеспечить прямой доступ к файлу без редиректов и авторизации. Для контроля корректности расположения и доступности файла следует регулярно использовать инструменты веб-мастеров обеих поисковых систем.

Правила составления URL

При написании URL в robots.txt необходимо начинать адрес с прямого слеша (/), не указывая протокол (http:// или https://) и доменное имя. Поисковые системы Google и Яндекс обрабатывают как точные URL-адреса (/catalog/products/), так и шаблоны с масками (/catalog/*). Русскоязычные URL требуют обязательного URL-кодирования для корректного распознавания. Параметры в адресах указываются после знака вопроса (/search?query=). При составлении правил важно учитывать регистрозависимость – /Page/ и /page/ считаются разными адресами. Несоблюдение этих правил может привести к некорректной обработке директив поисковыми роботами.

Максимальный размер файла

Поисковые системы Google и Яндекс устанавливают строгое ограничение на размер файла robots.txt – не более 500 КБ (примерно 500000 символов). Превышение этого лимита может привести к частичной или полной остановке обработки правил поисковыми роботами. Для эффективной работы рекомендуется поддерживать компактный размер файла, объединяя похожие правила с помощью шаблонов и регулярных выражений. При добавлении новых директив важно следить за общим объемом файла и своевременно оптимизировать его содержимое, удаляя избыточные правила.

HTTP-заголовки ответа

При запросе файла robots.txt сервер должен отправлять определенные HTTP-заголовки для корректной обработки поисковыми системами Google и Яндекс. Ключевым требованием является возврат кода ответа 200 OK при наличии файла и установка заголовка Content-Type со значением text/plain. Отсутствующий файл должен возвращать код 404 Not Found. Использование редиректов или запрос авторизации недопустимы. Сервер может применять сжатие контента через заголовок Content-Encoding (gzip или deflate). Неправильная настройка HTTP-заголовков приводит к нарушению индексации сайта поисковыми роботами.

Кодировка файла

Корректная работа robots.txt требует использования кодировки UTF-8, которая обеспечивает правильное распознавание всех символов поисковыми системами Google и Яндекс. Другие кодировки, включая Windows-1251 или ASCII, могут вызвать проблемы с интерпретацией специальных символов в правилах. При создании файла необходимо исключить BOM-маркер, который вызывает ошибки чтения. Для проверки корректности кодировки следует использовать инструменты веб-мастеров. Неправильная кодировка файла приводит к сбоям в работе директив и некорректной обработке правил роботами.

Безопасность и конфиденциальность

внимание

Не используйте robots.txt для защиты конфиденциальной информации. Директивы Disallow только рекомендуют поисковым роботам не индексировать контент, но НЕ БЛОКИРУЮТ доступ к нему для пользователей или злоумышленников. Для защиты личных данных используйте HTTP-авторизацию, файлы .htaccess или другие механизмы контроля доступа.

При работе с robots.txt необходимо учитывать аспекты безопасности, поскольку файл доступен публично. Google и Яндекс настоятельно рекомендуют не размещать в нем конфиденциальные данные – пароли, ключи доступа или секретные URL. Злоумышленники проводить анализ файла robots для поиска уязвимостей сайтов. Для защиты sensitive-информации следует использовать альтернативные методы ограничения доступа, такие как авторизация или шифрование. Важно регулярно проводить анализ robots на ошибки и отсутствие утечек конфиденциальных данных и помнить, что запрет индексации не обеспечивает полную защиту контента.

Обновление и мониторинг

Эффективное управление индексацией сайтов требует регулярного обновления и мониторинга robots.txt. Инструменты веб-мастеров Google и Яндекс позволяют проводить проверку файла на наличие ошибок в директивах как минимум раз в месяц. После внесения изменений важен постоянный мониторинг статистики индексации через панели поисковых систем. Рекомендуется настроить систему оповещений о проблемах с доступностью файла или ошибках в его работе. Своевременное обнаружение и исправление проблем гарантирует корректную работу правил индексации сайтов.

Заключение

Грамотная настройка robots.txt является фундаментальным элементом в управлении индексацией сайтов поисковыми системами Google и Яндекс. Корректное применение директив помогает оптимизировать сканирование ресурса и обеспечить защиту важных разделов от индексации. Успешная работа с файлом требует соблюдения рекомендаций по оформлению, выполнения регулярного мониторинга и своевременных обновлений. При настройке файла robots необходимо учитывать вопросы безопасности и понимать возможности инструмента. Профессиональный подход к работе с robots.txt гарантирует эффективное взаимодействие с поисковыми роботами и оптимальную индексацию сайтов.