Robots txt как настроить: создайте в корне сайта текстовый файл robots.txt, пропишите директиву User-agent, закройте служебные разделы через Disallow и укажите адрес карты сайта в Sitemap. Файл управляет тем, какие страницы поисковый робот обходит, поэтому одна лишняя строка способна убрать из выдачи весь сайт.
Мы в lucky-seo продвигаем сайты бизнеса и регулярно чиним ситуацию, когда весь сайт случайно закрыт от индексации одной строкой в robots.txt. Настройка robots txt выглядит простой, но именно здесь бизнес теряет позиции и заявки на ровном месте. В этом гайде разберём по шагам, как составить рабочий файл, покажем готовые примеры для популярных CMS и подскажем, где чаще всего ошибаются.
- Что такое robots.txt и зачем он бизнесу
- Как настроить файл robots txt: пошаговая инструкция
- Кириллица и кодировка в файле robots.txt
- Основные директивы и синтаксис robots.txt
- Готовый robots.txt для популярных CMS
- Требования к файлу и типичные ограничения
- Директивы robots.txt: полный разбор
- Инструменты для проверки robots.txt
- Частые вопросы
- Выводы
Что такое robots.txt и зачем он бизнесу
Robots.txt (robots exclusion file), это текстовый файл в корне сайта, который подсказывает поисковым роботам, какие разделы можно обходить, а какие трогать не нужно. Он лежит по адресу вида ваш-домен.ру/robots.txt и открывается в браузере как обычный текст.
Для бизнеса это не техническая формальность, а инструмент управления бюджетом обхода. Робот тратит ограниченное время на сайт, и если он ползает по служебным страницам, корзинам и фильтрам, до важных коммерческих страниц руки могут не дойти. Грамотная настройка robots txt направляет робота на то, что приносит заявки: карточки товаров, услуги, посадочные страницы.
Важно понимать границу. Robots.txt управляет обходом, а не индексацией напрямую. Закрытая в нём страница всё равно может попасть в выдачу, если на неё ведут внешние ссылки. Чтобы гарантированно убрать страницу из поиска, используют метатег noindex, а не только Disallow.
Перед любыми правками откройте текущий robots.txt по адресу ваш-сайт.ру/robots.txt и сохраните копию. Если что-то пойдёт не так, вы за минуту вернёте рабочую версию вместо того, чтобы вспоминать, что там было.
Как настроить файл robots txt: пошаговая инструкция
Настройка файла robots txt проходит по понятному порядку, и его стоит держать перед глазами, чтобы не пропустить критичный шаг. Ниже последовательность, которую мы используем на практике проектов при запуске и аудите сайтов.
- Создайте обычный текстовый файл с именем robots.txt в кодировке UTF-8.
- Разместите его строго в корне сайта, чтобы он открывался по адресу домен.ру/robots.txt.
- Пропишите директиву User-agent и укажите, для каких роботов действуют правила.
- Закройте через Disallow служебные разделы: админку, корзину, страницы поиска по сайту, дубли с параметрами.
- Откройте через Allow нужные вложенные пути, если они попали под общий запрет.
- Добавьте директиву Sitemap с полным адресом карты сайта.
- Проверьте файл в Яндекс Вебмастере и Google Search Console на ошибки.
- Убедитесь, что важные коммерческие страницы открыты для обхода, а не закрыты по недосмотру.
Порядок не зависит от размера сайта. У интернет-магазина закрытых разделов будет больше, чем у сайта-визитки, но логика одна: сначала запрещаем лишнее, потом проверяем, что не задели нужное.
С чего начать настройку, если сайта ещё нет в поиске?
Начните с закрытия служебных разделов и открытия всего остального, а тонкую настройку добавляйте по мере роста сайта. На старте главная задача, не мешать роботу обойти основные страницы и не закрыть их по ошибке.
Типовой минимальный файл открывает сайт целиком и запрещает только очевидный мусор: технические папки CMS, страницы авторизации и корзину. Усложнять его до появления реальных дублей и фильтров не нужно, простой рабочий файл лучше сложного и ошибочного.
Кириллица и кодировка в файле robots.txt
Robots.txt должен быть в кодировке UTF-8, а кириллические домены и адреса записывают в формате Punycode, а не русскими буквами. Роботы читают файл как набор ASCII-символов, поэтому прямая кириллица в путях и в директиве Host часто приводит к тому, что правило просто игнорируется.
Если у вас домен на кириллице вида сайт.рф, в директиве Sitemap и в путях его записывают в закодированном виде через Punycode (например, xn--80aswg вместо русских символов). Конвертер Punycode есть в открытом доступе, и это разовая операция при настройке.
Сам текст правил, комментарии после символа решётки могут содержать любые символы, роботы их пропускают. Проблема возникает именно в директивах с адресами, поэтому URL в Disallow, Allow и Sitemap держите в корректной кодировке.
Самая дорогая ошибка бизнеса в robots.txt, это строка Disallow: / после User-agent, оставшаяся с этапа разработки. Она закрывает от поиска весь сайт целиком. Мы регулярно видим, как компания недоумевает, почему трафик обнулился после переноса сайта на боевой домен, а причина в одной забытой строке из тестовой версии.
Основные директивы и синтаксис robots.txt
Синтаксис robots.txt строится на директивах вида «Название: значение», где каждая директива задаёт одно правило для робота. Регистр в названиях директив не важен, но пути в значениях чувствительны к регистру, поэтому /Catalog и /catalog для робота разные адреса.
Файл читается сверху вниз и делится на блоки. Каждый блок начинается с User-agent и содержит относящиеся к нему правила до следующего User-agent или конца файла. Пустая строка отделяет один блок от другого, поэтому лишние пустые строки внутри блока способны разорвать его на части.
Пути в директивах поддерживают спецсимволы. Звёздочка означает любую последовательность символов, а знак доллара фиксирует конец адреса. Например, Disallow: /*.pdf$ закроет все файлы с расширением pdf, а Disallow: /search закроет и /search, и /search-results, если не поставить ограничитель.
Чем Disallow отличается от Allow?
Disallow запрещает роботу обход указанного пути, а Allow разрешает его, в том числе внутри уже закрытого раздела. Allow нужна, когда вы закрыли большую папку, но одну вложенную страницу или подкаталог хотите оставить открытыми.
При конфликте правил Яндекс и Google выбирают более длинное и конкретное правило, а не то, что стоит выше. Если Disallow: /catalog/ и Allow: /catalog/hit/ заданы вместе, страницы внутри /catalog/hit/ останутся открытыми, потому что это правило точнее.
Готовый robots.txt для популярных CMS
Правильный robots.txt под конкретную CMS учитывает её служебные папки и типовые дубли, поэтому шаблон для WordPress не подойдёт для Битрикс без правок. Ниже сведены типовые разделы, которые закрывают на самых частых системах.
| CMS | Что закрывают в первую очередь | Частая проблема без настройки |
|---|---|---|
| WordPress | /wp-admin/, /wp-includes/, служебные фиды и страницы поиска | дубли от тегов, архивов и пагинации |
| 1С-Битрикс | /bitrix/, /personal/, /auth/, страницы с параметрами | мусорные страницы фильтров и сортировок |
| Tilda | обычно закрывать почти нечего, важен Sitemap | забытая карта сайта, служебные превью |
| OpenCart | /admin/, /system/, страницы поиска и сравнения | дубли товаров через разные категории |
| Joomla | /administrator/, /components/, /cache/ | технические URL с индексом index.php |
Универсального файла на все сайты нет. Даже на одной CMS набор закрытых разделов зависит от установленных модулей и структуры каталога, поэтому шаблон берут за основу, а дальше подгоняют под конкретный сайт и проверяют в вебмастере.
Можно ли просто скопировать чужой robots.txt?
Копировать чужой robots.txt без правок опасно, потому что он написан под другую структуру сайта и другие служебные разделы. Скопированный файл может закрыть у вас важные страницы или, наоборот, оставить открытым мусор, который у оригинала закрыт иначе.
Шаблон под вашу CMS полезен как отправная точка, но каждую строку нужно осмыслить. Особенно это касается директивы Sitemap, где в чужом файле стоит чужой домен, и правил под уникальные разделы, которых у вас нет.
Требования к файлу и типичные ограничения
Файл должен называться строго robots.txt в нижнем регистре и лежать в корне сайта, иначе роботы его не найдут. Вариант Robots.TXT или размещение в подпапке не сработают, поисковик ищет файл только по фиксированному адресу домен.ру/robots.txt.
Есть ограничение по размеру. Яндекс и Google обрабатывают файл примерно до 500 КБ, и всё, что за этим пределом, игнорируется. На практике проектов до лимита почти никто не доходит, но раздутый автогенерируемыми правилами файл стоит чистить.
Каждый поддомен требует своего robots.txt. Файл на основном домене не управляет обходом поддомена, поэтому для blog.сайт.ру и shop.сайт.ру нужны отдельные файлы в их корне. Про это забывают, и служебные поддомены попадают в поиск.
Не используйте robots.txt как инструмент безопасности. Закрытая в нём папка остаётся доступной по прямой ссылке, а сам файл открыт всем, включая конкурентов, которые прочтут в нём структуру ваших служебных разделов. Секретное закрывают паролем и настройками сервера, а не строкой Disallow.
Директивы robots.txt: полный разбор
Каждая директива robots.txt решает свою задачу, и знание их назначения избавляет от ошибок при настройке. Разберём основные, которые нужны для рабочего файла.
User-agent задаёт, к какому роботу относится блок правил. Значение звёздочка означает всех роботов сразу, а конкретное имя вроде Yandex или Googlebot, только указанного. Если для робота есть отдельный блок, общий блок со звёздочкой он игнорирует, поэтому правила не дублируются автоматически.
Disallow и Allow управляют доступом к путям, а Sitemap указывает полный адрес карты сайта в формате домен.ру/sitemap.xml. Директиву Sitemap робот читает независимо от блоков User-agent, её достаточно указать один раз в файле.
Директива Crawl-delay, задававшая паузу между запросами робота, устарела: Google её давно не учитывает, а в Яндексе скорость обхода регулируют через настройки Вебмастера. Директиву Host, ранее указывавшую главное зеркало, Яндекс тоже больше не использует, вместо неё работает 301-редирект на основной домен.
Инструменты для проверки robots.txt
Проверять robots.txt нужно в официальных инструментах поисковых систем, а не на глаз, потому что ошибка в одной строке видна не сразу. Основные проверки бесплатны и доступны после подтверждения прав на сайт.
Яндекс Вебмастер и Google Search Console показывают, как роботы читают ваш файл, и позволяют проверить конкретный URL: открыт он для обхода или закрыт. Это главный способ убедиться, что важные страницы доступны, а служебные закрыты.
Составлять файл с нуля помогают генераторы robots.txt под конкретные CMS, но их вывод всё равно проверяют вручную и в вебмастере. Генератор ускоряет черновик, но не отменяет осмысленную настройку под ваш сайт.
Если нужно глубже разобраться в механике файла, пригодятся отдельные материалы про robots txt и про то, что такое robots txt, а также разбор закрывающего robots txt для случаев, когда сайт нужно временно спрятать от поиска.
Частые вопросы
Где должен лежать файл robots.txt?
Файл robots.txt должен лежать строго в корне сайта и открываться по адресу домен.ру/robots.txt. В подпапке или с другим именем поисковые роботы его не найдут, поэтому размещение в корне обязательно.
Что будет, если на сайте нет robots.txt?
Без robots.txt поисковые роботы обходят сайт целиком, включая служебные и мусорные страницы. Для маленького сайта это не всегда критично, но на крупном каталоге робот тратит бюджет обхода на дубли и фильтры вместо важных коммерческих страниц.
Как закрыть весь сайт от индексации в robots.txt?
Чтобы закрыть весь сайт, после строки User-agent: * добавляют Disallow: / без указания пути. Этот приём используют для тестовых версий сайта, но перед выходом на боевой домен строку обязательно убирают, иначе сайт пропадёт из поиска.
Гарантирует ли Disallow, что страница не попадёт в поиск?
Disallow запрещает обход, но не гарантирует отсутствие страницы в выдаче. Если на закрытую страницу ведут внешние ссылки, поисковик может показать её в результатах, поэтому для надёжного скрытия используют метатег noindex.
Нужен ли отдельный robots.txt для мобильной версии сайта?
При адаптивной вёрстке отдельный файл не нужен, мобильная и десктопная версии живут на одном URL и используют общий robots.txt. Отдельный файл требуется, только если мобильная версия вынесена на поддомен вроде m.сайт.ру.
Как часто нужно обновлять robots.txt?
Robots.txt правят при изменениях структуры сайта: новые служебные разделы, смена CMS, появление дублей от фильтров. В остальное время файл живёт без правок, но при аудите его проверяют, чтобы старые запреты не закрывали новые важные страницы.
Выводы
Настройка robots txt, это не разовая формальность, а рабочий инструмент, который направляет робота на страницы, приносящие заявки. Простой и осмысленный файл лучше сложного и ошибочного: закройте служебное, откройте важное, укажите карту сайта и проверьте результат в вебмастере.
Главная опасность здесь одна, случайно закрыть от поиска весь сайт или нужный раздел. Поэтому перед правками сохраняйте копию, а после, обязательно проверяйте доступность ключевых страниц в Яндекс Вебмастере и Google Search Console. Если сайт большой, а от корректного обхода зависят продажи, настройку robots.txt стоит доверить специалисту в связке с полным техническим аудитом.
Опубликовано в 2026 году. Проверено на актуальность: подход работает на текущих алгоритмах Яндекса и Google.
