Robots txt, это текстовый файл в корне сайта, который подсказывает поисковым роботам Яндекса и Google, какие страницы можно обходить, а какие лучше не трогать. Он не запрещает индексацию напрямую, а управляет обходом, и от его настройки зависит, увидит ли поиск ваши товары и услуги или потратит силы на мусорные адреса.
Мы в lucky-seo продвигаем сайты бизнеса и почти на каждом аудите находим robots.txt, который либо пустой, либо закрывает половину нужных страниц. Этот файл выглядит безобидно, но одна лишняя строка способна выкинуть из поиска целый раздел и обрушить поток заявок. Разберём по шагам, что это за файл, как он работает и как настроить его так, чтобы он помогал продвижению, а не мешал.
- Что такое robots txt и зачем это нужно
- Файл robots txt для сайта: где лежит и как выглядит
- Директивы файла robots txt и что они делают
- Зачем robots txt нужен для SEO
- Кириллица в файле robots: почему её нельзя
- Основные правила, синтаксис и требования к файлу
- Для чего нужен файл на разных типах сайтов
- Инструменты для проверки и составления файла robots.txt
- Частые вопросы
- Выводы
Что такое robots txt и зачем это нужно
Robots txt (robots exclusion file), это служебный файл с инструкциями для поисковых роботов о том, какие части сайта обходить, а какие пропускать. Поисковый робот (crawler) перед сканированием сайта первым делом запрашивает этот файл по адресу вида site.ru/robots.txt и дальше действует по правилам, которые там описаны.
Бизнесу это важно по простой причине: краулинговый бюджет (crawl budget) ограничен. Робот не обходит сайт бесконечно, у него есть лимит страниц за визит. Если он тратит этот лимит на страницы сортировки, корзину, фильтры и технические дубли, до новых товаров и статей он может просто не дойти. Грамотный robots.txt направляет робота на то, что приносит деньги, и уводит от того, что только засоряет выдачу.
Отдельно стоит понимать границу ответственности файла. Robots.txt управляет обходом, а не выдачей в поиске. Закрытая в нём страница всё равно может попасть в индекс, если на неё ведут внешние ссылки. Это частый источник путаницы, к которому мы ещё вернёмся. Подробнее о самом понятии мы разбирали в материале robots txt что это.
Файл robots txt для сайта: где лежит и как выглядит
Файл robots txt для сайта лежит строго в корневой папке и доступен по адресу домен/robots.txt, иначе поисковик его не найдёт. Адрес site.ru/catalog/robots.txt не работает: робот ищет файл только в корне и игнорирует любые другие расположения.
Внутри это обычный текст в кодировке UTF-8 без всякой разметки. Каждая строка, это директива и её значение через двоеточие. Минимальный рабочий файл состоит из указания, к каким роботам обращаемся, и правил для них. Вот как выглядит базовый пример для сайта, открытого для индексации с закрытой админкой и указанием карты сайта:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Sitemap: https://site.ru/sitemap.xml
Такой файл разрешает обход всего сайта всем роботам, кроме папки администрирования и корзины, и подсказывает, где лежит карта сайта (sitemap). Это рабочий минимум, от которого уже можно отталкиваться под конкретный проект.
Директивы файла robots txt и что они делают
Директивы, это команды для робота, и их всего несколько, но именно от них зависит поведение поисковика на сайте. Знать нужно не два десятка экзотических правил, а четыре основных, которые покрывают почти все задачи бизнеса.
| Директива | Что делает | Пример |
|---|---|---|
| User-agent | указывает, к какому роботу относятся правила ниже | User-agent: Yandex |
| Disallow | запрещает обход указанного раздела или страницы | Disallow: /search/ |
| Allow | разрешает обход внутри закрытого раздела | Allow: /catalog/sale/ |
| Sitemap | сообщает адрес карты сайта для робота | Sitemap: https://site.ru/sitemap.xml |
User-agent открывает блок правил. Звёздочка означает «для всех роботов», а можно указать конкретного: Yandex, Googlebot и других. Disallow закрывает путь, Allow открывает исключение внутри закрытого. Sitemap указывают один раз и обычно в конце файла, она помогает роботу быстрее находить новые страницы.
Раньше для Яндекса использовали директивы Host и Crawl-delay, но обе уже не работают. Host отменили после перехода на учёт зеркал через редиректы, а Crawl-delay Яндекс игнорирует с 2018 года, скорость обхода теперь регулируют в Яндекс Вебмастере. Если видите эти строки в старом файле, их можно удалять без сожаления.
Зачем robots txt нужен для SEO
Для SEO robots txt решает две практические задачи: экономит краулинговый бюджет и убирает из обхода технический мусор, который тянет сайт вниз. Чем чище то, что видит робот, тем точнее поиск понимает, о чём ваш сайт и какие страницы продвигать.
На коммерческих сайтах с фильтрами и сортировками генерируются тысячи почти одинаковых адресов. Если их не закрыть, робот утонет в дублях, а поиск получит размытую картину. По нашему опыту продвижения интернет-магазинов именно наведение порядка в robots.txt и закрытие параметров фильтрации часто даёт первый заметный сдвиг ещё до работы с контентом и ссылками.
Вторая польза, это защита служебных и приватных разделов от случайного попадания в выдачу. Корзина, личный кабинет, страницы поиска по сайту, результаты внутренней фильтрации, всё это не должно конкурировать с продающими страницами за внимание робота. Robots.txt отсекает их на входе.
Самая дорогая ошибка с этим файлом, это одна строка Disallow: / на боевом сайте. Так нередко остаётся настройка после переноса с тестового домена, где разработчик закрыл весь сайт от индексации и забыл открыть. Сайт исчезает из поиска целиком, трафик и заявки обнуляются, а владелец неделями ищет причину в алгоритмах, хотя дело в одном символе. Проверяйте robots.txt сразу после каждого переезда и обновления.
Кириллица в файле robots: почему её нельзя
Кириллицу в robots.txt использовать нельзя: домены и пути в файле пишутся только латиницей в кодировке Punycode и URL-кодировании. Робот не понимает русские буквы в адресах, и строка с кириллическим путём для него просто не существует.
Если у вас кириллический домен вида сайт.рф, в директиве Sitemap его записывают в формате Punycode: xn--80aswg.xn--p1ai. То же касается путей с русскими символами в адресе: их кодируют в проценты-нотацию. На практике мы советуем бизнесу вообще не плодить кириллические URL, латинская транслитерация надёжнее и для robots.txt, и для аналитики, и для ссылок.
Основные правила, синтаксис и требования к файлу
Синтаксис robots.txt строгий: одна директива на строку, регистр пути важен, а порядок блоков влияет на то, какие правила применит конкретный робот. Ошибка в одном знаке не выдаёт сообщения об ошибке, файл просто отрабатывает не так, как вы задумали, и об этом легко не узнать месяцами.
Главные технические требования сведены ниже, их стоит держать перед глазами при настройке:
| Требование | Значение |
|---|---|
| Расположение | только корень сайта, домен/robots.txt |
| Кодировка | UTF-8 |
| Размер файла | до 500 КБ для корректного учёта Яндексом |
| Регистр путей | важен, /Catalog и /catalog это разные пути |
| Кодировка путей | только латиница, кириллица через Punycode |
| Ответ сервера | файл должен отдаваться с кодом 200 |
Отдельно про логику применения. Робот выбирает наиболее точное правило по длине пути, а не по порядку строк. Если для одного адреса есть и Disallow, и Allow, побеждает более длинное и конкретное правило. Пустой Disallow без значения означает «разрешено всё», а закрытие всего сайта, это Disallow со слешем. Эти два случая путают чаще всего.
Не закрывайте через robots.txt то, что нужно скрыть из выдачи. Для надёжного исключения страницы из поиска используйте метатег noindex на самой странице, а не Disallow в robots.txt. Файл управляет обходом, и закрытая в нём страница при наличии внешних ссылок всё равно попадёт в индекс, только без описания и заголовка, что выглядит в выдаче ещё хуже.
Для чего нужен файл на разных типах сайтов
Назначение robots.txt одно, управление обходом, но акценты сильно зависят от типа бизнеса. Универсального файла «для всех» не существует, и попытка скопировать чужой robots.txt вслепую, это типичная грабля, которая закрывает нужное и открывает лишнее.
Для интернет-магазина главная боль, это параметры фильтров, сортировок и сравнения товаров, которые плодят дубли. Их закрывают, а карточки и категории оставляют открытыми, потому что именно они приводят покупателей. Для сайта услуг с привязкой к городу обычно закрывают служебные разделы и оставляют максимум продающих страниц под локальные запросы. Для блога и контентного проекта файл проще: закрывают теги, архивы и страницы поиска, чтобы они не размывали ценность статей.
Корпоративному сайту нередко хватает закрытия админки и формы поиска. Чем меньше у сайта технического мусора, тем короче и спокойнее его robots.txt. Длинный файл на сто строк, это чаще признак запущенной структуры, а не тщательной настройки.
Инструменты для проверки и составления файла robots.txt
Проверять robots.txt нужно обязательно, потому что ошибка в нём тихая и дорогая, а инструменты для этого есть прямо у поисковиков и они бесплатны. Никогда не выкладывайте файл на боевой сайт без проверки хотя бы одним валидатором.
Базовый набор, которым пользуемся сами и который советуем бизнесу:
| Инструмент | Для чего |
|---|---|
| Яндекс Вебмастер, анализ robots.txt | проверка правил для роботов Яндекса, видно, открыта страница или закрыта |
| Google Search Console | контроль обхода и индексации для Google, отчёт по заблокированным адресам |
| Ручная проверка адреса домен/robots.txt | убедиться, что файл вообще отдаётся и отвечает кодом 200 |
Чтобы настроить и проверить файл без сюрпризов, пройдите простой порядок действий:
- Откройте свой текущий файл по адресу домен/robots.txt и посмотрите, что там сейчас.
- Составьте список разделов, которые нужно закрыть: корзина, поиск, фильтры, админка, личный кабинет.
- Пропишите блок User-agent, затем нужные Disallow и Allow, в конце добавьте Sitemap.
- Сохраните файл в кодировке UTF-8 и загрузите в корень сайта.
- Прогоните файл через анализатор Яндекс Вебмастера и проверьте несколько ключевых адресов.
- Повторите проверку в Google Search Console для роботов Google.
- Через неделю загляните в отчёты по индексации и убедитесь, что нужные страницы обходятся, а лишние нет.
Этот порядок одинаков для магазина, сайта услуг и блога. Меняется только список того, что закрывать на шаге два, а сама механика проверки остаётся той же. Детальный разбор настройки под разные движки мы собрали в гайде как настроить robots txt, а тонкости управления обходом, в материале про txt индексации robots.
Частые вопросы
Что такое robots txt простыми словами?
Robots txt, это текстовый файл в корне сайта с инструкциями для поисковых роботов о том, какие страницы обходить, а какие пропускать. Он работает как табличка на входе: робот сначала читает её, а потом решает, куда идти, поэтому от его настройки зависит, что попадёт в поиск.
Обязателен ли файл robots txt для сайта?
Формально robots.txt не обязателен, и без него сайт всё равно будет индексироваться, поисковик просто обойдёт всё подряд. Но для любого проекта сложнее визитки файл нужен, потому что без него робот тратит краулинговый бюджет на технический мусор и дубли вместо продающих страниц.
Закрывает ли robots txt страницу от индексации?
Нет, robots.txt управляет обходом, а не индексацией, и закрытая в нём страница при наличии внешних ссылок всё равно может попасть в выдачу. Чтобы гарантированно убрать страницу из поиска, ставьте на неё метатег noindex, а не полагайтесь только на Disallow.
Можно ли использовать кириллицу в robots txt?
Кириллицу в адресах файла использовать нельзя, домены и пути пишутся латиницей, а кириллический домен записывают в формате Punycode. Русские буквы в путях робот не распознаёт, поэтому такие строки просто не работают и правило не применяется.
Где должен лежать файл robots txt?
Файл должен лежать строго в корне сайта и быть доступным по адресу домен/robots.txt с ответом сервера 200. В подпапках робот его не ищет, поэтому любое другое расположение равносильно отсутствию файла.
Как проверить, правильно ли настроен robots txt?
Проверьте файл в анализаторе Яндекс Вебмастера и в Google Search Console, указав конкретные адреса страниц, инструмент покажет, открыты они или закрыты. Дополнительно откройте домен/robots.txt в браузере и убедитесь, что файл отдаётся и в нём нет случайной строки Disallow со слешем, закрывающей весь сайт.
Чем robots txt отличается от sitemap xml?
Robots.txt говорит роботу, что обходить нельзя, а sitemap.xml, наоборот, показывает список страниц, которые стоит обойти и проиндексировать. Они работают в паре: первый ограничивает, второй направляет, и адрес карты сайта обычно указывают прямо внутри robots.txt директивой Sitemap.
Выводы
Robots txt, это маленький файл с большой ответственностью: он экономит краулинговый бюджет, убирает из обхода дубли и защищает служебные разделы от попадания в выдачу. Настраивается он под конкретный сайт, и копировать чужой файл вслепую опасно, потому что у магазина, сайта услуг и блога разные задачи. Главное помнить границу: robots.txt управляет обходом, а для надёжного скрытия страницы из поиска нужен noindex.
Бизнесу достаточно проверить три вещи: файл лежит в корне и отдаётся, в нём нет случайной строки Disallow со слешем на весь сайт, а лишние разделы закрыты и проверены валидатором. Если сайт большой, с фильтрами и тысячами адресов, настройку robots.txt лучше доверить специалисту в связке с техническим аудитом, тогда файл станет частью продуманного продвижения, а не источником тихих потерь трафика.
Опубликовано в 2026 году. Проверено на актуальность: подход работает на текущих алгоритмах Яндекса и Google.
