Чтобы сделать robots txt для сайта, создайте текстовый файл robots.txt в корне домена, пропишите директивы User-agent, Disallow, Allow и Sitemap, затем проверьте его в панелях Яндекс Вебмастер и Google Search Console. Этот файл управляет тем, какие страницы поисковый робот обходит, а какие пропускает, поэтому одна опечатка в нём способна закрыть от индексации весь сайт.
Мы в lucky-seo продвигаем сайты бизнеса и регулярно находим при аудите закрытые от поиска каталоги, забытый Disallow: / после переезда и файл, который лежит не там, где его ищет робот. В этом гайде разложим по шагам, как правильно составить robots.txt, покажем рабочие примеры и разберём ошибки, из-за которых бизнес незаметно теряет позиции и заявки.
- Что такое robots.txt и зачем он бизнесу
- Как работает файл robots.txt и какие роботы его читают
- Кириллица в файле robots.txt: почему возникают проблемы
- Основные директивы и синтаксис robots.txt
- Как создать файл robots.txt: пошаговая инструкция
- Как написать правила: примеры robots.txt под задачи бизнеса
- Как проверить robots.txt в Яндексе и Google
- Типичные ошибки бизнеса в robots.txt
- Частые вопросы
- Выводы
Что такое robots.txt и зачем он бизнесу
Robots.txt (robots exclusion file), это текстовый файл в корне сайта, который сообщает поисковым роботам, какие разделы можно обходить, а какие трогать не нужно. Робот Яндекса или Google перед сканированием сайта первым делом запрашивает адрес вида site.ru/robots.txt и читает инструкции оттуда.
Бизнесу это нужно не ради галочки в чеклисте, а ради экономии краулингового бюджета и чистоты индекса. Если робот тратит обходы на служебные страницы, корзину, фильтры и результаты внутреннего поиска, до важных коммерческих страниц он доходит реже и медленнее. Правильный robots.txt направляет робота на то, что приносит заявки, и уводит от мусора.
Важная оговорка про механику. Директива Disallow запрещает обход страницы, но не всегда убирает её из выдачи: если на закрытую страницу ведут внешние ссылки, она может попасть в индекс без описания. Для гарантированного исключения из поиска используют метатег noindex или заголовок X-Robots-Tag, а не только robots.txt. Подробнее эта разница разобрана в материале про robots txt что это.
Как работает файл robots.txt и какие роботы его читают
Robots.txt читают все основные поисковые роботы: YandexBot, Googlebot, боты Bing, Mail.ru и десятки других краулеров. Файл работает по принципу рекомендации, добросовестные поисковики его соблюдают, а спам-боты и парсеры могут игнорировать, поэтому закрывать через robots.txt конфиденциальные данные бессмысленно.
Робот сопоставляет своё имя (User-agent) с секциями файла и выбирает подходящую. Если есть блок специально для YandexBot, он берёт его; если нет, применяет общий блок со звёздочкой. Внутри секции робот идёт по правилам сверху вниз и для каждого URL решает, разрешён обход или запрещён.
Отдельно стоит запомнить: Яндекс и Google по-разному относятся к некоторым директивам. Google официально не поддерживает Crawl-delay и Host, а Яндекс с этими директивами исторически работал. Поэтому универсальный файл строят на трёх опорах, которые понимают все: User-agent, Disallow и Allow плюс обязательная ссылка на карту сайта.
Кириллица в файле robots.txt: почему возникают проблемы
Кириллицу в robots.txt поисковые роботы не понимают напрямую, домены и пути с русскими буквами нужно записывать в кодировке Punycode и URL-кодировании. Сам файл сохраняют в кодировке UTF-8, но адреса внутри директив пишут латиницей после преобразования.
На практике это касается двух случаев. Первый, кириллический домен вида сайт.рф: в директиве Host или в ссылке на Sitemap его записывают как xn--80aswg.xn--p1ai через Punycode. Второй, страницы с русскими символами в URL, например раздел /каталог/: путь кодируют в вид /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3/.
Если оставить кириллицу как есть, робот прочитает правило неверно и либо не закроет нужное, либо закроет лишнее. Проще всего избегать русских символов в служебных URL на этапе разработки, а для существующих адресов пользоваться онлайн-конвертером в Punycode перед вставкой в файл.
Перед тем как закрывать разделы, откройте отчёт по индексированию в Яндекс Вебмастере и посмотрите, какие страницы уже в индексе и сколько мусорных. Так вы будете править robots.txt под реальную картину сайта, а не по типовому шаблону из интернета, который может не подходить вашей CMS.
Основные директивы и синтаксис robots.txt
Синтаксис robots.txt строится на парах вида «директива: значение», по одной на строку, с учётом регистра в путях. Разберём директивы, которые закрывают девяносто процентов задач бизнеса, чтобы вы понимали каждую строку в своём файле, а не копировали вслепую.
| Директива | Что делает | Пример |
|---|---|---|
| User-agent | указывает, для какого робота правила | User-agent: * |
| Disallow | запрещает обход раздела или страницы | Disallow: /admin/ |
| Allow | разрешает обход внутри запрещённого раздела | Allow: /catalog/hit/ |
| Sitemap | путь к карте сайта | Sitemap: https://site.ru/sitemap.xml |
| Clean-param | убирает дубли по GET-параметрам (Яндекс) | Clean-param: utm_source /catalog/ |
| Host | главное зеркало сайта (устаревает) | Host: site.ru |
Несколько правил синтаксиса, на которых чаще всего спотыкаются. Пустая директива Disallow: без значения означает «разрешено всё», а Disallow: / означает «запрещено всё». Символ звёздочки заменяет любую последовательность знаков, а знак доллара обозначает конец адреса. Каждый блок User-agent отделяют от следующего пустой строкой, иначе роботы могут склеить правила.
Самая дорогая ошибка в robots.txt, это забытый Disallow: / после запуска сайта или переноса с тестового домена. На тесте разработчики закрывают весь сайт от индексации, а при переезде на боевой домен файл переносят как есть. Итог: сайт месяцами не растёт в поиске, бизнес теряет заявки, а причина в одной строке, которую никто не проверил. После любого запуска или переезда robots.txt смотрят первым делом.
Как создать файл robots.txt: пошаговая инструкция
Создать robots.txt можно в любом текстовом редакторе, главное сохранить файл в правильной кодировке и положить в корень домена. Ниже порядок действий, который проходится сверху вниз без возврата назад, подходит для сайта на любой CMS.
- Откройте простой текстовый редактор: Блокнот в Windows или TextEdit в режиме простого текста на Mac.
- Пропишите первую строку с указанием робота: User-agent: * для всех поисковиков сразу.
- Добавьте директивы Disallow для служебных разделов: админки, корзины, личного кабинета, страниц поиска и фильтров.
- Пропишите Allow, если внутри закрытого раздела есть страницы, которые должны индексироваться.
- Укажите полный адрес карты сайта строкой Sitemap с протоколом https.
- Сохраните файл строго под именем robots.txt в кодировке UTF-8 без BOM.
- Загрузите файл в корневую папку сайта, чтобы он открывался по адресу site.ru/robots.txt.
- Проверьте доступность: наберите адрес файла в браузере, содержимое должно отобразиться без ошибки 404.
Этот же результат для популярных CMS часто получают через плагины и настройки: у WordPress есть Yoast SEO и All in One SEO, у 1C-Битрикс встроенный генератор в разделе поисковой оптимизации, у Тильды файл формируется автоматически. Готовый файл всё равно стоит открыть глазами и проверить, что он закрывает и открывает именно то, что нужно.
Как написать правила: примеры robots.txt под задачи бизнеса
Правила в robots.txt пишут от общего к частному: сначала объявляют робота, затем закрывают лишнее и в конце дают ссылку на карту сайта. Базовый рабочий шаблон для большинства коммерческих сайтов выглядит так: закрыты служебные разделы, открыт весь полезный контент, указан Sitemap.
Минимальный корректный файл для сайта услуг содержит блок User-agent: * , несколько строк Disallow для системных папок и строку Sitemap. Для интернет-магазина к этому добавляют закрытие страниц сортировки, фильтров и внутреннего поиска, чтобы робот не тонул в бесконечных комбинациях параметров и не плодил дубли карточек.
Тонкий момент с параметрами. У Яндекса дубли по UTM-меткам и служебным GET-параметрам аккуратнее убирать директивой Clean-param, а не грубым Disallow, потому что Clean-param склеивает показатели страницы, а не просто закрывает обход. Как связать это с общими настройками файла, показано в разборе про как настроить robots txt.
Как проверить robots.txt в Яндексе и Google
Проверить robots.txt нужно в двух панелях: анализатор robots.txt в Яндекс Вебмастере и отчёт в Google Search Console. Оба инструмента показывают, как робот видит ваш файл, и позволяют проверить конкретный URL на доступность до того, как ошибка навредит индексу.
В Яндекс Вебмастере откройте раздел «Инструменты», выберите «Анализ robots.txt», вставьте содержимое файла и введите адреса страниц для проверки. Сервис подсветит синтаксические ошибки и покажет по каждому URL, разрешён он к обходу или запрещён. В Google Search Console аналогичную проверку делает отчёт по robots.txt в разделе настроек, где видно последнюю прочитанную роботом версию файла.
После проверки не забудьте сообщить поисковикам об обновлённом файле. В обеих панелях есть кнопка перепроверки, которая ускоряет повторное считывание robots.txt роботом. Отдельно отправлять файл в Google, как отправляют карту сайта, не требуется: робот сам подхватывает его при следующем обходе.
Типичные ошибки бизнеса в robots.txt
Ошибки в robots.txt редко бывают заметны сразу, они тихо режут трафик неделями, пока кто-нибудь не откроет отчёт по индексированию. По нашему опыту продвижения одни и те же грабли повторяются от проекта к проекту, поэтому вынесли их отдельным списком, чтобы вы проверили свой файл прямо сейчас.
Первая по частоте, полностью закрытый сайт после переезда с тестового сервера. Вторая, случайно закрытые от индексации коммерческие разделы из-за слишком широкого правила со звёздочкой. Третья, отсутствие строки Sitemap, из-за чего робот дольше находит новые страницы. Четвёртая, файл, лежащий в подпапке вместо корня, где робот его просто не видит.
Есть в этом и немного иронии: robots.txt весит меньше килобайта и создаётся за пять минут, но по цене ошибки легко обходит куда более сложные работы по продвижению. Бизнес платит за контент и ссылки, а трафик стоит на месте из-за одной строки в файле, который никто не открывал полгода. Хороший аудит всегда начинается с этого файла, а уже потом переходит к семантике и текстам.
Частые вопросы
Где должен лежать файл robots.txt?
Файл robots.txt должен лежать строго в корневой папке сайта и открываться по адресу site.ru/robots.txt. Если положить его в подпапку или назвать иначе, поисковый робот его не найдёт и будет обходить сайт без ограничений.
Обязателен ли robots.txt для сайта?
Robots.txt не обязателен технически: без него поисковики просто обходят все доступные страницы. Но для сайта бизнеса он почти всегда нужен, чтобы закрыть служебные разделы, убрать дубли и направить робота на коммерческие страницы, приносящие заявки.
Можно ли через robots.txt удалить страницу из поиска?
Через robots.txt нельзя гарантированно удалить страницу из выдачи, директива Disallow лишь запрещает обход. Если на страницу ведут внешние ссылки, она может остаться в индексе без описания. Для полного исключения используют метатег noindex или заголовок X-Robots-Tag.
Как закрыть весь сайт от индексации через robots.txt?
Чтобы закрыть весь сайт от индексации, пропишите два блока: User-agent: * и Disallow: / под ним. Это уместно на тестовом сервере или во время разработки, но после запуска боевого сайта эту строку обязательно убирают, иначе сайт не попадёт в поиск.
В чём разница между Disallow и Allow?
Disallow запрещает роботу обходить указанный раздел или страницу, а Allow разрешает обход внутри уже закрытого раздела. Связка нужна, когда весь каталог закрыт, но отдельные важные страницы внутри него должны индексироваться.
Нужен ли robots.txt для сайта на WordPress или Тильде?
Да, файл нужен и там, хотя многие CMS создают его автоматически. У WordPress robots.txt настраивают плагины Yoast SEO или All in One SEO, у Тильды он формируется сам. Автоматический файл стоит открыть и проверить, что он закрывает служебные разделы и содержит ссылку на карту сайта.
Выводы
Сделать robots.txt для сайта несложно: создаёте текстовый файл, прописываете User-agent, Disallow, Allow и Sitemap, кладёте в корень домена и проверяете в Яндекс Вебмастере и Google Search Console. Технически это работа на десять минут, но именно из-за кажущейся простоты файл чаще всего оказывается заброшенным и ломает индексацию.
Владельцу бизнеса важно держать в голове одно правило: после любого запуска, переезда или обновления сайта robots.txt проверяют первым, до контента и ссылок. Файл управляет тем, увидит ли поиск ваши коммерческие страницы вообще, поэтому цена ошибки в нём выше цены самой работы. Если разбираться в технике сайта самому некогда, эту базовую проверку стоит доверить специалистам вместе с общим техническим аудитом.
Опубликовано в 2026 году. Проверено на актуальность: подход работает на текущих алгоритмах Яндекса и Google.
