Robots txt как правильно составить, чтобы не закрыть от поиска нужные страницы

Robots txt как правильно составить, значит собрать текстовый файл в корне сайта, который подсказывает поисковым роботам, какие разделы обходить, а какие пропускать. Правильный robots txt закрывает служебный мусор и дубли, оставляет открытыми продающие страницы и не режет тот трафик, из которого приходят заявки и клиенты.

Мы в lucky-seo продвигаем сайты бизнеса и регулярно видим одну и ту же дорогую поломку: одна лишняя строка в этом файле закрывает от индексации каталог или целый раздел, и сайт месяцами не приносит обращений. В этой статье разложим по шагам, как составить файл под Яндекс и Google, дадим готовые шаблоны для популярных CMS и покажем, как проверить результат до того, как он ударит по продажам.

Robots txt как правильно составить: что это за файл и зачем бизнесу

Robots.txt, это простой текстовый файл в корне сайта, который управляет поведением поисковых роботов при обходе страниц. Он лежит по адресу вида site.ru/robots.txt и первым делом читается роботом Яндекса и Google, когда тот заходит на сайт.

Для владельца бизнеса ценность файла не техническая, а денежная. Робот тратит на каждый сайт ограниченный ресурс обхода (crawl budget). Если он расходует его на служебные и мусорные страницы, до важных карточек товаров и посадочных руки доходят позже, а иногда не доходят вовсе. Грамотный robots.txt направляет внимание робота на то, что приносит заявки.

Важно сразу развести два понятия, которые бизнес и даже часть новичков путают. Robots.txt управляет обходом, то есть говорит роботу, куда ходить, а куда нет. Он не гарантирует, что закрытая страница не попадёт в выдачу: если на неё ведут ссылки, Google может показать её без описания. За надёжное исключение из индекса отвечает мета-тег noindex, а не robots.txt. Это разные инструменты под разные задачи.

Кириллица в файле robots: почему домены и пути пишут в punycode

Кириллицу в robots.txt использовать нельзя, все домены и пути записывают латиницей или в кодировке punycode. Сам файл сохраняют в UTF-8, а робот воспринимает адреса именно в том виде, в каком они реально существуют на сайте.

Проблема всплывает у бизнеса с кириллическим доменом или ЧПУ-адресами на русском. Если сайт живёт на домене вида ромашка.рф, в директиве Host и в Sitemap его пишут как xn--80a…, то есть в punycode. То же касается путей с русскими буквами: их кодируют в процентную запись (percent-encoding), иначе робот не сопоставит правило с реальным URL.

Рекомендация

Не набирайте robots.txt в Word или в редакторе, который любит подставлять умные кавычки и лишние символы. Используйте обычный блокнот или редактор кода и сохраняйте в UTF-8 без BOM. Один невидимый символ в начале файла ломает первую директиву целиком.

Как правильно составить robots.txt: базовые директивы

Правильный robots.txt состоит из нескольких директив, которые робот читает сверху вниз. Понимание четырёх основных команд закрывает девяносто процентов задач бизнеса, остальное это частные случаи под конкретный сайт.

User-agent задаёт, к какому роботу относятся правила ниже. Звёздочка означает всех роботов сразу, конкретное имя, например Yandex или Googlebot, задаёт правила для одного. Disallow запрещает обход указанного раздела или страницы. Allow, наоборот, разрешает обход внутри закрытого раздела, это нужно для точечных исключений. Sitemap указывает полный адрес карты сайта, чтобы робот быстрее находил все важные страницы.

Логика простая: сначала блок для всех роботов, внутри него закрываем служебное и мусорное, при необходимости точечно открываем нужное через Allow, в конце даём ссылку на карту сайта. Порядок правил внутри блока имеет значение, потому что при конфликте Яндекс и Google выбирают более длинное и точное правило.

Внимание

Самая частая и дорогая ошибка бизнеса, скопировать чужой robots.txt из интернета и залить к себе не глядя. У другого сайта своя структура папок, и чужая строка Disallow легко закрывает у вас работающий раздел. Мы не раз находили в проектах закрытый от поиска каталог именно после такого копипаста. Файл всегда собирают под конкретную структуру сайта.

Что закрывать, а что оставлять открытым

Закрывать в robots.txt нужно то, что не должно попадать в поиск и не приносит трафика: служебные, технические и дублирующие страницы. Открытыми оставляют всё, что участвует в продажах и продвижении.

Типичный список на закрытие у большинства сайтов совпадает. Ниже он собран в таблицу, чтобы было видно, что и зачем скрывают от робота.

Что закрывают Пример пути Зачем
Админку и служебные папки /admin/, /wp-admin/ не участвуют в поиске, тратят ресурс обхода
Корзину и оформление заказа /cart/, /checkout/ нет смысла в выдаче, генерируют дубли
Личный кабинет и авторизацию /login/, /account/ закрытые от гостя страницы, мусор для робота
Результаты внутреннего поиска /search/, /?s= плодят тысячи бесполезных URL
Технические параметры и метки /?utm_, /?sort= создают дубли одной и той же страницы
Файлы для скачивания и корзины /*.pdf по ситуации зависит от задачи, не всегда нужно

Открытыми держат главную, каталог, карточки товаров и услуг, посадочные под запросы, блог и статьи. Это те страницы, ради которых человек и приходит из поиска, а значит, робот должен видеть их в первую очередь. Проверьте по своему сайту: каждая закрытая директория должна быть осознанным решением, а не наследством от прошлого подрядчика.

Правильный robots.txt для разных CMS: примеры готового файла

Готовый robots.txt зависит от движка, потому что у каждой CMS свои служебные папки и типовые дубли. Ниже разберём базовую логику для популярных систем, но любой шаблон дорабатывают под конкретный сайт.

Для WordPress закрывают системную папку /wp-admin/, но открывают admin-ajax.php, который нужен для корректной работы части плагинов. Также прячут результаты поиска, ленты и служебные параметры. Для интернет-магазина на 1С-Битрикс закрывают /bitrix/, /personal/, корзину и оформление, а также параметры сортировки и фильтров, которые плодят дубли карточек. Для OpenCart и других магазинных движков логика та же: прячут корзину, сравнение, личный кабинет и результаты поиска, оставляя открытыми категории и товары.

Общий принцип поверх любой CMS один. Сначала найдите все технические и дублирующие URL своего сайта, потом закройте их, а не берите шаблон как истину. Движок одинаковый, а набор плагинов, фильтров и меток у каждого свой, поэтому чужой готовый файл почти всегда требует правок.

Пример правильного шаблона robots.txt

Базовый рабочий шаблон для одного сайта выглядит компактно и читается сверху вниз. Ниже пример структуры для сайта на WordPress, который закрывает служебное и указывает карту сайта.

Строка User-agent со звёздочкой открывает блок для всех роботов. Дальше идут строки Disallow для /wp-admin/, для результатов поиска и служебных параметров, затем строка Allow для admin-ajax.php внутри закрытой папки. В конце файла ставят Sitemap с полным адресом карты вида https://site.ru/sitemap.xml. Для сайта на кириллическом домене адрес в Sitemap пишут в punycode.

Отдельный блок под Yandex добавляют только тогда, когда для этого робота нужны особые правила. Раньше в него ставили директиву Host для указания главного зеркала, но Яндекс от неё отказался, теперь склейку зеркал настраивают редиректом и в Вебмастере. Если особых правил под Яндекс нет, хватает одного блока User-agent: * для всех роботов сразу. Меньше правил, меньше шансов ошибиться.

Как создать правильный robots.txt: пошаговая инструкция

Составить файл по шагам проще, чем кажется, и порядок действий защищает от главной беды, случайно закрытого трафика. По нашему опыту проектов эта последовательность экономит и время, и бюджет.

  1. Выпишите структуру сайта: какие разделы приносят трафик и продажи, а какие служебные.
  2. Составьте список того, что нужно закрыть: админка, корзина, поиск, дубли по параметрам.
  3. Создайте пустой текстовый файл с именем robots.txt в редакторе кода, кодировка UTF-8.
  4. Пропишите блок User-agent: * и под ним строки Disallow для служебных разделов.
  5. Добавьте строки Allow, если внутри закрытой папки есть нужные роботу файлы.
  6. Укажите директиву Sitemap с полным адресом карты сайта.
  7. Проверьте каждую строку Disallow: не закрывает ли она случайно продающий раздел.
  8. Загрузите файл в корень сайта, чтобы он открывался по адресу site.ru/robots.txt.
  9. Прогоните файл через валидаторы Яндекс Вебмастера и Google Search Console.

Порядок не зависит от размера бизнеса. У лендинга и у крупного магазина разный объём правил, но логика «сначала понять структуру, потом закрывать» одинаковая. Не пропускайте седьмой шаг, именно на нём ловят закрытый по ошибке каталог.

Проверка файла robots: как убедиться, что вы не режете продажи

Проверять robots.txt обязательно, потому что цена ошибки, это выпавший из поиска раздел и потерянные заявки. Проверку делают в два круга: сначала валидатором, потом руками по ключевым страницам.

У Яндекса есть инструмент анализа robots.txt в Вебмастере: вставляете содержимое файла и список важных URL, а сервис показывает, какие из них разрешены роботу, а какие закрыты. У Google похожая проверка URL живёт в Search Console, там видно, доступна ли конкретная страница для обхода. Прогоните через оба сервиса главные продающие страницы: главную, ключевые категории, десяток топовых карточек.

После правок файла не считайте задачу закрытой сразу. Робот перечитывает robots.txt не мгновенно, обход обновляется в течение нескольких дней. Поэтому после изменений держите на контроле индексацию важных страниц ещё пару недель, особенно если открывали ранее закрытый раздел. Тонкости обхода и индексации мы разбираем в материале про robots txt что это, а частые ошибки настройки, в гайде как настроить robots txt.

Преимущества и недостатки управления через robots.txt

Robots.txt даёт бизнесу простой рычаг влияния на обход сайта, но у него есть жёсткие границы, за которые он не работает. Трезвое понимание этих границ бережёт от ложных надежд и лишних проблем.

Плюсы очевидны. Файл управляет расходом ресурса обхода, убирает из поля зрения робота мусор и дубли, ускоряет попадание важных страниц в индекс. Он лёгкий, правится за минуту и не требует программиста. Для сайта с тысячами служебных URL это заметно разгружает робота и помогает продвижению.

Минусы тоже честные. Robots.txt не защищает данные: закрытая в нём папка остаётся доступной по прямой ссылке, а адрес виден любому, кто откроет файл в браузере. Он не гарантирует исключение из выдачи, для этого нужен noindex. И он не прощает опечаток: одна лишняя звёздочка или слэш меняют смысл правила и способны закрыть половину сайта. Мощный инструмент требует аккуратности.

Сравнение с другими способами управления индексацией

Robots.txt, это не единственный способ управлять тем, что видит поиск, и под разные задачи подходят разные инструменты. Ниже сведены основные, чтобы было видно, где какой уместен.

Инструмент Что делает Когда применять
robots.txt запрещает обход раздела закрыть служебное и мусор от робота
мета-тег noindex исключает страницу из выдачи надёжно убрать страницу из поиска
атрибут canonical указывает главную из дублей склеить похожие страницы, оставив одну
Sitemap.xml подсказывает важные URL ускорить обход нужных страниц
пароль на раздел закрывает доступ полностью спрятать данные от всех, включая робота

Из таблицы видно главное. Хотите скрыть мусор от обхода, это robots.txt. Хотите гарантированно убрать страницу из выдачи, это noindex. Есть дубли одной страницы, это canonical. Часто их используют вместе: robots.txt разгружает робота, canonical борется с дублями, noindex убирает лишнее из индекса. Один файл не решает все задачи сразу, и попытка закрыть страницу от выдачи через robots.txt, это классическая ошибка, которая не работает.

Частые вопросы

Где должен лежать файл robots.txt?

Файл robots.txt всегда лежит в корне сайта и открывается по адресу вида site.ru/robots.txt. В подпапках или под другим именем он не работает, поисковый робот ищет его строго в корне домена. У каждого поддомена свой отдельный файл.

Обязательно ли составлять robots.txt для сайта?

Формально сайт работает и без robots.txt, тогда робот обходит все доступные страницы подряд. Но для сайта с админкой, корзиной, фильтрами и служебными разделами файл почти обязателен, иначе робот тратит ресурс обхода на мусор, а важные страницы попадают в индекс медленнее.

Можно ли через robots.txt убрать страницу из поисковой выдачи?

Надёжно убрать страницу из выдачи через robots.txt нельзя, он управляет только обходом. Если на закрытую страницу ведут ссылки, Google может показать её в результатах без описания. Для гарантированного исключения из поиска используют мета-тег noindex на самой странице.

Почему после правки robots.txt ничего не изменилось?

Робот перечитывает robots.txt не мгновенно, а при следующих заходах на сайт, поэтому изменения в индексации проявляются в течение нескольких дней. Проверьте, что файл сохранён в UTF-8, лежит в корне и открывается в браузере, а затем подождите переобхода и следите за индексацией важных страниц.

Как проверить, что robots.txt составлен правильно?

Проверьте файл через инструмент анализа robots.txt в Яндекс Вебмастере и проверку URL в Google Search Console. Вставьте адреса ключевых продающих страниц и убедитесь, что робот видит их как разрешённые. Отдельно откройте сам файл в браузере и глазами пройдите по строкам Disallow, не закрыт ли случайно нужный раздел.

Нужен ли отдельный robots.txt для Яндекса и Google?

Отдельные блоки под Yandex и Googlebot нужны только тогда, когда для этих роботов задают разные правила. В большинстве случаев хватает одного блока User-agent: * для всех сразу. Директива Host, которую раньше писали под Яндекс, больше не используется, склейку зеркал настраивают редиректом.

Выводы

Robots.txt, это не формальность, а рычаг, который направляет ресурс поискового робота на страницы, приносящие заявки. Правильный файл закрывает служебное и дубли, оставляет открытыми продающие разделы и обязательно проверяется валидаторами до того, как повлияет на трафик. Для бизнеса это дешёвая работа с высокой ценой ошибки: минута на правку и месяцы восстановления, если случайно закрыть каталог.

Главное правило простое. Не копируйте чужой файл вслепую, собирайте под свою структуру, разводите обход и индексацию (robots.txt против noindex) и после каждой правки проверяйте, что важные страницы остались открытыми. Если сомневаетесь, что в вашем robots.txt всё чисто, разумнее сначала провести технический аудит сайта и убедиться, что фундамент под продвижением не сломан.

Опубликовано в 2026 году. Проверено на актуальность: подход работает на текущих алгоритмах Яндекса и Google.

Оцените статью
Добавить комментарий