Robots txt запретить индексацию: как закрыть страницы от поиска и не потерять клиентов

Robots txt запретить индексацию можно директивой Disallow, которая говорит роботам Яндекса и Google не сканировать указанные страницы или разделы сайта. Инструмент простой, но опасный: одна лишняя строка способна убрать из поиска весь сайт вместе с трафиком и заявками, поэтому правки в этом файле проверяют дважды.

Мы в lucky-seo продвигаем сайты бизнеса и регулярно чиним ситуации, когда через robots.txt случайно закрыли нужные страницы или, наоборот, не закрыли мусорные. В этом гайде разберём, как закрыть от индексации в robots txt то, что мешает продвижению, чем сканирование отличается от индексации и как проверить, что запрет реально сработал. Дадим рабочие примеры директив и покажем частые грабли, на которых бизнес теряет позиции.

Что такое robots txt запретить индексацию и зачем это нужно

Robots txt запретить индексацию, это способ управлять доступом поисковых роботов к содержимому сайта через служебный текстовый файл в корне домена. Файл robots.txt лежит по адресу вида site.ru/robots.txt и содержит правила, какие разделы роботам можно обходить, а какие трогать не стоит.

Бизнесу это нужно, чтобы в поиск попадали только продающие и полезные страницы, а не корзина, личный кабинет, результаты внутреннего поиска и технические дубли. Когда робот тратит краулинговый бюджет (crawl budget) на мусор, важные карточки и категории индексируются медленнее, и это напрямую бьёт по потоку заявок из поиска. Чистый индекс, это меньше конкуренции внутри сайта и выше шанс попасть в топ по коммерческим запросам.

Чем сканирование отличается от индексации

Сканирование (crawling), это когда робот заходит на страницу и читает её код, а индексация (indexing), это когда он добавляет её в базу поиска и начинает показывать в выдаче. Разница принципиальная, потому что от неё зависит, какой инструмент запрета сработает.

Директива Disallow в robots.txt запрещает именно сканирование, а не индексацию напрямую. Если на закрытую страницу ведут внешние ссылки, Google может показать её в выдаче без описания, с пометкой, что содержимое недоступно из-за robots.txt. Яндекс относится к запрету строже и обычно не индексирует закрытое, но полагаться на разное поведение двух систем рискованно.

Отсюда правило, которое экономит бизнесу нервы: если страницу нужно гарантированно убрать из поиска, одного robots.txt мало. Для надёжного скрытия применяют метатег robots со значением noindex или HTTP-заголовок X-Robots-Tag, а robots.txt используют, чтобы разгрузить робота и не пускать его в служебные разделы.

Как запретить сканирование всего сайта

Запретить сканирование всего сайта разом можно двумя строками в robots.txt, которые закрывают доступ всем роботам ко всем адресам. Такой запрет ставят на время разработки, чтобы недоделанная версия не попала в индекс раньше времени.

Директива выглядит так:

User-agent: *
Disallow: /

Первая строка обращается ко всем роботам, вторая запрещает обход всего сайта от корня. Как только сайт готов к запуску, эти строки убирают, иначе он так и останется невидимым для поиска. Именно на этой грабле теряют месяцы: сайт запустили, реклама идёт, а органического трафика ноль, потому что забыли снять запрет с релиза.

Внимание

Самая дорогая ошибка бизнеса, это оставить Disallow: / после переноса сайта с тестового домена на боевой. Разработчик закрывает тестовую версию от индексации, а при выкатке на прод копирует robots.txt целиком вместе с запретом. Сайт месяцами не растёт, бюджет на контент и ссылки уходит впустую, а причина в двух строчках. Проверяйте robots.txt первым делом после любого релиза.

Запрет сканирования каталога

Закрыть отдельный каталог от сканирования проще, чем весь сайт: указываете путь к папке после Disallow. Так убирают из обхода служебные разделы, которые не должны попадать в поиск.

Например, чтобы закрыть административную панель и корзину, пишут:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /search/

Слэш в конце пути важен: /admin/ закрывает всё внутри папки, а /admin закроет ещё и страницы, чьи адреса начинаются с этих букв. Для бизнеса это типовой набор: личный кабинет, страницы оформления заказа, внутренний поиск, фильтры, которые плодят бесконечные дубли. Закрывать нужно то, что не приводит клиентов, но забивает индекс.

Рекомендация

Перед тем как закрыть от индексации в robots txt целый раздел, проверьте, нет ли внутри него страниц, которые уже приводят трафик и заявки. Загляните в Яндекс Вебмастер и Google Search Console: если по этим URL идут показы и клики, закрывать раздел целиком нельзя, иначе вы своими руками отрежете живой поток обращений.

Запретить индексацию отдельной страницы в robots.txt

Закрыть одну страницу через robots.txt можно, прописав её точный адрес после Disallow. Это удобно для единичных технических или служебных URL, которые не нужны в поиске.

User-agent: *
Disallow: /spasibo-za-zayavku.html
Disallow: /policy-draft.html

Правило чувствительно к регистру и к точному написанию пути. Если хотите закрыть страницы по общему признаку, помогает символ * для любой последовательности символов и $ для точного конца адреса. Строка Disallow: /*? закроет все адреса с параметрами, а Disallow: /*.pdf$ уберёт из обхода все PDF-файлы. Тонкости синтаксиса лучше свериться в базовом материале про robots txt, чтобы не закрыть лишнее.

Закрытие всей страницы от индексации Яндекс и Google

Гарантированно убрать страницу из выдачи Яндекса и Google помогает метатег robots в HTML, а не только robots.txt. Метатег работает на уровне индексации, поэтому страница не появится в поиске даже при наличии внешних ссылок.

В секцию <head> страницы добавляют строку:

<meta name="robots" content="noindex, nofollow">

Значение noindex запрещает индексировать страницу, nofollow говорит не переходить по ссылкам с неё. Важный нюанс: чтобы робот увидел этот метатег, страница не должна быть закрыта в robots.txt. Если вы одновременно запретили сканирование в robots.txt и повесили noindex, робот просто не зайдёт на страницу и не прочитает метатег, а значит запрет на индексацию не сработает. Для надёжного скрытия оставляют страницу открытой для сканирования, но ставят noindex.

Закрыть сайт с помощью серверного файла htaccess

Файл .htaccess позволяет отдать роботам заголовок X-Robots-Tag на уровне сервера, что удобно для нетекстовых файлов вроде PDF или изображений, куда метатег не вставить. Способ работает на серверах Apache и не требует правки самих файлов.

Чтобы закрыть от индексации все PDF-документы, в .htaccess добавляют:

<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Этот метод сильнее robots.txt, потому что действует на уровне ответа сервера и одинаково понятен обоим поисковикам. Минус в том, что ошибка в синтаксисе .htaccess способна уронить весь сайт с ошибкой 500, поэтому правки вносят аккуратно и сразу проверяют доступность страниц. Для массового скрытия целых типов файлов это более чистое решение, чем плодить строки в robots.txt.

Как проверить правильность запрета индексации

Проверить, что запрет сработал, нужно сразу после правки, а не ждать переиндексации вслепую. Ошибку в robots.txt дешевле поймать за минуту, чем через месяц по просевшему трафику.

Порядок проверки простой и проходится без возврата назад:

  1. Откройте адрес site.ru/robots.txt в браузере и убедитесь, что файл отдаётся и содержит нужные директивы.
  2. Загрузите файл в анализатор robots.txt внутри Яндекс Вебмастера и проверьте, разрешён или запрещён обход конкретного URL.
  3. Прогоните ключевые продающие страницы через инструмент проверки URL в Google Search Console: они должны оставаться открытыми для сканирования.
  4. Проверьте закрытые страницы там же и убедитесь, что робот видит запрет.
  5. Через несколько дней после правок посмотрите в Search Console и Вебмастере, что нужные страницы в индексе, а мусорные из него уходят.
  6. Настройте контроль robots.txt после каждого релиза, чтобы разработчик случайно не вернул Disallow: / на боевой сайт.

Сравнение основных способов запрета помогает выбрать инструмент под задачу, а не хвататься за первый попавшийся.

Способ Что запрещает Область применения Надёжность скрытия из поиска
Disallow в robots.txt сканирование страницы или раздела служебные разделы, экономия краулингового бюджета средняя, при внешних ссылках возможен показ в Google
Метатег robots noindex индексацию конкретной страницы отдельные HTML-страницы, которые нельзя закрывать в robots.txt высокая, страница не попадает в выдачу
X-Robots-Tag в htaccess индексацию на уровне сервера PDF, изображения, массовые типы файлов высокая, работает и для нетекстовых файлов
Пароль или авторизация доступ к странице целиком тестовые версии, закрытые разделы максимальная, робот вообще не видит контент

Если после правок сомневаетесь в настройке, сверьтесь с гайдом как настроить robots txt, где разобраны частые сценарии для бизнеса.

Частые вопросы

Как в robots txt запретить индексацию всего сайта?

Запретить обход всего сайта можно двумя строками: User-agent: * и Disallow: /. Этот запрет закрывает сайт от всех роботов и применяется только на время разработки, потому что на боевом сайте он полностью убирает органический трафик и заявки из поиска.

Гарантирует ли robots txt, что страница не появится в поиске?

Нет, robots.txt запрещает сканирование, но не индексацию напрямую. Если на закрытую страницу ведут внешние ссылки, Google может показать её в выдаче без описания, поэтому для надёжного скрытия используют метатег robots noindex или заголовок X-Robots-Tag.

Чем Disallow отличается от noindex?

Disallow в robots.txt запрещает роботу заходить на страницу, а noindex запрещает добавлять её в индекс поиска. Для гарантированного удаления из выдачи применяют noindex, при этом страница должна оставаться открытой для сканирования, иначе робот не прочитает метатег.

Как закрыть от индексации в robots txt только один раздел?

Укажите путь к папке после Disallow, например Disallow: /admin/. Слэш в конце закрывает всё содержимое каталога, а перед закрытием раздела стоит проверить, нет ли внутри страниц, которые уже приводят трафик и заявки.

Почему после запуска сайта нет трафика из поиска?

Частая причина, это забытая строка Disallow: / в robots.txt, скопированная с тестовой версии при переносе на боевой домен. Откройте site.ru/robots.txt и убедитесь, что запрет на весь сайт снят, иначе робот не будет обходить страницы.

Как проверить, что запрет индексации сработал?

Загрузите robots.txt в анализатор Яндекс Вебмастера и проверку URL в Google Search Console и посмотрите, разрешён ли обход конкретных страниц. Через несколько дней сверьтесь, что нужные страницы остались в индексе, а закрытые из него уходят.

Выводы

Robots txt запретить индексацию, это рабочий инструмент управления обходом сайта, но не универсальный выключатель видимости в поиске. Директива Disallow отлично разгружает робота от служебных разделов и экономит краулинговый бюджет для продающих страниц, а вот для гарантированного скрытия из выдачи нужен метатег noindex или заголовок X-Robots-Tag. Путаница между сканированием и индексацией, это главная причина, по которой бизнес то теряет трафик, то не может убрать мусор из поиска.

Главное правило, проверять robots.txt после каждого релиза и не закрывать разделы, которые уже приводят клиентов. Одна лишняя строка убирает из поиска весь сайт, а найти её потом сложнее, чем аккуратно настроить файл с самого начала. Если сайт странно себя ведёт в выдаче, начните диагностику именно с этого файла, а дальше двигайтесь к техническому аудиту и семантике.

Опубликовано в 2026 году. Проверено на актуальность: подход работает на текущих алгоритмах Яндекса и Google.

Оцените статью
Добавить комментарий