Crawler

Crawler («веб-паук», поисковый робот) – это программа, является составной частью поисковых систем. Данный web-паук непрерывно сканирует новые и обновленные страницы различных сайтов в интернете.

У данного робота есть отведенная база данных, куда он заносит информацию о просканированных страницах для добавления их в свой индекс.

Алгоритм процедуры сканирования

  • Первым шагом паук должен определить массу сайта. Для этого он собирает информацию о количестве URL на сайте. Данный список он формирует с помощью памяти предыдущего сеанса на этом сайте. Так же данный список дополняет Sitemap сайта.
  • Вторым шагом является заполнение ячеек в базе данных Краулера информацией о той или иной веб-странице. А так же о пригодности добавления страницы в индекс.
  • В конечной стадии, перед уходом робота с сайта — он собирает ссылки с просмотренных страниц и добавляет их в список подлежащих сканированию.

В последнее время, поисковые системы стали накладывать на робота ограничения:

  • Глубину проникновения паука внутрь сайта
  • Максимальный размер сканируемого текста

Поставить ограничения или вовсе запретить сканирование вашего сайта Crawler’ом можно с помощью файла robots.txt.

comments

Инструкция, как заказывать комментарии и отзывы на сайт. Обзор сервиса для покупки комментариев.

Xenu’s Link Sleuth

Xenu’s Link Sleuth — старый надежный crawler, который быстро просканирует сайт и найдет буквально все: битые ссылки, редиректы, ошибки и многое другое.