Поисковый робот


Веб -сканер , иногда называемый пауком или роботом-пауком и часто сокращаемый до краулера , представляет собой интернет-бот , который систематически просматривает Всемирную паутину и обычно используется поисковыми системами с целью веб - индексации ( веб-паук ). [1]

Системы веб-поиска и некоторые другие веб- сайты используют программное обеспечение для сканирования или поиска в Интернете для обновления своего веб-контента или индексов веб-контента других сайтов. Поисковые роботы копируют страницы для обработки поисковой системой, которая индексирует загруженные страницы, чтобы пользователи могли выполнять поиск более эффективно.

Краулеры потребляют ресурсы посещаемых систем и часто посещают сайты без запроса. Вопросы расписания, нагрузки и «вежливости» вступают в игру, когда осуществляется доступ к большим коллекциям страниц. Существуют механизмы для общедоступных сайтов, не желающих быть просканированными, чтобы сообщить об этом агенту обхода. Например, добавление robots.txtфайла может потребовать от ботов индексировать только части веб-сайта или вообще ничего.

Количество интернет-страниц чрезвычайно велико; даже самые большие поисковые роботы не могут составить полный индекс. По этой причине поисковые системы с трудом выдавали релевантные результаты поиска в первые годы существования Всемирной паутины, до 2000 года. Сегодня релевантные результаты выдаются почти мгновенно.

Сканеры могут проверять гиперссылки и HTML - код. Их также можно использовать для парсинга веб -страниц и программирования на основе данных .

Поисковый робот также известен как паук , [2] , муравей , автоматический индексатор , [3] или (в контексте программного обеспечения FOAF ) веб-скатер . [4]


Архитектура поискового робота
Эволюция свежести и возраста в поисковом роботе
Высокоуровневая архитектура стандартного поискового робота