Поисковый движок


Поисковая система — это программная система , предназначенная для поиска в Интернете . Они систематически ищут во всемирной паутине конкретную информацию, указанную в текстовом запросе веб-поиска . Результаты поиска обычно представлены в виде строки результатов, часто называемой страницами результатов поисковой системы (SERP). Информация может представлять собой сочетание ссылок на веб-страницы , изображения, видео, инфографику , статьи, исследовательские работы и другие типы файлов. Некоторые поисковые системы также извлекают данные , доступные в базах данных или открытых каталогах. В отличие отвеб-каталогах , которые поддерживаются только редакторами-людьми, поисковые системы также поддерживают информацию в реальном времени , запуская алгоритм на веб-сканере . Интернет-контент, который не может быть найден поисковой системой, обычно называют « глубокой сетью » .

Система поиска опубликованной информации, предназначенная для преодоления все возрастающей трудности поиска информации в постоянно растущих централизованных указателях научной работы, была описана в 1945 году Ванневаром Бушем , написавшим в The Atlantic Monthly статью под названием « Как мы можем думать » [1] . ] , в котором он представил библиотеки исследований со связанными аннотациями, мало чем отличающимися от современных гиперссылок . [2] Анализ ссылок в конечном итоге станет важнейшим компонентом поисковых систем благодаря таким алгоритмам, как Hyper Search и PageRank . [3] [4]

Первые поисковые системы появились еще до появления Интернета в декабре 1990 г.: поиск пользователей в WHOIS восходит к 1982 г. [5] , а мультисетевой поиск пользователей Knowbot Information Service был впервые реализован в 1989 г. [6] Первый хорошо задокументированный поиск движком, который искал файлы содержимого, а именно файлы FTP , был Archie , дебютировавший 10 сентября 1990 года. [7]

До сентября 1993 года Всемирная паутина полностью индексировалась вручную. Был список веб -серверов , отредактированный Тимом Бернерсом-Ли и размещенный на веб-сервере CERN . Остался один снимок списка 1992 года [8] , но по мере того, как все больше и больше веб-серверов подключались к сети, центральный список больше не мог поддерживать его. На сайте NCSA новые серверы были анонсированы под заголовком «Что нового!» [9]

Первым инструментом, используемым для поиска контента (в отличие от пользователей) в Интернете , был Archie . [10] Название расшифровывается как «архив» без буквы «v». [11] Он был создан Аланом Эмтажем [11] [12] [13] [14] студентом компьютерных наук в Университете Макгилла в Монреале, Квебек , Канада . . Программа загружала списки каталогов всех файлов, расположенных на общедоступных анонимных сайтах FTP ( протокол передачи файлов ), создавая доступную для поиска базу данных имен файлов; однако поисковая система Archieне индексировал содержимое этих сайтов, поскольку объем данных был настолько ограничен, что его можно было легко найти вручную.

Подъем Gopher (созданный в 1991 году Марком МакКахиллом в Университете Миннесоты ) привел к появлению двух новых поисковых программ, Veronica и Jughead . Как и Арчи, они искали имена и заголовки файлов, хранящиеся в индексных системах Gopher. Вероника ( Очень простой , ориентированный на грызунов общесетевой индекс компьютеризированных архивов ) обеспечила поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher . Джагхед ( Универсальный суслик Джонзи _ _Hierarchy Excavation And Display ) был инструментом для получения информации о меню с определенных серверов Gopher . Хотя название поисковой системы « Поисковая система Арчи » не было отсылкой к серии комиксов Арчи , « Вероника » и « Джагхед » являются персонажами этой серии, таким образом, ссылаясь на своего предшественника.


Результаты поиска термина «лунное затмение» в поисковой системе изображений в Интернете.
Высокоуровневая архитектура стандартного поискового робота