Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Ползать границей является структурой данных , используемой для хранения URL - адресов , имеющих право на сканирование и поддерживают такие операции , как добавление URL - адреса и выбор для сканирования. Иногда это можно рассматривать как очередь с приоритетом . [1]

Обзор [ править ]

Архитектура поискового робота

Граница сканирования - это один из компонентов, составляющих архитектуру поискового робота. Граница сканирования содержит логику и политики, которым следует поисковый робот при посещении веб-сайтов. Это действие называется сканированием .

Политики могут включать такие вещи, как то, какие страницы следует посетить дальше, приоритеты для каждой страницы, на которой будет выполняться поиск, и как часто страницу следует посещать. [2] Эффективность границы обхода контента особенно важна, поскольку это одна из характеристик Интернета, которая делает сканирование веб-страницы сложной задачей; в том, что он содержит такой большой объем данных и постоянно меняется. [3] [4]

Архитектура [ править ]

Первоначальный список URL-адресов, содержащихся в границах поискового робота, называется семенами. Сканер будет постоянно спрашивать у границы, какие страницы посетить. Когда сканер посещает каждую из этих страниц, он будет информировать границу с ответом каждой страницы. Сканер также обновит границу поискового робота любыми новыми гиперссылками, содержащимися на тех страницах, которые он посетил. Эти гиперссылки добавляются к границе и будут посещать эти новые веб-страницы в соответствии с политиками границы поискового робота. [3] [4] Этот процесс продолжается рекурсивно до тех пор, пока не будут посещены все URL-адреса на границе сканирования.

Политика, используемая для определения того, какие страницы следует посещать, обычно основывается на оценке. Эта оценка обычно рассчитывается на основе ряда различных атрибутов. Например, актуальность страницы, время обновления страницы и релевантность содержания по отношению к определенным условиям.

Компоненты [ править ]

Архитектура Crawler Frontier

Frontier API / Менеджер [ править ]

Frontier Manager - это компонент, который веб-сканер будет использовать для связи с границей сканирования. Интерфейс API также можно использовать для связи с границей сканирования. [3]

Промежуточное ПО [ править ]

Граничное промежуточное ПО находится между менеджером и серверной частью. Назначение промежуточного программного обеспечения - управлять связью между пограничным и внутренним интерфейсом. Промежуточное ПО - идеальный способ добавить или расширить дополнительные функции, просто вставив дополнительный код. [5]

Бэкэнд [ править ]

Внутренний компонент содержит всю логику и политики, которые используются при поиске. Функция бэкэнда - идентифицировать страницы, которые нужно сканировать. [5]

Известные реализации [ править ]

  • Frontera (веб-сканирование) - это реализация границы обхода с открытым исходным кодом, написанная исключительно на Python.

Ссылки [ править ]

  1. ^ Олстон, Кристофер; Наджорк, Марк. «Веб-сканирование» (PDF) . Основы и тенденции в поиске информации .
  2. ^ Патил, Югандхара; Патил, Сонал (2016). «Обзор веб-сканеров со спецификацией и работой» (PDF) . Международный журнал перспективных исследований в области компьютерной и коммуникационной техники . 5 : 4.
  3. ^ a b c "Документация Crawlfrontier" (PDF) . 15 апреля 2015 года.
  4. ^ а б Дхенакаран, СС; Самбантан, К. Тиругнана (2011). «Веб-сканер - Обзор» (PDF) . Международный журнал компьютерных наук и коммуникаций . 2 : 3.
  5. ^ а б «Архитектура Фронтеры» . 2017 г.