Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Вертикальный поиск двигатель отличается от общего веб - поисковой системы , в том , что она фокусируется на определенном сегменте онлайн - контента. Их также называют специализированными или тематическими поисковыми системами. Вертикальная область контента может быть основана на актуальности, типе медиа или жанре контента. Общие вертикали включают покупки, автомобильную промышленность, юридическую информацию, медицинскую информацию, научную литературу, поиск работы и путешествия. Примеры вертикальных поисковых систем включают в Библиотеку Конгресса , Mocavo , Nuroa , Trulia и Yelp .

В отличие от обычных поисковых систем, которые пытаются проиндексировать большие части Всемирной паутины с помощью веб-сканера , вертикальные поисковые системы обычно используют специализированный поисковый робот, который пытается проиндексировать только релевантные веб-страницы по заранее определенной теме или набору тем. . Некоторые сайты вертикального поиска сосредоточены на отдельных вертикалях, в то время как другие сайты включают несколько вертикальных поисков в одной поисковой системе.

Преимущества [ править ]

Вертикальный поиск предлагает несколько потенциальных преимуществ по сравнению с обычными поисковыми системами:

  • Большая точность из-за ограниченного объема,
  • Используйте знания предметной области, включая таксономии и онтологии ,
  • Поддержка конкретных уникальных пользовательских задач.

Вертикальный поиск можно рассматривать как подобие корпоративного поиска, в котором сфера деятельности сосредоточена на предприятии, таком как компания, правительство или другая организация. В 2013 году сайты сравнения потребительских цен с интегрированными вертикальными поисковыми системами, такими как FindTheBest, привлекли большие объемы венчурного финансирования, что указывает на тенденцию роста этих приложений технологии вертикального поиска. [1] [2]

Поиск по домену [ править ]

Вертикали, ориентированные на конкретные предметные области, сосредоточены на конкретной теме Джон Баттель описывает это в своей книге The Search (2005):

Решения для поиска по конкретным предметным областям сосредоточены на одной области знаний, создавая индивидуализированный поисковый опыт, который из-за ограниченного корпуса предметной области и четких взаимосвязей между концепциями обеспечивает чрезвычайно релевантные результаты для поисковиков. [3]

Любая обычная поисковая система будет индексировать все страницы и выполнять поиск по принципу «в ширину» для сбора документов. Паутина в поисковых системах, ориентированных на конкретную предметную область, более эффективно выполняет поиск в небольшом подмножестве документов, сосредотачиваясь на конкретном наборе. Было обнаружено, что спайдинг, осуществляемый с помощью системы обучения с подкреплением, в три раза более эффективен, чем поиск в ширину. [4]

Программа Memex DARPA [ править ]

В начале 2014 года Агентство перспективных исследовательских проектов Министерства обороны США ( DARPA ) опубликовало на своем веб-сайте заявление, в котором излагаются предварительные детали «программы Memex», которая направлена ​​на разработку новых поисковых технологий, позволяющих преодолеть некоторые ограничения текстового поиска. [5] DARPA хочет, чтобы технология Memex, разработанная в этом исследовании, была пригодна для поисковых систем, которые могут искать информацию в Deep Web - той части Интернета, которая в значительной степени недоступна коммерческим поисковым системам, таким как Google или Yahoo.. На веб-сайте DARPA говорится, что «цель состоит в том, чтобы изобрести более совершенные методы взаимодействия с информацией и обмена ею, чтобы пользователи могли быстро и тщательно организовывать и искать подмножества информации, соответствующие их индивидуальным интересам». [6] Как сообщалось в статье Wired 2015 года , технология поиска, разрабатываемая в программе Memex, «направлена ​​на то, чтобы пролить свет на темную сеть и выявить закономерности и взаимосвязи в онлайн-данных, чтобы помочь правоохранительным органам и другим лицам отслеживать незаконную деятельность». [7]DARPA намеревается, что программа заменит централизованные процедуры, используемые коммерческими поисковыми системами, заявив, что «создание новой предметно-ориентированной парадигмы индексации и поиска предоставит механизмы для улучшенного обнаружения контента, извлечения информации, поиска информации, сотрудничества с пользователями и расширения. текущих возможностей поиска в глубокой сети, темной сети и нетрадиционном (например, мультимедийном) контенте ". [8] В своем описании программы DARPA объясняет название программы как дань уважения оригинальному изобретению Memex Буша, которое послужило источником вдохновения. [5]

В апреле 2015 года было объявлено, что исходный код некоторых частей Memex будет открыт. [9] Модули доступны для скачивания. [8]

Ссылки [ править ]

  1. Рао, Лина. «Платформа для сравнения цен на основе данных FindTheBest привлекла $ 11 млн от New World, Kleiner Perkins и других» . TechCrunch . Проверено 27 мая 2013 года .
  2. ^ ХО, ВИКТОРИЯ. "Азиатский сайт сравнения цен Save 22 получает ангельский раунд из" шестизначных цифр " " . Проверено 27 мая 2013 года .
  3. ^ Battelle, Джон (2005). Поиск: как Google и его конкуренты изменили правила ведения бизнеса и изменили нашу культуру . Нью-Йорк: Портфолио.
  4. ^ Маккаллум, Эндрю (1999). «Подход машинного обучения к созданию поисковых систем для конкретных предметных областей». IJCAI . 99 : 662–667. CiteSeerX 10.1.1.88.3818 . 
  5. ^ a b «Memex стремится создать новую парадигму для доменного поиска» (пресс-релиз). DARPA . 9 февраля, 2014. Архивировано из оригинала на 11 февраля 2015 года . Проверено 11 февраля 2015 года .
  6. ^ "Memex (поиск по домену)" . www.darpa.mil . Проверено 21 сентября 2016 .
  7. ^ Ким Zetter (2 февраля 2015). «Darpa разрабатывает поисковую систему для даркнета» . Проводной .
  8. ^ a b «Memex (поиск по домену)» . DARPA. Архивировано из оригинала на 10 июня 2015 года . Проверено 20 апреля 2015 года .
  9. Forbes (17 апреля 2015 г.). «Осторожно, Google, DARPA просто открыло исходный код всей этой Swish« Dark Web »Search Tech» . Проверено 20 апреля 2015 года .