DeepPeep была поисковой системой, которая была нацелена на сканирование и индексирование каждой базы данных в общедоступной сети. [1] [2] В отличие от традиционных поисковых систем, которые сканируют существующие веб-страницы и их гиперссылки, DeepPeep нацелен на предоставление доступа к так называемой глубокой сети , содержимому всемирной паутины, доступному, например, только через типизированные запросы к базам данных. [3] Проект стартовал в Университете штата Юта, и его курировала Джулиана Фрейре , доцент группы WebDB Школы вычислительной техники университета. [4] [5] По словам Фрейре, цель заключалась в том, чтобы сделать 90% всего WWW-контента доступным.[6] [7] В проекте использовалась бета-версия поисковой системы, и он спонсировался Университетом Юты и грантом в размере 243 000 долларов США от Национального научного фонда . [8] Это вызвало интерес во всем мире. [9] [10] [11] [12] [13]
Как это работает
Подобно Google , Yahoo и другим поисковым системам, DeepPeep позволяет пользователям вводить ключевое слово и возвращает список ссылок и баз данных с информацией о ключевом слове.
Однако DeepPeep отличается от других поисковых систем тем, что DeepPeep использует сканер ACHE, «Иерархическую идентификацию форм», «Контекстно-зависимую кластеризацию форм» и «LabelEx» для поиска, анализа и организации веб-форм, чтобы обеспечить легкий доступ для пользователей. [14]
Гусеничный ACHE
Сканер ACHE используется для сбора ссылок и использует стратегию обучения, которая увеличивает скорость сбора ссылок по мере того, как эти сканеры продолжают поиск. Что отличает ACHE Crawler от других поисковых роботов, так это то, что другие сканеры являются специализированными поисковыми роботами, которые собирают веб-страницы, имеющие определенные свойства или ключевые слова. Вместо этого Ache Crawlers включает классификатор страниц, который позволяет сортировать нерелевантные страницы домена, а также классификатор ссылок, который ранжирует ссылку по ее наибольшей релевантности теме. В результате сканер ACHE сначала загружает веб-ссылки, которые имеют более высокую релевантность, и экономит ресурсы, не загружая нерелевантные данные. [15]
Идентификация иерархической формы
Чтобы еще больше исключить нерелевантные ссылки и результаты поиска, DeepPeep использует структуру иерархической идентификации форм (HIFI), которая классифицирует ссылки и результаты поиска на основе структуры и контента веб-сайта. [14] В отличие от других форм классификации, которые полагаются исключительно на метки веб-формы для организации, HIFI использует для классификации как структуру, так и содержание веб-формы. Используя эти два классификатора, HIFI организует веб-формы в иерархическом порядке, который ранжирует соответствие веб-формы целевому ключевому слову. [16]
Контекстно-зависимая кластеризация
Когда интересующий домен отсутствует или указанный домен имеет несколько типов определений, DeepPeep должен разделить веб-форму и сгруппировать их в похожие домены. Поисковая система использует кластеризацию с учетом контекста для группировки похожих ссылок в одном домене путем моделирования веб-формы в наборы гиперссылок и использования ее контекста для сравнения. В отличие от других методов, которые требуют сложного извлечения меток и ручной предварительной обработки веб-форм, контекстно-зависимая кластеризация выполняется автоматически и использует метаданные для обработки веб-форм, которые содержат много контента и несколько атрибутов. [14]
LabelEx
DeepPeep дополнительно извлекает с этих страниц информацию, называемую метаданными, что позволяет лучше ранжировать ссылки и базы данных с помощью LabelEx, подхода для автоматической декомпозиции и извлечения метаданных. Мета-данные - это данные из веб-ссылок, которые предоставляют информацию о других доменах. LabelEx идентифицирует сопоставление элемент-метка и использует сопоставление для точного извлечения метаданных, в отличие от традиционных подходов, в которых используются определенные вручную правила извлечения. [14]
Рейтинг
Когда результаты поиска появляются после того, как пользователь ввел свое ключевое слово, DeepPeep ранжирует ссылки на основе 3 характеристик: содержание термина, количество обратных ссылок . и рейтинг страницы . Во-первых, термин «контент» просто определяется содержанием веб-ссылки и ее релевантностью. Обратные ссылки - это гиперссылки или ссылки, которые направляют пользователя на другой веб-сайт. Pageranks - это рейтинг веб-сайтов в результатах поисковых систем, который основан на подсчете количества и качества ссылок на веб-сайт для определения его важности. Информация о рейтинге страниц и обратных ссылках получена из внешних источников, таких как Google , Yahoo и Bing . [14]
Бета-запуск
DeepPeep Beta была запущена и охватывала только семь областей: авто, авиабилеты, биология, книги, гостиница, работа и аренда. В этих семи доменах DeepPeep предлагал доступ к 13 000 веб-форм. [17] Можно было получить доступ к веб-сайту deeppeep.org, но он был неактивен после закрытия бета-версии.
Рекомендации
- ↑ Райт, Алекс (22 февраля 2009 г.). «Изучение« глубокой паутины », которую Google не может понять» . Нью-Йорк Таймс . Проверено 23 февраля 2009 .
- ^ Франке, Сюзанна (24 февраля 2009 г.). «DeepPeep: Forscher wollen verborgene Datenbanken im Web zugänglich machen» [DeepPeep: Исследователи хотят сделать скрытые базы данных доступными в сети]. Комп. Ztg. Источник 2009-02-25 - через lanline.de.
- ^ Уорвик, Мартин (25 февраля 2009 г.). «DeepPeep пропускает свет в скрытую сеть» . ТелекомТВ . Проверено 25 февраля 2009 .[ постоянная мертвая ссылка ]
- ^ Савант, Нимиш (09.03.2010). «Сканирование глубокой паутины» . LiveMint . Мята . Проверено 13 декабря 2010 .
- ^ «Главная страница» . WebDB . Школа вычислительной техники Университета Юты. 2008-10-04. Архивировано из оригинала на 2009-02-27 . Проверено 23 февраля 2009 .
- ^ Пихлер, Томас (23 февраля 2009 г.). "Suchansätze dringen in die Tiefen des Internets: Erforschen von Datenbanken als wichtiger Schritt" [Поисковые фразы проникают в глубины Интернета: изучение баз данных как важный шаг] (на немецком языке). Пресс-текст . Проверено 23 февраля 2009 .
- ^ «Suchansätze dringen in die Tiefen des Internets» [Поисковые фразы проникают в глубины Интернета]. nachrichten.ch (на немецком языке). 2009-02-24. Архивировано из оригинала на 2011-07-07 . Проверено 13 декабря 2010 .
- ^ "Резюме премии № 0713637: III-COR: Обнаружение и организация источников скрытой сети" . Поиск награды NSF . Национальный научный фонд . Проверено 23 февраля 2009 .
- ^ "Esplorando il DeepWeb, i fondali della Rete dove Google non arriva" [Изучение DeepWeb, глубины Сети, куда Google не входит]. Liberta di Stampa Diritto all'Informazione (это итальянский перевод статьи Алекса Райта в New York Times «Изучение« глубокой паутины », которую Google не может понять») (на итальянском языке). Италия. 2009-04-05 . Проверено 5 марта 2009 .
- ^ Шандор, Берта (24 февраля 2009 г.). "Az internet mélyét kutatja a DeepPeep" [Интернет, исследующий глубины DeepPeep]. sg.hu (на венгерском). SG (Венгрия) . Проверено 5 марта 2009 .
- ^ «Niet alles is te vinden met Google» [Не все можно найти с помощью Google] (на голландском). Голландские ковбои. 2009-03-04 . Проверено 5 марта 2009 .
- ^ «谷 歌 尚未 把持 的 '深层 网络' » [Изучите «глубокую сеть», которую Google еще не доминирует] (Это китайский перевод статьи в New York Times «Изучение« глубокой паутины », которую Google не может понять», автор Алекс Райт) (на китайском языке). 2006-03-03. Архивировано из оригинала на 2011-07-07 . Проверено 5 марта 2009 .
- ^ "Поиск в глубокой сети: Космикс доказал, что страница наскостила в Интернете" [Вызов глубокой сети: Kosmix пытается раскрыть скрытые страницы Интернета]. Messagg. 2009-02-23. Архивировано из оригинала на 2012-08-04 . Проверено 13 декабря 2010 .
- ^ а б в г д Барбоза, Лучано; Нгуен, Хоа; Нгуен, Тхань; Пиннаманени, Рамеш; Фрейре, Юлиана (01.01.2010). «Создание и изучение репозиториев веб-форм». Материалы Международной конференции ACM SIGMOD 2010 по управлению данными . SIGMOD '10. Нью-Йорк, Нью-Йорк, США: ACM: 1175–1178. DOI : 10.1145 / 1807167.1807311 . ISBN 9781450300322.
- ^ «ВИДА-НЮ / Боль» . GitHub . Проверено 6 ноября 2016 .
- ^ Дуйгулу, Пинар (1999-12-22). «Иерархическое представление форм документов для идентификации и поиска» . Труды SPIE . 3967 (1). DOI : 10.1117 / 12.373486 . ISSN 0277-786X .
- ^ Беккет, Энди (25 ноября 2009 г.). «Темная сторона Интернета» . Хранитель . ISSN 0261-3077 . Проверено 6 ноября 2016 .
Внешние ссылки
- Сайт DeepPeep.org , обнаруженный мертвым в ноябре 2016 года, связан с сайтом Register.com . Последний «Архивная копия» . Архивировано 9 мая 2012 года . Проверено 23 февраля 2009 .CS1 maint: заархивированная копия как заголовок ( ссылка ) CS1 maint: bot: исходный статус URL неизвестен ( ссылка ).