Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Deep web (поиск) )
Перейти к навигации Перейти к поиску

Глубокий веб , [1] невидимый веб , [2] или скрытые веб [3] являются частью World Wide Web , содержание которого не индексируется с помощью стандартных веб - поисковиков . Термин, противоположный глубокой паутине, - это « поверхностная сеть », которая доступна каждому / каждому, кто пользуется Интернетом. [4] Компьютеролог Майкл К. Бергман придумал термин « глубокая паутина» в 2001 году в качестве поискового индекса. [5]

Содержание глубокого полотна скрывается за HTTP формы [ расплывчатым ] [6] [7] и включает в себя множество очень общих целей , таких как веб - почта , онлайн - банкинг , частное или иное ограничение доступа социальных медиа страниц и профилей, некоторые веб - форумах , что требуют регистрации для просмотра контента и услуг, за которые пользователи должны платить и которые защищены платным доступом , таких как видео по запросу, а также некоторые онлайн-журналы и газеты.

Содержимое глубокой сети может быть обнаружено и доступно по прямому URL-адресу или IP-адресу , но может потребоваться пароль или другой безопасный доступ для прохождения страниц общедоступного веб-сайта.

Терминология [ править ]

Первое смешение терминов «глубокая сеть» и « темная сеть » произошло в 2009 году, когда терминология глубокого веб-поиска обсуждалась вместе с незаконной деятельностью, имеющей место во Freenet и даркнете . [8] Эти преступные действия включают торговлю личных паролей, поддельные документы , удостоверяющую личность , наркотики , огнестрельное оружие , а также детскую порнографию . [9]

С тех пор, после их использования в отчетах средств массовых информации на Шелковом пути , средства массовой информации принял к использованию «глубокой сети» синонимично с темной сетью или даркнетом , сравнением некоторых отклонять ошибочные [10] и , следовательно , стал постоянным источником спутанность сознания. [11] Проводные репортеры Ким Zetter [12] и Энди Гринберг [13]рекомендую использовать эти термины по-разному. В то время как глубокая сеть - это ссылка на любой сайт, к которому нельзя получить доступ через традиционную поисковую систему, темная сеть - это часть глубокой сети, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. [14] [15] [16] [17] [18]

Неиндексированный контент [ править ]

Бергман в статье о глубокой сети, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсуорт использовала термин « невидимая паутина» в 1994 году для обозначения веб-сайтов , которые не были зарегистрированы ни в одной поисковой системе. [19] Бергман процитировал статью Фрэнка Гарсиа, опубликованную в январе 1996 года: [20]

Возможно, это будет сайт с разумным дизайном, но они не удосужились зарегистрировать его ни в одной из поисковых систем. Значит, никто не может их найти! Ты спрятан. Я называю это невидимой паутиной.

Еще одно раннее использование термина « невидимая паутина» было использовано Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании инструмента Deep Web №1, опубликованном в пресс-релизе от декабря 1996 года. [21]

Первое использование конкретного термина « глубокая паутина» , ныне общепринятого, произошло в вышеупомянутом исследовании Бергмана 2001 года. [19]

Методы индексации [ править ]

Методы, предотвращающие индексирование веб-страниц традиционными поисковыми системами, могут быть отнесены к одной или нескольким из следующих категорий:

  1. Контекстная сеть : страницы с содержанием, различающимся для разных контекстов доступа (например, диапазонов IP-адресов клиентов или предыдущей последовательности навигации).
  2. Динамическое содержимое : динамические страницы , которые возвращаются в ответ на отправленный запрос или доступны только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких полях сложно ориентироваться без знания предметной области .
  3. Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническим способом (например, с помощью Стандарта исключения роботов или CAPTCHA , или директивы no-store, которые запрещают поисковым системам просматривать их и создавать кэшированные копии). [22]
  4. Не-HTML / текстовое содержимое : текстовое содержимое, закодированное в файлах мультимедиа (изображения или видео) или в файлах определенных форматов, не обрабатываемых поисковыми системами.
  5. Частный Интернет : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
  6. Содержимое по сценариям : страницы, доступные только по ссылкам, созданным с помощью JavaScript, а также содержимое, динамически загружаемое с веб-серверов с помощью решений Flash или Ajax .
  7. Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета, доступен только с помощью специального программного обеспечения, такого как Tor , I2P или другое программное обеспечение даркнета. Например, Tor позволяет пользователям анонимно получать доступ к веб-сайтам, используя адрес сервера .onion , скрывая свой IP-адрес.
  8. Несвязанный контент : страницы, на которые не ссылаются другие страницы, что может помешать программам веб-сканирования получить доступ к контенту. Этот контент называется страницами без обратных ссылок (также называемых внутренними ссылками ). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с просматриваемых веб-страниц.
  9. Веб-архивы : веб-архивные службы, такие как Wayback Machine, позволяют пользователям просматривать заархивированные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступными и не индексируются поисковыми системами, такими как Google. Wayback Machine можно назвать программой для просмотра глубокой сети, поскольку веб-архивы, не относящиеся к настоящему времени, не могут быть проиндексированы, поскольку предыдущие версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты в какой-то момент обновляются, поэтому веб-архивы считаются контентом Deep Web. [23]
  10. Файлы robots.txt : файл robots.txt может рекомендовать роботам поисковых систем не сканировать веб-сайты с помощью user-agent: *, затем disallow: /. Это даст указание всем роботам поисковых систем не сканировать весь веб-сайт и не добавлять его в поисковую систему. [24]

Типы контента [ править ]

Хотя не всегда возможно напрямую обнаружить содержимое определенного веб-сервера, чтобы его можно было проиндексировать, потенциально к сайту можно получить доступ косвенно (из-за уязвимостей компьютера ).

Для обнаружения контента в Интернете поисковые системы используют веб-сканеры, которые переходят по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеально подходит для обнаружения контента в поверхностной сети, но часто неэффективен при поиске контента в глубокой сети. Например, эти поисковые роботы не пытаются найти динамические страницы, являющиеся результатом запросов к базе данных, из-за неопределенного количества возможных запросов. [25] Было отмечено, что это можно (частично) преодолеть, предоставив ссылки на результаты запроса, но это может непреднамеренно повысить популярность члена глубокой сети.

DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi - это несколько поисковых систем, которые имеют доступ к глубокой сети. У Intute закончилось финансирование, и по состоянию на июль 2011 года он является временным статическим архивом. [26] Scirus был выведен из эксплуатации ближе к концу января 2013 года. [27]

Исследователи изучали, как можно автоматически сканировать глубокую сеть, включая контент, доступ к которому может получить только специальное программное обеспечение, такое как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсиа-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) [28] [29] представили архитектурную модель для поискового робота скрытого Интернета, в котором для запроса использовались ключевые термины, предоставленные пользователями или собранные из интерфейсов запросов. веб-форму и сканирование содержимого Deep Web. Александрос Нтулас, Петрос Зерфос и Юнгху Чо из Калифорнийского университета в Лос-Анджелесе создали поисковый робот для скрытой сети, который автоматически генерировал содержательные запросы для отправки в поисковые формы. [30] Несколько языков запросов форм (например, DEQUEL [31]) были предложены, которые, помимо выдачи запроса, также позволяют извлекать структурированные данные из страниц результатов. Еще одна попытка - DeepPeep, проект Университета штата Юта, спонсируемый Национальным научным фондом , который собирал источники скрытой сети (веб-формы) в различных доменах на основе новых целенаправленных методов сканирования. [32] [33]

Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой паутины. Протокол Sitemap (первый разработан и введен в Google в 2005 году) и OAI-PMH механизмы , которые позволяют поисковые системы и другие заинтересованные стороны , чтобы обнаружить глубокие веб - ресурсов на определенных веб - серверов. Оба механизма позволяют веб-серверам рекламировать URL-адреса, доступные на них, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностной сетью. Система просмотра страниц в глубокой сети Google вычисляет количество отправленных материалов для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Обнаруженные результаты составляют тысячу запросов в секунду к глубокому веб-контенту. [34] В этой системе предварительный расчет представлений выполняется с использованием трех алгоритмов:

  1. выбор входных значений для входов текстового поиска, которые принимают ключевые слова,
  2. идентификация входов, которые принимают только значения определенного типа (например, дату) и
  3. выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.

В 2008 году, чтобы облегчить пользователям скрытых служб Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web - прокси-приложение, способное предоставлять доступ с помощью обычных веб-браузеров. [35] При использовании этого приложения глубокие веб-ссылки отображаются в виде случайной строки букв, за которой следует домен верхнего уровня .onion .

См. Также [ править ]

  • Программа DARPA Memex
  • Ссылки на контент
  • Суслик (протокол)

Ссылки [ править ]

  1. ^ Гамильтон, Найджел (2003). "Механика движка глубокого метапоиска" . В Исайасе, Педро; Пальма-душ-Рейс, Антониу (ред.). Материалы Международной конференции IADIS по электронному обществу . С. 1034–6. CiteSeerX  10.1.1.90.5847 . ISBN 972-98947-0-1.
  2. ^ Девайн, Джейн; Эггер-Сидер, Франсин (июль 2004 г.). «За пределами Google: невидимая паутина в академической библиотеке». Журнал академического библиотечного дела . 30 (4): 265–269. DOI : 10.1016 / j.acalib.2004.04.010 .
  3. ^ Рагхаван, Шрирам; Гарсиа-Молина, Гектор (11–14 сентября 2001 г.). «Сканирование скрытой паутины» . 27-я Международная конференция по очень большим базам данных .
  4. ^ «Поверхность сети» . Компьютерная надежда . Проверено 20 июня 2018 года .
  5. Райт, Алекс (22 февраля 2009 г.). «Изучение« глубокой паутины », которую Google не может понять» . Нью-Йорк Таймс . Проверено 2 сентября 2019 года . [...] Майк Бергман, компьютерный ученый и консультант, которому приписывают создание термина Deep Web.
  6. ^ Madhavan, J., Ко Д., Kot, Ł., Ганапати, В., Расмуссен, А., и Галеви, A. (2008). Сканирование глубокой сети Google. Труды VLDB Endowment, 1 (2), 1241–52.
  7. ^ Shedden, Сэм (8 июня 2014). «Как вы хотите, чтобы я это сделал? Это должно быть похоже на несчастный случай? - Убийца, продающий хит в сети; обнаружен в глубокой паутине» . Воскресная почта . Проверено 5 мая 2017 г. - через Questia .
  8. Беккет, Энди (26 ноября 2009 г.). «Темная сторона Интернета» . Проверено 9 августа 2015 года .
  9. ^ D. День. Самый простой улов: не будьте еще одной рыбой в темной сети . Университет Уэйк Форест : TEDx Talks .
  10. ^ «Прояснение путаницы - Deep Web против Dark Web» . BrightPlanet. 27 марта 2014 г.
  11. Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной сети» . Проверено 26 мая 2015 года .
  12. ^ NPR персонала (25 мая 2014). «Угасание: Интернет за Интернетом» . Проверено 29 мая 2015 года .
  13. Рианна Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое темная паутина?» . Проверено 6 июня 2015 года .
  14. ^ «Влияние даркнета на управление Интернетом и кибербезопасность» (PDF) . Проверено 15 января 2017 года .
  15. ^ Лам, Квок-Ян; Чи, Чи-Хунг; Цин, Сихан (23 ноября 2016 г.). Информационная и коммуникационная безопасность: 18-я международная конференция, ICICS 2016, Сингапур, Сингапур, 29 ноября - 2 декабря 2016 г., Материалы . Springer. ISBN 9783319500119. Проверено 15 января 2017 года .
  16. ^ «Глубокая паутина против темной сети | Блог Dictionary.com» . Словарь-блог. 6 мая 2015 года . Проверено 15 января 2017 года .
  17. ^ Akhgar, Бабак; Байерл, П. Саския; Сэмпсон, Фрейзер (1 января 2017 г.). Исследование разведки с открытым исходным кодом: от стратегии к реализации . Springer. ISBN 9783319476711. Проверено 15 января 2017 года .
  18. ^ "Что такое даркнет и кто его использует?" . Глобус и почта . Проверено 15 января 2017 года .
  19. ^ a b Бергман, Майкл К. (август 2001 г.). «Глубокая сеть: обнаружение скрытой ценности» . Журнал электронных публикаций . 7 (1). DOI : 10.3998 / 3336451.0007.104 .
  20. Гарсия, Франк (январь 1996). «Бизнес и маркетинг в Интернете» . Masthead . 15 (1). Архивировано из оригинала 5 декабря 1996 года . Проверено 24 февраля 2009 года .
  21. ^ @ 1 начинался с 5,7 терабайта контента, что, по оценкам, в 30 раз превышает размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, и от @ 1 отказались. «PLS представляет AT1, первую службу поиска в Интернете« второго поколения »» (пресс-релиз). Программное обеспечение для персональных библиотек. Декабрь 1996 Архивировано из оригинального 21 октября 1997 года . Проверено 24 февраля 2009 года .
  22. ^ «Протокол передачи гипертекста (HTTP / 1.1): кэширование» . Инженерная группа Интернета . 2014 . Проверено 30 июля 2014 года .
  23. Винер-Броннер, Даниэль (10 июня 2015 г.). «НАСА индексирует« глубокую паутину », чтобы показать человечеству то, чего не будет Google» . Фьюжн . Проверено 27 июня 2015 года . Уже доступны другие более простые версии Memex. «Если вы когда-либо использовали Wayback Machine в Internet Archive», которая дает вам предыдущие версии веб-сайта, недоступного через Google, значит, вы технически искали в Deep Web, - сказал Крис Маттманн .
  24. ^ «Как создать идеальный файл Robots.txt для SEO» . Нил Патель . 30 марта 2017 года . Проверено 20 января 2021 года .
  25. Райт, Алекс (22 февраля 2009 г.). «Изучение« глубокой паутины », которую Google не может понять» . Нью-Йорк Таймс . Проверено 23 февраля 2009 года .
  26. ^ "Intute FAQ, мертвая ссылка" . Проверено 13 октября 2012 года .
  27. ^ "Elsevier, чтобы отказаться от поисковой системы популярной науки" . library.bldrdoc.gov . Декабрь 2013. Архивировано из оригинала 23 июня 2015 года . Проверено 22 июня 2015 года . к концу января 2014 года Elsevier прекратит поддержку Scirus, своей бесплатной поисковой системы по науке. Scirus представляет собой инструмент широкого диапазона исследований, в котором для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предпечатные статьи, патенты и репозитории.
  28. ^ Sriram Raghavan ; Гарсия-Молина, Гектор (2000). «Сканирование скрытой сети» (PDF) . Стэнфордский технический отчет по электронным библиотекам . Проверено 27 декабря 2008 года . Цитировать журнал требует |journal=( помощь )
  29. ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Сканирование скрытой сети» (PDF) . Материалы 27-й Международной конференции по очень большим базам данных (VLDB) . С. 129–38.
  30. ^ Александрос, Нтулас; Зерфос, Петрос; Чо, Чжунху (2005). «Загрузка скрытого веб-содержимого» (PDF) . UCLA Computer Science . Проверено 24 февраля 2009 года . Цитировать журнал требует |journal=( помощь )
  31. ^ Шестаков, Денис; Bhowmick, Sourav S .; Лим, И-Пэн (2005). «DEQUE: запросы к глубокой сети» (PDF) . Инженерия данных и знаний . 52 (3): 273–311. DOI : 10.1016 / S0169-023X (04) 00107-7 .
  32. ^ Барбоза, Лучано; Фрейре, Юлиана (2007). «Адаптивный сканер для обнаружения точек входа в скрытую сеть» (PDF) . WWW конференция 2007 . Проверено 20 марта 2009 года . Цитировать журнал требует |journal=( помощь )
  33. ^ Барбоза, Лучано; Фрейре, Юлиана (2005). «Поиск баз данных скрытого Интернета» (PDF) . WebDB 2005 . Проверено 20 марта 2009 года . Цитировать журнал требует |journal=( помощь )
  34. ^ Мадхаван, Джаянт; Ко, Дэвид; Кот, Луцья; Ганапати, Виньеш; Расмуссен, Алекс; Халеви, Алон (2008). «Глубокое сканирование сети Google» (PDF) . Фонд VLDB, ACM . Проверено 17 апреля 2009 года . Цитировать журнал требует |journal=( помощь )
  35. ^ Аарон, Шварц. «В защиту анонимности» . Проверено 4 февраля 2014 года .

Дальнейшее чтение [ править ]

  • Баркер, Джо (январь 2004 г.). «Невидимая паутина: что это такое, почему она существует, как ее найти, и присущая ей неоднозначность» . Калифорнийский университет в Беркли, Интернет-семинары для обучающих библиотек. Архивировано из оригинального 29 июля 2005 года . Проверено 26 июля 2011 года ..
  • Басу, Сайкат (14 марта 2010 г.). «10 поисковых систем для исследования невидимой сети» . MakeUseOf.com..
  • Озкан, Акин (ноябрь 2014 г.). «Deep Web / Derin Интернет» ..
  • Гручавка, Стив (июнь 2006 г.). «Практическое руководство по глубокой паутине» ..
  • Гамильтон, Найджел (2003). "Механика движка глубокого метапоиска" . 12-я всемирная веб-конференция..
  • Он, Бин; Чанг, Кевин Чен-Чуан (2003). «Статистическое сопоставление схем в интерфейсах веб-запросов» (PDF) . Материалы Международной конференции ACM SIGMOD 2003 г. по управлению данными . Архивировано из оригинального (PDF) 20 июля 2011 года.
  • Хауэлл О'Нил, Патрик (октябрь 2013 г.). «Как искать в Deep Web» . Daily Dot ..
  • Ipeirotis, Panagiotis G .; Гравано, Луис; Сахами, Мехран (2001). «Зондирование, подсчет и классификация: категоризация баз данных скрытого Интернета» (PDF) . Материалы Международной конференции ACM SIGMOD 2001 года по управлению данными . С. 67–78. Архивировано из оригинального (PDF) 12 сентября 2006 года . Проверено 26 сентября 2006 года .
  • Кинг, Джон Д .; Ли, Юэфэн; Тао, Даниэль; Наяк, Ричи (ноябрь 2007 г.). «Извлечение мировых знаний для анализа содержимого поисковых систем» (PDF) . Веб-аналитика и агентские системы . 5 (3): 233–53. Архивировано из оригинального (PDF) 3 декабря 2008 года . Проверено 26 июля 2011 года .
  • МакКаун, Фрэнк; Лю, Сяомин; Нельсон, Майкл Л .; Зубайр, Мохаммад (март – апрель 2006 г.). «Охват поисковыми системами корпуса OAI-PMH» (PDF) . IEEE Internet Computing . 10 (2): 66–73. DOI : 10.1109 / MIC.2006.41 . S2CID  15511914 .
  • Прайс, Гэри; Шерман, Крис (июль 2001 г.). Невидимая паутина: раскрытие источников информации, недоступных для поисковых систем . Книги CyberAge. ISBN 978-0-910965-51-4.
  • Шестаков, Денис (июнь 2008 г.). Поисковые интерфейсы в Интернете: запросы и характеристики . Докторские диссертации 104 TUCS, Университет Турку
  • Вориски, Питер (11 декабря 2008 г.). «Фирмы стремятся к более доступной для поиска федеральной сети» . Вашингтон Пост . п. D01..
  • Райт, Алекс (март 2004 г.). «В поисках глубокой паутины» . Салон . Архивировано из оригинала 9 марта 2007 года..
  • Обнаженные ученые (декабрь 2014 г.). «Интернет: хорошее, плохое и уродливое - углубленное исследование Интернета и темной паутины голыми учеными Кембриджского университета» (подкаст).

Внешние ссылки [ править ]

СМИ, связанные с глубокой паутиной, на Викискладе?