Глубокий веб , [1] невидимый веб , [2] или скрытые веб [3] являются частью World Wide Web , содержание которого не индексируется с помощью стандартных веб - поисковиков . Термин, противоположный глубокой паутине, - это « поверхностная сеть », которая доступна каждому / каждому, кто пользуется Интернетом. [4] Компьютеролог Майкл К. Бергман придумал термин « глубокая паутина» в 2001 году в качестве поискового индекса. [5]
Содержание глубокого полотна скрывается за HTTP формы [ расплывчатым ] [6] [7] и включает в себя множество очень общих целей , таких как веб - почта , онлайн - банкинг , частное или иное ограничение доступа социальных медиа страниц и профилей, некоторые веб - форумах , что требуют регистрации для просмотра контента и услуг, за которые пользователи должны платить и которые защищены платным доступом , таких как видео по запросу, а также некоторые онлайн-журналы и газеты.
Содержимое глубокой сети может быть обнаружено и доступно по прямому URL-адресу или IP-адресу , но может потребоваться пароль или другой безопасный доступ для прохождения страниц общедоступного веб-сайта.
Терминология [ править ]
Первое смешение терминов «глубокая сеть» и « темная сеть » произошло в 2009 году, когда терминология глубокого веб-поиска обсуждалась вместе с незаконной деятельностью, имеющей место во Freenet и даркнете . [8] Эти преступные действия включают торговлю личных паролей, поддельные документы , удостоверяющую личность , наркотики , огнестрельное оружие , а также детскую порнографию . [9]
С тех пор, после их использования в отчетах средств массовых информации на Шелковом пути , средства массовой информации принял к использованию «глубокой сети» синонимично с темной сетью или даркнетом , сравнением некоторых отклонять ошибочные [10] и , следовательно , стал постоянным источником спутанность сознания. [11] Проводные репортеры Ким Zetter [12] и Энди Гринберг [13]рекомендую использовать эти термины по-разному. В то время как глубокая сеть - это ссылка на любой сайт, к которому нельзя получить доступ через традиционную поисковую систему, темная сеть - это часть глубокой сети, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. [14] [15] [16] [17] [18]
Неиндексированный контент [ править ]
Бергман в статье о глубокой сети, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсуорт использовала термин « невидимая паутина» в 1994 году для обозначения веб-сайтов , которые не были зарегистрированы ни в одной поисковой системе. [19] Бергман процитировал статью Фрэнка Гарсиа, опубликованную в январе 1996 года: [20]
Возможно, это будет сайт с разумным дизайном, но они не удосужились зарегистрировать его ни в одной из поисковых систем. Значит, никто не может их найти! Ты спрятан. Я называю это невидимой паутиной.
Еще одно раннее использование термина « невидимая паутина» было использовано Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании инструмента Deep Web №1, опубликованном в пресс-релизе от декабря 1996 года. [21]
Первое использование конкретного термина « глубокая паутина» , ныне общепринятого, произошло в вышеупомянутом исследовании Бергмана 2001 года. [19]
Методы индексации [ править ]
Методы, предотвращающие индексирование веб-страниц традиционными поисковыми системами, могут быть отнесены к одной или нескольким из следующих категорий:
- Контекстная сеть : страницы с содержанием, различающимся для разных контекстов доступа (например, диапазонов IP-адресов клиентов или предыдущей последовательности навигации).
- Динамическое содержимое : динамические страницы , которые возвращаются в ответ на отправленный запрос или доступны только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких полях сложно ориентироваться без знания предметной области .
- Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническим способом (например, с помощью Стандарта исключения роботов или CAPTCHA , или директивы no-store, которые запрещают поисковым системам просматривать их и создавать кэшированные копии). [22]
- Не-HTML / текстовое содержимое : текстовое содержимое, закодированное в файлах мультимедиа (изображения или видео) или в файлах определенных форматов, не обрабатываемых поисковыми системами.
- Частный Интернет : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
- Содержимое по сценариям : страницы, доступные только по ссылкам, созданным с помощью JavaScript, а также содержимое, динамически загружаемое с веб-серверов с помощью решений Flash или Ajax .
- Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета, доступен только с помощью специального программного обеспечения, такого как Tor , I2P или другое программное обеспечение даркнета. Например, Tor позволяет пользователям анонимно получать доступ к веб-сайтам, используя адрес сервера .onion , скрывая свой IP-адрес.
- Несвязанный контент : страницы, на которые не ссылаются другие страницы, что может помешать программам веб-сканирования получить доступ к контенту. Этот контент называется страницами без обратных ссылок (также называемых внутренними ссылками ). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с просматриваемых веб-страниц.
- Веб-архивы : веб-архивные службы, такие как Wayback Machine, позволяют пользователям просматривать заархивированные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступными и не индексируются поисковыми системами, такими как Google. Wayback Machine можно назвать программой для просмотра глубокой сети, поскольку веб-архивы, не относящиеся к настоящему времени, не могут быть проиндексированы, поскольку предыдущие версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты в какой-то момент обновляются, поэтому веб-архивы считаются контентом Deep Web. [23]
- Файлы robots.txt : файл robots.txt может рекомендовать роботам поисковых систем не сканировать веб-сайты с помощью user-agent: *, затем disallow: /. Это даст указание всем роботам поисковых систем не сканировать весь веб-сайт и не добавлять его в поисковую систему. [24]
Типы контента [ править ]
Хотя не всегда возможно напрямую обнаружить содержимое определенного веб-сервера, чтобы его можно было проиндексировать, потенциально к сайту можно получить доступ косвенно (из-за уязвимостей компьютера ).
Для обнаружения контента в Интернете поисковые системы используют веб-сканеры, которые переходят по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеально подходит для обнаружения контента в поверхностной сети, но часто неэффективен при поиске контента в глубокой сети. Например, эти поисковые роботы не пытаются найти динамические страницы, являющиеся результатом запросов к базе данных, из-за неопределенного количества возможных запросов. [25] Было отмечено, что это можно (частично) преодолеть, предоставив ссылки на результаты запроса, но это может непреднамеренно повысить популярность члена глубокой сети.
DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi - это несколько поисковых систем, которые имеют доступ к глубокой сети. У Intute закончилось финансирование, и по состоянию на июль 2011 года он является временным статическим архивом. [26] Scirus был выведен из эксплуатации ближе к концу января 2013 года. [27]
Исследователи изучали, как можно автоматически сканировать глубокую сеть, включая контент, доступ к которому может получить только специальное программное обеспечение, такое как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсиа-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) [28] [29] представили архитектурную модель для поискового робота скрытого Интернета, в котором для запроса использовались ключевые термины, предоставленные пользователями или собранные из интерфейсов запросов. веб-форму и сканирование содержимого Deep Web. Александрос Нтулас, Петрос Зерфос и Юнгху Чо из Калифорнийского университета в Лос-Анджелесе создали поисковый робот для скрытой сети, который автоматически генерировал содержательные запросы для отправки в поисковые формы. [30] Несколько языков запросов форм (например, DEQUEL [31]) были предложены, которые, помимо выдачи запроса, также позволяют извлекать структурированные данные из страниц результатов. Еще одна попытка - DeepPeep, проект Университета штата Юта, спонсируемый Национальным научным фондом , который собирал источники скрытой сети (веб-формы) в различных доменах на основе новых целенаправленных методов сканирования. [32] [33]
Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой паутины. Протокол Sitemap (первый разработан и введен в Google в 2005 году) и OAI-PMH механизмы , которые позволяют поисковые системы и другие заинтересованные стороны , чтобы обнаружить глубокие веб - ресурсов на определенных веб - серверов. Оба механизма позволяют веб-серверам рекламировать URL-адреса, доступные на них, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностной сетью. Система просмотра страниц в глубокой сети Google вычисляет количество отправленных материалов для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Обнаруженные результаты составляют тысячу запросов в секунду к глубокому веб-контенту. [34] В этой системе предварительный расчет представлений выполняется с использованием трех алгоритмов:
- выбор входных значений для входов текстового поиска, которые принимают ключевые слова,
- идентификация входов, которые принимают только значения определенного типа (например, дату) и
- выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.
В 2008 году, чтобы облегчить пользователям скрытых служб Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web - прокси-приложение, способное предоставлять доступ с помощью обычных веб-браузеров. [35] При использовании этого приложения глубокие веб-ссылки отображаются в виде случайной строки букв, за которой следует домен верхнего уровня .onion .
См. Также [ править ]
- Программа DARPA Memex
- Ссылки на контент
- Суслик (протокол)
Ссылки [ править ]
- ^ Гамильтон, Найджел (2003). "Механика движка глубокого метапоиска" . В Исайасе, Педро; Пальма-душ-Рейс, Антониу (ред.). Материалы Международной конференции IADIS по электронному обществу . С. 1034–6. CiteSeerX 10.1.1.90.5847 . ISBN 972-98947-0-1.
- ^ Девайн, Джейн; Эггер-Сидер, Франсин (июль 2004 г.). «За пределами Google: невидимая паутина в академической библиотеке». Журнал академического библиотечного дела . 30 (4): 265–269. DOI : 10.1016 / j.acalib.2004.04.010 .
- ^ Рагхаван, Шрирам; Гарсиа-Молина, Гектор (11–14 сентября 2001 г.). «Сканирование скрытой паутины» . 27-я Международная конференция по очень большим базам данных .
- ^ «Поверхность сети» . Компьютерная надежда . Проверено 20 июня 2018 года .
- ↑ Райт, Алекс (22 февраля 2009 г.). «Изучение« глубокой паутины », которую Google не может понять» . Нью-Йорк Таймс . Проверено 2 сентября 2019 года .
[...] Майк Бергман, компьютерный ученый и консультант, которому приписывают создание термина Deep Web.
- ^ Madhavan, J., Ко Д., Kot, Ł., Ганапати, В., Расмуссен, А., и Галеви, A. (2008). Сканирование глубокой сети Google. Труды VLDB Endowment, 1 (2), 1241–52.
- ^ Shedden, Сэм (8 июня 2014). «Как вы хотите, чтобы я это сделал? Это должно быть похоже на несчастный случай? - Убийца, продающий хит в сети; обнаружен в глубокой паутине» . Воскресная почта . Проверено 5 мая 2017 г. - через Questia .
- ↑ Беккет, Энди (26 ноября 2009 г.). «Темная сторона Интернета» . Проверено 9 августа 2015 года .
- ^ D. День. Самый простой улов: не будьте еще одной рыбой в темной сети . Университет Уэйк Форест : TEDx Talks .
- ^ «Прояснение путаницы - Deep Web против Dark Web» . BrightPlanet. 27 марта 2014 г.
- ↑ Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной сети» . Проверено 26 мая 2015 года .
- ^ NPR персонала (25 мая 2014). «Угасание: Интернет за Интернетом» . Проверено 29 мая 2015 года .
- Рианна Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое темная паутина?» . Проверено 6 июня 2015 года .
- ^ «Влияние даркнета на управление Интернетом и кибербезопасность» (PDF) . Проверено 15 января 2017 года .
- ^ Лам, Квок-Ян; Чи, Чи-Хунг; Цин, Сихан (23 ноября 2016 г.). Информационная и коммуникационная безопасность: 18-я международная конференция, ICICS 2016, Сингапур, Сингапур, 29 ноября - 2 декабря 2016 г., Материалы . Springer. ISBN 9783319500119. Проверено 15 января 2017 года .
- ^ «Глубокая паутина против темной сети | Блог Dictionary.com» . Словарь-блог. 6 мая 2015 года . Проверено 15 января 2017 года .
- ^ Akhgar, Бабак; Байерл, П. Саския; Сэмпсон, Фрейзер (1 января 2017 г.). Исследование разведки с открытым исходным кодом: от стратегии к реализации . Springer. ISBN 9783319476711. Проверено 15 января 2017 года .
- ^ "Что такое даркнет и кто его использует?" . Глобус и почта . Проверено 15 января 2017 года .
- ^ a b Бергман, Майкл К. (август 2001 г.). «Глубокая сеть: обнаружение скрытой ценности» . Журнал электронных публикаций . 7 (1). DOI : 10.3998 / 3336451.0007.104 .
- ↑ Гарсия, Франк (январь 1996). «Бизнес и маркетинг в Интернете» . Masthead . 15 (1). Архивировано из оригинала 5 декабря 1996 года . Проверено 24 февраля 2009 года .
- ^ @ 1 начинался с 5,7 терабайта контента, что, по оценкам, в 30 раз превышает размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, и от @ 1 отказались. «PLS представляет AT1, первую службу поиска в Интернете« второго поколения »» (пресс-релиз). Программное обеспечение для персональных библиотек. Декабрь 1996 Архивировано из оригинального 21 октября 1997 года . Проверено 24 февраля 2009 года .
- ^ «Протокол передачи гипертекста (HTTP / 1.1): кэширование» . Инженерная группа Интернета . 2014 . Проверено 30 июля 2014 года .
- ↑ Винер-Броннер, Даниэль (10 июня 2015 г.). «НАСА индексирует« глубокую паутину », чтобы показать человечеству то, чего не будет Google» . Фьюжн . Проверено 27 июня 2015 года .
Уже доступны другие более простые версии Memex.
«Если вы когда-либо использовали Wayback Machine в Internet Archive», которая дает вам предыдущие версии веб-сайта, недоступного через Google, значит, вы технически искали в Deep Web, - сказал
Крис Маттманн
.
- ^ «Как создать идеальный файл Robots.txt для SEO» . Нил Патель . 30 марта 2017 года . Проверено 20 января 2021 года .
- ↑ Райт, Алекс (22 февраля 2009 г.). «Изучение« глубокой паутины », которую Google не может понять» . Нью-Йорк Таймс . Проверено 23 февраля 2009 года .
- ^ "Intute FAQ, мертвая ссылка" . Проверено 13 октября 2012 года .
- ^ "Elsevier, чтобы отказаться от поисковой системы популярной науки" . library.bldrdoc.gov . Декабрь 2013. Архивировано из оригинала 23 июня 2015 года . Проверено 22 июня 2015 года .
к концу января 2014 года Elsevier прекратит поддержку Scirus, своей бесплатной поисковой системы по науке.
Scirus представляет собой инструмент широкого диапазона исследований, в котором для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предпечатные статьи, патенты и репозитории.
- ^ Sriram Raghavan ; Гарсия-Молина, Гектор (2000). «Сканирование скрытой сети» (PDF) . Стэнфордский технический отчет по электронным библиотекам . Проверено 27 декабря 2008 года . Цитировать журнал требует
|journal=
( помощь ) - ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Сканирование скрытой сети» (PDF) . Материалы 27-й Международной конференции по очень большим базам данных (VLDB) . С. 129–38.
- ^ Александрос, Нтулас; Зерфос, Петрос; Чо, Чжунху (2005). «Загрузка скрытого веб-содержимого» (PDF) . UCLA Computer Science . Проверено 24 февраля 2009 года . Цитировать журнал требует
|journal=
( помощь ) - ^ Шестаков, Денис; Bhowmick, Sourav S .; Лим, И-Пэн (2005). «DEQUE: запросы к глубокой сети» (PDF) . Инженерия данных и знаний . 52 (3): 273–311. DOI : 10.1016 / S0169-023X (04) 00107-7 .
- ^ Барбоза, Лучано; Фрейре, Юлиана (2007). «Адаптивный сканер для обнаружения точек входа в скрытую сеть» (PDF) . WWW конференция 2007 . Проверено 20 марта 2009 года . Цитировать журнал требует
|journal=
( помощь ) - ^ Барбоза, Лучано; Фрейре, Юлиана (2005). «Поиск баз данных скрытого Интернета» (PDF) . WebDB 2005 . Проверено 20 марта 2009 года . Цитировать журнал требует
|journal=
( помощь ) - ^ Мадхаван, Джаянт; Ко, Дэвид; Кот, Луцья; Ганапати, Виньеш; Расмуссен, Алекс; Халеви, Алон (2008). «Глубокое сканирование сети Google» (PDF) . Фонд VLDB, ACM . Проверено 17 апреля 2009 года . Цитировать журнал требует
|journal=
( помощь ) - ^ Аарон, Шварц. «В защиту анонимности» . Проверено 4 февраля 2014 года .
Дальнейшее чтение [ править ]
- Баркер, Джо (январь 2004 г.). «Невидимая паутина: что это такое, почему она существует, как ее найти, и присущая ей неоднозначность» . Калифорнийский университет в Беркли, Интернет-семинары для обучающих библиотек. Архивировано из оригинального 29 июля 2005 года . Проверено 26 июля 2011 года ..
- Басу, Сайкат (14 марта 2010 г.). «10 поисковых систем для исследования невидимой сети» . MakeUseOf.com..
- Озкан, Акин (ноябрь 2014 г.). «Deep Web / Derin Интернет» ..
- Гручавка, Стив (июнь 2006 г.). «Практическое руководство по глубокой паутине» ..
- Гамильтон, Найджел (2003). "Механика движка глубокого метапоиска" . 12-я всемирная веб-конференция..
- Он, Бин; Чанг, Кевин Чен-Чуан (2003). «Статистическое сопоставление схем в интерфейсах веб-запросов» (PDF) . Материалы Международной конференции ACM SIGMOD 2003 г. по управлению данными . Архивировано из оригинального (PDF) 20 июля 2011 года.
- Хауэлл О'Нил, Патрик (октябрь 2013 г.). «Как искать в Deep Web» . Daily Dot ..
- Ipeirotis, Panagiotis G .; Гравано, Луис; Сахами, Мехран (2001). «Зондирование, подсчет и классификация: категоризация баз данных скрытого Интернета» (PDF) . Материалы Международной конференции ACM SIGMOD 2001 года по управлению данными . С. 67–78. Архивировано из оригинального (PDF) 12 сентября 2006 года . Проверено 26 сентября 2006 года .
- Кинг, Джон Д .; Ли, Юэфэн; Тао, Даниэль; Наяк, Ричи (ноябрь 2007 г.). «Извлечение мировых знаний для анализа содержимого поисковых систем» (PDF) . Веб-аналитика и агентские системы . 5 (3): 233–53. Архивировано из оригинального (PDF) 3 декабря 2008 года . Проверено 26 июля 2011 года .
- МакКаун, Фрэнк; Лю, Сяомин; Нельсон, Майкл Л .; Зубайр, Мохаммад (март – апрель 2006 г.). «Охват поисковыми системами корпуса OAI-PMH» (PDF) . IEEE Internet Computing . 10 (2): 66–73. DOI : 10.1109 / MIC.2006.41 . S2CID 15511914 .
- Прайс, Гэри; Шерман, Крис (июль 2001 г.). Невидимая паутина: раскрытие источников информации, недоступных для поисковых систем . Книги CyberAge. ISBN 978-0-910965-51-4.
- Шестаков, Денис (июнь 2008 г.). Поисковые интерфейсы в Интернете: запросы и характеристики . Докторские диссертации 104 TUCS, Университет Турку
- Вориски, Питер (11 декабря 2008 г.). «Фирмы стремятся к более доступной для поиска федеральной сети» . Вашингтон Пост . п. D01..
- Райт, Алекс (март 2004 г.). «В поисках глубокой паутины» . Салон . Архивировано из оригинала 9 марта 2007 года..
- Обнаженные ученые (декабрь 2014 г.). «Интернет: хорошее, плохое и уродливое - углубленное исследование Интернета и темной паутины голыми учеными Кембриджского университета» (подкаст).
Внешние ссылки [ править ]
СМИ, связанные с глубокой паутиной, на Викискладе?
Найдите Deep Web в Викисловаре, бесплатном словаре. |