Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Ссылка гниль (также называется смерть ссылки , ссылка ломка , или ссылка гниль ) является феноменом гиперссылка стремящихся со временем перестать точки к их первоначально целевому файлу , веб - странице или серверу из - за этот ресурс перемещен на новый адрес или стать постоянно недоступен. Ссылка, которая больше не указывает на свою цель, часто называемая неработающей или неработающей ссылкой, представляет собой особую форму висячего указателя .

Скорость гниения ссылок является предметом изучения и исследования в связи с ее значимостью для способности Интернета сохранять информацию. Оценки этого показателя сильно различаются между исследованиями.

Распространенность [ править ]

В ряде исследований изучалась распространенность гниения ссылок во всемирной паутине , в академической литературе, в которой URL-адреса используются для цитирования веб-контента, а также в электронных библиотеках .

Исследование 2003 года показало, что в Интернете примерно одна ссылка из каждых 200 разрывается каждую неделю [1], что предполагает период полураспада 138 недель. Этот показатель в значительной степени подтвержден исследованием ссылок в Yahoo! за 2016–2017 гг. Справочник (который перестал обновляться в 2014 году после 21 года разработки), в котором было обнаружено, что период полураспада ссылок каталога составляет два года. [2]

Исследование 2004 года показало, что подмножества веб-ссылок (например, нацеленные на определенные типы файлов или размещенные в академических учреждениях) могут иметь совершенно разные периоды полураспада. [3] URL-адреса, выбранные для публикации, кажутся более долговечными, чем средний URL-адрес. Исследование, проведенное Weblock в 2015 году, проанализировало более 180 000 ссылок из полнотекстовых корпусов трех крупных издателей открытого доступа и обнаружило период полураспада около 14 лет [4], в целом подтверждая исследование 2005 года, которое обнаружило, что половина URL-адресов цитируемые в D-Lib Magazine статьи были активны через 10 лет после публикации. [5]Другие исследования выявили более высокие показатели гниения звеньев в академической литературе, но обычно предполагают, что период полураспада составляет четыре года или больше. [6] [7] В исследовании BMC Bioinformatics, проведенном в 2013 году, было проанализировано около 15 000 ссылок в отрывках из индекса цитирования Web of Science Thomson Reuters, и было обнаружено, что средняя продолжительность жизни веб-страниц составляла 9,3 года, и только 62% были заархивированы. [8]

Исследование 2002 г. показало, что гниение ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете, и было обнаружено, что около 3% объектов перестали быть доступными через год [9] (что соответствует периоду полураспада почти 23 года).

Причины [ править ]

Связка гниения может возникнуть в результате нескольких случаев. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть отключен от обслуживания или переместиться на новое доменное имя . Регистрация доменного имени может быть прекращена или передана другому лицу. Некоторые причины приводят к тому, что ссылка не может найти какую-либо цель и возвращает ошибку, например HTTP 404 . Другие причины приведут к тому, что ссылка будет нацелена на контент, отличный от того, что было задумано автором ссылки.

К другим причинам неработающих ссылок относятся:

  • реструктуризация веб-сайтов, которая вызывает изменение URL-адресов (например, domain.net/pine_treeможет быть перемещен на domain.net/tree/pine)
  • перемещение ранее бесплатного контента за платный доступ
  • изменение в архитектуре сервера, которое приводит к тому, что код, такой как PHP, работает иначе
  • динамическое содержимое страницы, такое как результаты поиска, которое изменяется по дизайну
  • наличие пользовательской информации (например, логина) в ссылке
  • преднамеренная блокировка фильтрами содержимого или межсетевыми экранами
  • удаление gTLD [10]

Предупреждение и обнаружение [ править ]

Стратегии предотвращения гниения ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, создании ссылок, которые с меньшей вероятностью будут повреждены, принятии мер по сохранению существующих ссылок или восстановлении ссылок, целевые объекты которых были перемещены или удалены.

Создание URL-адресов, которые не будут меняться со временем, является основным методом предотвращения гниения ссылок. Превентивное планирование было поддержано Тимом Бернерсом-Ли и другими первопроходцами Интернета. [11]

Стратегии, касающиеся авторства ссылок, включают:

  • ссылки на первичные, а не вторичные источники и определение приоритета стабильных сайтов [ необходима ссылка ]
  • избегать ссылок на ресурсы на личных страницах исследователей [5]
  • использование чистых URL-адресов [12] или иное применение нормализации URL- адресов или канонизации URL-адресов.
  • использование постоянных ссылок и постоянных идентификаторов, таких как ARK, DOI , ссылки на систему обработки и PURL
  • избегать ссылок на документы, отличные от веб-страниц [12]
  • избегая глубинных ссылок
  • ссылки на веб-архивы, такие как Internet Archive , [13] WebCite , [14] Archive.is , Perma.cc , [15] или Amber [16]

Стратегии защиты существующих ссылок включают:

  • использование механизмов перенаправления , таких как HTTP 301, для автоматического перенаправления браузеров и поисковых роботов на перемещенный контент.
  • использование систем управления контентом, которые могут автоматически обновлять ссылки при перемещении контента на том же сайте или автоматически заменять ссылки каноническими URL-адресами [17]
  • интеграция поисковых ресурсов в страницы HTTP 404 [18]

Обнаружение битых ссылок может производиться вручную или автоматически. Автоматизированные методы включают плагины для систем управления контентом, а также автономные средства проверки неработающих ссылок, такие как Xenu's Link Sleuth . Автоматическая проверка может не обнаруживать ссылки, возвращающие программный код 404, или ссылки, возвращающие ответ 200 OK, но указывающие на содержимое, которое было изменено. [19]

См. Также [ править ]

  • Программная гниль
  • Цифровое сохранение
  • Делеционизм и инклюзивизм в Википедии

Дальнейшее чтение [ править ]

  • Марквелл, Джон; Брукс, Дэвид В. (2002). "Неработающие ссылки: эфемерный характер образовательных гиперссылок в Интернете". Журнал естественно-научного образования и технологий . 11 (2): 105–108. DOI : 10,1023 / A: 1014627511641 .
  • Гомес, Даниэль; Сильва, Марио Дж. (2006). «Моделирование сохранения информации в сети» (PDF) . Материалы 6-й Международной конференции по веб-инженерии . ICWE'06. Архивировано из оригинального (PDF) 16 июля 2011 года . Проверено 14 сентября 2010 года .
  • Деллавалле, Роберт П .; Хестер, Эрик Дж .; Heilig, Lauren F .; Дрейк, Аманда Л .; Кунцман, Джефф У .; Грабер, Марла; Шиллинг, Лиза М. (2003). «Идет, идет, уходит: потерянные ссылки в Интернете» . Наука . 302 (5646): 787–788. DOI : 10.1126 / science.1088234 . PMID  14593153 .
  • Келер, Уоллес (1999). «Анализ веб-страницы и постоянства и постоянства веб-сайта». Журнал Американского общества информационных наук . 50 (2): 162–180. DOI : 10.1002 / (SICI) 1097-4571 (1999) 50: 2 <162 :: AID-ASI7> 3.0.CO; 2-B .
  • Селлитто, Кармин (2005). «Влияние непостоянных цитирований в Интернете: исследование 123 научных публикаций на конференциях» (PDF) . Журнал Американского общества информационных наук и технологий . 56 (7): 695–703. CiteSeerX  10.1.1.473.2732 . DOI : 10.1002 / asi.20159 .

Примечания и ссылки [ править ]

Заметки
Рекомендации
  1. ^ Феттерли, Деннис; Манассе, Марк; Наджорк, Марк; Винер, Джанет (2003). «Масштабное исследование эволюции веб-страниц» . Материалы 12-й международной конференции по всемирной паутине . Архивировано 9 июля 2011 года . Проверено 14 сентября 2010 года .
  2. ^ ван дер Грааф, Ганс. «Период полураспада ссылки - два года» . Блог ZOMDir . Архивировано 17 октября 2017 года . Проверено 31 января 2019 .
  3. Перейти ↑ Koehler, Wallace (2004). «Продолжено продольное исследование веб-страниц: рассмотрение сохраняемости документов» . Информационные исследования . 9 (2). Архивировано 11 сентября 2017 года . Проверено 31 января 2019 .
  4. ^ «Отчет о веб-блокировках за все время» . Август 2015. Архивировано из оригинала 4 марта 2016 года . Проверено 12 января +2016 .
  5. ^ а б Маккаун, Фрэнк; Чан, Шеффан; Нельсон, Майкл Л .; Боллен, Йохан (2005). «Доступность и постоянство веб-ссылок в журнале D-Lib» (PDF) . Труды 5-го Международного семинара по веб-архивированию и цифровому хранению (IWAW'05) . Архивировано из оригинального (PDF) 17 июля 2012 года . Проверено 12 октября 2005 .
  6. ^ Спинеллис, Diomidis (2003). «Упадок и неудачи веб-ссылок» . Коммуникации ACM . 46 (1): 71–77. CiteSeerX 10.1.1.12.9599 . DOI : 10.1145 / 602421.602422 . Архивировано 23 июля 2020 года . Проверено 29 сентября 2007 . 
  7. ^ Стив Лоуренс ; Дэвид М. Пеннок; Гэри Уильям Флейк ; и другие. (Март 2001 г.). «Устойчивость веб-ссылок в научных исследованиях». Компьютер . 34 (3): 26–31. CiteSeerX 10.1.1.97.9695 . DOI : 10.1109 / 2.901164 . ISSN 0018-9162 . Викиданные Q21012586 .   
  8. ^ Хеннесси, Джейсон; Xijin Ge, Стивен (2013). «Междисциплинарное исследование разрушения звена и эффективности методов смягчения» . BMC Bioinformatics . 14 : S5. DOI : 10.1186 / 1471-2105-14-S14-S5 . PMC 3851533 . PMID 24266891 .  
  9. ^ Нельсон, Майкл Л .; Аллен, Б. Данетт (2002). «Сохранение и доступность объектов в электронных библиотеках» . Журнал D-Lib . 8 (1). DOI : 10.1045 / january2002-Нельсона . Архивировано 19 июля 2020 года . Проверено 24 сентября 2019 .
  10. ^ «Смерть TLD» . blog.benjojo.co.uk . Архивировано 26 июля 2018 года . Проверено 27 июля 2018 .
  11. ^ Бернерс-Ли, Тим (1998). «Классные URI не меняются» . Архивировано 2 марта 2000 года . Проверено 31 января 2019 .
  12. ^ a b Килле, Лейтон Уолтер (8 ноября 2014 г.). "Растущая проблема Интернета" Link Rot "и лучшие практики для СМИ и онлайн-издателей" . Ресурс для журналиста, Гарвардская школа Кеннеди. Архивировано 12 января 2015 года . Проверено 16 января 2015 года .
  13. ^ «Интернет-архив: цифровая библиотека бесплатных книг, фильмов, музыки и Wayback Machine» . 2001-03-10. Архивировано 26 января 1997 года . Проверено 7 октября 2013 года .
  14. ^ Айзенбах, Гюнтер; Трудель, Матье (2005). «Идет, идет, все еще там: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): e60. DOI : 10.2196 / jmir.7.5.e60 . PMC 1550686 . PMID 16403724 .  
  15. ^ Зиттрейн, Джонатан; Альберт, Кендра; Лессиг, Лоуренс (12 июня 2014 г.). «Perma: определение и решение проблемы ссылочной и ссылочной гнили в юридических цитатах» (PDF) . Управление правовой информацией . 14 (2): 88–99. DOI : 10.1017 / S1472669614000255 . Архивировано 1 ноября 2020 года (PDF) . Проверено 10 июня 2020 .
  16. ^ "Центр Беркмана Гарвардского университета выпускает Amber, инструмент" взаимопомощи "для блоггеров и владельцев веб-сайтов, помогающий поддерживать доступность Интернета | Центр Беркмана" . cyber.law.harvard.edu . Архивировано 2 февраля 2016 года . Проверено 28 января 2016 .
  17. ^ Ронн-Jensen, Jesper (2007-10-05). «Программное обеспечение исключает ошибки пользователей и линкрот» . Justaddwater.dk. Архивировано 11 октября 2007 года . Проверено 5 октября 2007 года .
  18. ^ Мюллер, Джон (2007-12-14). «К вашему сведению, о последних функциях панели инструментов Google» . Центральный блог Google для веб-мастеров. Архивировано 13 сентября 2008 года . Проверено 9 июля 2008 года .
  19. ^ Бар-Йосеф, Зив; Бродер, Андрей З .; Кумар, Рави; Томкинс, Эндрю (2004). «Sic transit gloria telae: к пониманию распада Интернета». Материалы 13-й международной конференции по всемирной паутине - WWW '04 . С. 328–337. CiteSeerX 10.1.1.1.9406 . DOI : 10.1145 / 988672.988716 . ISBN  978-1581138443.

Внешние ссылки [ править ]

  • Перспективы ваших URI
  • Якоб Нильсен , «Борьба с Линкротом» , Тревога Якоба Нильсена , 14 июня 1998 г.