Ссылка гниль (также называется смерть ссылки , ссылка ломка , или ссылка гниль ) является феноменом гиперссылка стремящихся со временем перестать точки к их первоначально целевому файлу , веб - странице или серверу из - за этот ресурс перемещен на новый адрес или стать постоянно недоступен. Ссылка, которая больше не указывает на свою цель, часто называемая неработающей или неработающей ссылкой, представляет собой особую форму висячего указателя .
Скорость гниения ссылок является предметом изучения и исследования в связи с ее значимостью для способности Интернета сохранять информацию. Оценки этого показателя сильно различаются между исследованиями.
Распространенность [ править ]
В ряде исследований изучалась распространенность гниения ссылок во всемирной паутине , в академической литературе, в которой URL-адреса используются для цитирования веб-контента, а также в электронных библиотеках .
Исследование 2003 года показало, что в Интернете примерно одна ссылка из каждых 200 разрывается каждую неделю [1], что предполагает период полураспада 138 недель. Этот показатель в значительной степени подтвержден исследованием ссылок в Yahoo! за 2016–2017 гг. Справочник (который перестал обновляться в 2014 году после 21 года разработки), в котором было обнаружено, что период полураспада ссылок каталога составляет два года. [2]
Исследование 2004 года показало, что подмножества веб-ссылок (например, нацеленные на определенные типы файлов или размещенные в академических учреждениях) могут иметь совершенно разные периоды полураспада. [3] URL-адреса, выбранные для публикации, кажутся более долговечными, чем средний URL-адрес. Исследование, проведенное Weblock в 2015 году, проанализировало более 180 000 ссылок из полнотекстовых корпусов трех крупных издателей открытого доступа и обнаружило период полураспада около 14 лет [4], в целом подтверждая исследование 2005 года, которое обнаружило, что половина URL-адресов цитируемые в D-Lib Magazine статьи были активны через 10 лет после публикации. [5]Другие исследования выявили более высокие показатели гниения звеньев в академической литературе, но обычно предполагают, что период полураспада составляет четыре года или больше. [6] [7] В исследовании BMC Bioinformatics, проведенном в 2013 году, было проанализировано около 15 000 ссылок в отрывках из индекса цитирования Web of Science Thomson Reuters, и было обнаружено, что средняя продолжительность жизни веб-страниц составляла 9,3 года, и только 62% были заархивированы. [8]
Исследование 2002 г. показало, что гниение ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете, и было обнаружено, что около 3% объектов перестали быть доступными через год [9] (что соответствует периоду полураспада почти 23 года).
Причины [ править ]
Связка гниения может возникнуть в результате нескольких случаев. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть отключен от обслуживания или переместиться на новое доменное имя . Регистрация доменного имени может быть прекращена или передана другому лицу. Некоторые причины приводят к тому, что ссылка не может найти какую-либо цель и возвращает ошибку, например HTTP 404 . Другие причины приведут к тому, что ссылка будет нацелена на контент, отличный от того, что было задумано автором ссылки.
К другим причинам неработающих ссылок относятся:
- реструктуризация веб-сайтов, которая вызывает изменение URL-адресов (например,
domain.net/pine_tree
может быть перемещен наdomain.net/tree/pine
) - перемещение ранее бесплатного контента за платный доступ
- изменение в архитектуре сервера, которое приводит к тому, что код, такой как PHP, работает иначе
- динамическое содержимое страницы, такое как результаты поиска, которое изменяется по дизайну
- наличие пользовательской информации (например, логина) в ссылке
- преднамеренная блокировка фильтрами содержимого или межсетевыми экранами
- удаление gTLD [10]
Предупреждение и обнаружение [ править ]
Стратегии предотвращения гниения ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, создании ссылок, которые с меньшей вероятностью будут повреждены, принятии мер по сохранению существующих ссылок или восстановлении ссылок, целевые объекты которых были перемещены или удалены.
Создание URL-адресов, которые не будут меняться со временем, является основным методом предотвращения гниения ссылок. Превентивное планирование было поддержано Тимом Бернерсом-Ли и другими первопроходцами Интернета. [11]
Стратегии, касающиеся авторства ссылок, включают:
- ссылки на первичные, а не вторичные источники и определение приоритета стабильных сайтов [ необходима ссылка ]
- избегать ссылок на ресурсы на личных страницах исследователей [5]
- использование чистых URL-адресов [12] или иное применение нормализации URL- адресов или канонизации URL-адресов.
- использование постоянных ссылок и постоянных идентификаторов, таких как ARK, DOI , ссылки на систему обработки и PURL
- избегать ссылок на документы, отличные от веб-страниц [12]
- избегая глубинных ссылок
- ссылки на веб-архивы, такие как Internet Archive , [13] WebCite , [14] Archive.is , Perma.cc , [15] или Amber [16]
Стратегии защиты существующих ссылок включают:
- использование механизмов перенаправления , таких как HTTP 301, для автоматического перенаправления браузеров и поисковых роботов на перемещенный контент.
- использование систем управления контентом, которые могут автоматически обновлять ссылки при перемещении контента на том же сайте или автоматически заменять ссылки каноническими URL-адресами [17]
- интеграция поисковых ресурсов в страницы HTTP 404 [18]
Обнаружение битых ссылок может производиться вручную или автоматически. Автоматизированные методы включают плагины для систем управления контентом, а также автономные средства проверки неработающих ссылок, такие как Xenu's Link Sleuth . Автоматическая проверка может не обнаруживать ссылки, возвращающие программный код 404, или ссылки, возвращающие ответ 200 OK, но указывающие на содержимое, которое было изменено. [19]
См. Также [ править ]
- Программная гниль
- Цифровое сохранение
- Делеционизм и инклюзивизм в Википедии
Дальнейшее чтение [ править ]
- Марквелл, Джон; Брукс, Дэвид В. (2002). "Неработающие ссылки: эфемерный характер образовательных гиперссылок в Интернете". Журнал естественно-научного образования и технологий . 11 (2): 105–108. DOI : 10,1023 / A: 1014627511641 .
- Гомес, Даниэль; Сильва, Марио Дж. (2006). «Моделирование сохранения информации в сети» (PDF) . Материалы 6-й Международной конференции по веб-инженерии . ICWE'06. Архивировано из оригинального (PDF) 16 июля 2011 года . Проверено 14 сентября 2010 года .
- Деллавалле, Роберт П .; Хестер, Эрик Дж .; Heilig, Lauren F .; Дрейк, Аманда Л .; Кунцман, Джефф У .; Грабер, Марла; Шиллинг, Лиза М. (2003). «Идет, идет, уходит: потерянные ссылки в Интернете» . Наука . 302 (5646): 787–788. DOI : 10.1126 / science.1088234 . PMID 14593153 .
- Келер, Уоллес (1999). «Анализ веб-страницы и постоянства и постоянства веб-сайта». Журнал Американского общества информационных наук . 50 (2): 162–180. DOI : 10.1002 / (SICI) 1097-4571 (1999) 50: 2 <162 :: AID-ASI7> 3.0.CO; 2-B .
- Селлитто, Кармин (2005). «Влияние непостоянных цитирований в Интернете: исследование 123 научных публикаций на конференциях» (PDF) . Журнал Американского общества информационных наук и технологий . 56 (7): 695–703. CiteSeerX 10.1.1.473.2732 . DOI : 10.1002 / asi.20159 .
Примечания и ссылки [ править ]
- Заметки
- Рекомендации
- ^ Феттерли, Деннис; Манассе, Марк; Наджорк, Марк; Винер, Джанет (2003). «Масштабное исследование эволюции веб-страниц» . Материалы 12-й международной конференции по всемирной паутине . Архивировано 9 июля 2011 года . Проверено 14 сентября 2010 года .
- ^ ван дер Грааф, Ганс. «Период полураспада ссылки - два года» . Блог ZOMDir . Архивировано 17 октября 2017 года . Проверено 31 января 2019 .
- Перейти ↑ Koehler, Wallace (2004). «Продолжено продольное исследование веб-страниц: рассмотрение сохраняемости документов» . Информационные исследования . 9 (2). Архивировано 11 сентября 2017 года . Проверено 31 января 2019 .
- ^ «Отчет о веб-блокировках за все время» . Август 2015. Архивировано из оригинала 4 марта 2016 года . Проверено 12 января +2016 .
- ^ а б Маккаун, Фрэнк; Чан, Шеффан; Нельсон, Майкл Л .; Боллен, Йохан (2005). «Доступность и постоянство веб-ссылок в журнале D-Lib» (PDF) . Труды 5-го Международного семинара по веб-архивированию и цифровому хранению (IWAW'05) . Архивировано из оригинального (PDF) 17 июля 2012 года . Проверено 12 октября 2005 .
- ^ Спинеллис, Diomidis (2003). «Упадок и неудачи веб-ссылок» . Коммуникации ACM . 46 (1): 71–77. CiteSeerX 10.1.1.12.9599 . DOI : 10.1145 / 602421.602422 . Архивировано 23 июля 2020 года . Проверено 29 сентября 2007 .
- ^ Стив Лоуренс ; Дэвид М. Пеннок; Гэри Уильям Флейк ; и другие. (Март 2001 г.). «Устойчивость веб-ссылок в научных исследованиях». Компьютер . 34 (3): 26–31. CiteSeerX 10.1.1.97.9695 . DOI : 10.1109 / 2.901164 . ISSN 0018-9162 . Викиданные Q21012586 .
- ^ Хеннесси, Джейсон; Xijin Ge, Стивен (2013). «Междисциплинарное исследование разрушения звена и эффективности методов смягчения» . BMC Bioinformatics . 14 : S5. DOI : 10.1186 / 1471-2105-14-S14-S5 . PMC 3851533 . PMID 24266891 .
- ^ Нельсон, Майкл Л .; Аллен, Б. Данетт (2002). «Сохранение и доступность объектов в электронных библиотеках» . Журнал D-Lib . 8 (1). DOI : 10.1045 / january2002-Нельсона . Архивировано 19 июля 2020 года . Проверено 24 сентября 2019 .
- ^ «Смерть TLD» . blog.benjojo.co.uk . Архивировано 26 июля 2018 года . Проверено 27 июля 2018 .
- ^ Бернерс-Ли, Тим (1998). «Классные URI не меняются» . Архивировано 2 марта 2000 года . Проверено 31 января 2019 .
- ^ a b Килле, Лейтон Уолтер (8 ноября 2014 г.). "Растущая проблема Интернета" Link Rot "и лучшие практики для СМИ и онлайн-издателей" . Ресурс для журналиста, Гарвардская школа Кеннеди. Архивировано 12 января 2015 года . Проверено 16 января 2015 года .
- ^ «Интернет-архив: цифровая библиотека бесплатных книг, фильмов, музыки и Wayback Machine» . 2001-03-10. Архивировано 26 января 1997 года . Проверено 7 октября 2013 года .
- ^ Айзенбах, Гюнтер; Трудель, Матье (2005). «Идет, идет, все еще там: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): e60. DOI : 10.2196 / jmir.7.5.e60 . PMC 1550686 . PMID 16403724 .
- ^ Зиттрейн, Джонатан; Альберт, Кендра; Лессиг, Лоуренс (12 июня 2014 г.). «Perma: определение и решение проблемы ссылочной и ссылочной гнили в юридических цитатах» (PDF) . Управление правовой информацией . 14 (2): 88–99. DOI : 10.1017 / S1472669614000255 . Архивировано 1 ноября 2020 года (PDF) . Проверено 10 июня 2020 .
- ^ "Центр Беркмана Гарвардского университета выпускает Amber, инструмент" взаимопомощи "для блоггеров и владельцев веб-сайтов, помогающий поддерживать доступность Интернета | Центр Беркмана" . cyber.law.harvard.edu . Архивировано 2 февраля 2016 года . Проверено 28 января 2016 .
- ^ Ронн-Jensen, Jesper (2007-10-05). «Программное обеспечение исключает ошибки пользователей и линкрот» . Justaddwater.dk. Архивировано 11 октября 2007 года . Проверено 5 октября 2007 года .
- ^ Мюллер, Джон (2007-12-14). «К вашему сведению, о последних функциях панели инструментов Google» . Центральный блог Google для веб-мастеров. Архивировано 13 сентября 2008 года . Проверено 9 июля 2008 года .
- ^ Бар-Йосеф, Зив; Бродер, Андрей З .; Кумар, Рави; Томкинс, Эндрю (2004). «Sic transit gloria telae: к пониманию распада Интернета». Материалы 13-й международной конференции по всемирной паутине - WWW '04 . С. 328–337. CiteSeerX 10.1.1.1.9406 . DOI : 10.1145 / 988672.988716 . ISBN 978-1581138443.
Внешние ссылки [ править ]
На веб- страницах Wikibook Authoring есть страница по теме: Предотвращение гниения ссылок |
- Перспективы ваших URI
- Якоб Нильсен , «Борьба с Линкротом» , Тревога Якоба Нильсена , 14 июня 1998 г.