Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Веб - архивирование представляет собой процесс сбора частей World Wide Web для обеспечения информации является сохранившейся в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического захвата из-за огромного размера и количества информации в Интернете. Самая крупная организация веб-архивирования, основанная на подходе массового сканирования, - это Wayback Machine , которая стремится поддерживать архив всей сети.

Растущая часть человеческой культуры, создаваемой и записываемой в сети, неизбежно приводит к тому, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. [1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно важного веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать свой собственный веб-контент для корпоративного наследия, нормативных или юридических целей.

История и развитие [ править ]

В то время как курирование и организация сети была распространена с середины до конца 1990-х годов, один из первых крупномасштабных архивирования веб - проекта был Internet Archive , некоммерческой организацией , созданной Брюстер Кейл в 1996 году [2] Internet Archive выпустила свою собственную поисковую систему для просмотра заархивированного веб-контента, Wayback Machine , в 2001 году. [2] По состоянию на 2018 год в Internet Archive было 40 петабайт данных. [3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, включая Petabox для эффективного и безопасного хранения больших объемов данных и Hertrix, веб-сканер, разработанный совместно с национальными библиотеками Скандинавии.[2] Другие проекты, запущенные примерно в то же время, включали австралийскиевеб-архивы Pandora и Тасмании, а также шведскую Kulturarw3. [4]

С 2001 по 2010 год [ неудавшаяся проверка ] Международный семинар по веб-архивированию (IWAW) предоставил платформу для обмена опытом и идеями. [5] [6] Международный Интернет Сохранность Консорциум (IIPC) , созданная в 2003 году, способствовала международному сотрудничеству в области разработки стандартов и инструментов с открытым исходным кодом для создания веб - архивов. [7]

Ныне не существующий фонд памяти Интернета был основан в 2004 году Европейской комиссией с целью архивирования Интернета в Европе. [2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «захват мультимедийных данных, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». [2] Данные фонда сейчас хранятся в Интернет-архиве, но не являются общедоступными. [8]

Несмотря на отсутствие централизованной ответственности за его сохранение, веб-контент быстро становится официальным рекордом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. [9]

Сбор сети [ править ]

Веб-архивисты обычно архивируют различные типы веб-контента, включая веб-страницы HTML , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина содержимого. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.

Методы сбора [ править ]

Удаленный сбор урожая [ править ]

Наиболее распространенный метод веб-архивирования использует веб-сканеры для автоматизации процесса сбора веб-страниц . Поисковые роботы обычно обращаются к веб-страницам таким же образом, как пользователи с браузером видят сеть, и поэтому предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования:

  • Heritrix
  • HTTrack
  • Wget

Существуют различные бесплатные сервисы, которые можно использовать для архивации веб-ресурсов «по запросу» с использованием методов веб-сканирования. Эти услуги включают Wayback Machine и WebCite .

Архивирование базы данных [ править ]

Архивирование базы данных относится к методам архивирования основного контента веб-сайтов, управляемых базами данных. Обычно это требует извлечения содержимого базы данных в стандартную схему , часто с использованием XML . После сохранения в этом стандартном формате заархивированное содержимое нескольких баз данных можно сделать доступным с помощью единой системы доступа. Этот подход иллюстрируется на DeepArc и Xinq инструментов , разработанных Национальной библиотеки Франции и Национальной библиотеки Австралии соответственно. DeepArc позволяет сопоставить структуру реляционной базы данных с XML-схемой., и содержимое экспортировано в документ XML. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и извлечения.

Транзакционное архивирование [ править ]

Архивирование транзакций - это управляемый событиями подход, который собирает фактические транзакции, которые происходят между веб-сервером и веб-браузером . Он в основном используется как средство сохранения доказательств того, что контент действительно просматривался на определенном веб-сайте в заданную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования в отношении раскрытия и хранения информации.

Система архивирования транзакций обычно работает, перехватывая каждый HTTP- запрос и ответ от веб-сервера, фильтруя каждый ответ для устранения дублированного контента и постоянно сохраняя ответы в виде битовых потоков.

Трудности и ограничения [ править ]

Поисковые роботы [ править ]

Веб-архивы, которые полагаются на сканирование в качестве основного средства сбора данных в Интернете, подвержены влиянию трудностей веб-сканирования:

  • Протокол исключения роботов может требовать от сканеров запретить доступ к частям веб-сайта. Некоторые веб-архивисты могут игнорировать запрос и в любом случае сканировать эти части.
  • Большие части веб-сайта могут быть скрыты в глубокой сети . Например, страница результатов за веб-формой может находиться в глубокой сети, если поисковые роботы не могут перейти по ссылке на страницу результатов.
  • Ловушки сканера (например, календари) могут заставить сканер загружать бесконечное количество страниц, поэтому поисковые роботы обычно настраиваются на ограничение числа просматриваемых динамических страниц.
  • Большинство инструментов архивирования не захватывают страницу как она есть. Замечено, что при архивировании часто упускаются рекламные баннеры и изображения.

Однако важно отметить, что веб-архив в собственном формате, т. Е. Полностью просматриваемый веб-архив с рабочими ссылками, носителями и т. Д., Действительно возможен только с использованием технологии поисковых роботов.

Интернет настолько велик, что сканирование значительной его части требует большого количества технических ресурсов. Сеть меняется так быстро, что части веб-сайта могут измениться еще до того, как поисковый робот завершит сканирование.

Общие ограничения [ править ]

Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора страницы, отличные от тех, которые они бы сделали в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы, заставляя их направлять больше пользовательского трафика на веб-сайт, и часто делается, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, они также должны бороться с законами об интеллектуальной собственности. Питер Лайман [10] утверждает, что «хотя Интернет обычно считается ресурсом общественного достояния , он защищен авторским правом ; таким образом, архивисты не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах [11] имеют законное право копировать части Интернета при расширении обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые становятся общедоступными, такие как WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам содержимого скрывать или удалять заархивированное содержимое, к которому они не хотят, чтобы у общественности был доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite ссылается на недавний иск против кеширования Google , который Google выиграл. [12]

Законы [ править ]

В 2017 году Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровой связью, должны вести учет. Сюда входят данные веб-сайтов, сообщения в социальных сетях и сообщения. [13] Некоторые законы об авторских правах могут препятствовать архивированию в Интернете. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к академическим работам, в том числе к работам, не имеющим лицензии на открытый доступ, и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. [14] [15]

См. Также [ править ]

  • Архив сайта
  • Архивная команда
  • archive.today (ранее archive.is)
  • Коллективная память
  • Обычное сканирование
  • Цифровое сохранение
  • Google Cache
  • Список инициатив веб-архивирования
  • Memento Project
  • Инициатива Минервы
  • Зеркало сайта
  • Национальная программа по инфраструктуре и сохранению цифровой информации (NDIIPP)
  • Национальная программа цифровой библиотеки (NDLP)
  • PADICAT
  • PageFreezer
  • Архив Пандоры
  • Веб-архив Великобритании
  • Виртуальный артефакт
  • Wayback Machine
  • Веб-сканирование
  • WebCite

Ссылки [ править ]

  1. ^ "Трумэн, Гейл. 2016. Сканирование окружающей среды веб-архивирования. Отчет библиотеки Гарварда" . Гейл Трумэн. 2016 г. Cite journal requires |journal= (help)
  2. ^ a b c d e Toyoda, M .; Кицурегава, М. (май 2012 г.). «История веб-архивирования» . Труды IEEE . 100 (Special Centennial Issue): 1441–1443. DOI : 10.1109 / JPROC.2012.2189920 . ISSN 0018-9219 . 
  3. ^ "Inside Wayback Machine, капсула времени интернета" . Хастл . 28 сентября 2018 г. сек. Уйыы назад . Проверено 21 июля 2020 года .
  4. ^ Коста, Мигель; Гомеш, Даниэль; Сильва, Марио Дж. (Сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал электронных библиотек . 18 (3): 191–205. DOI : 10.1007 / s00799-016-0171-9 . ISSN 1432-5012 . S2CID 24303455 .  [ требуется проверка ]
  5. ^ «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 года .
  6. ^ "IWAW - Международные семинары по веб-архивированию" . bibnum.bnf.fr . Проверено 19 августа 2019 года .
  7. ^ «О IIPC» . IIPC . Проверено 19 августа 2019 года .[ требуется проверка ]
  8. ^ "Internet Memory Foundation: Free Web: Free Download, Borrow and Streaming" . archive.org . Интернет-архив . Проверено 21 июля 2020 года .
  9. Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз» . History Associates . Проверено 14 июля 2019 года .
  10. ^ Лайман (2002)
  11. ^ "Обязательный депозит | IIPC" . netpreserve.org . Архивировано 16 марта 2017 года . Проверено 31 января 2017 года .
  12. ^ "Часто задаваемые вопросы о WebCite" . Webcitation.org . Проверено 20 сентября 2018 года .
  13. ^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . FINRA.
  14. ^ Claburn, Томас (10 сентября 2020). «Журналы открытого доступа исчезают из Интернета, Internet Archive готов заполнить пробелы» . Реестр .
  15. ^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (3 сентября 2020 г.). «Открытость не вечна: исследование исчезнувших журналов открытого доступа». arXiv : 2008.11933 [ cs.DL ].

Общая библиография [ править ]

  • Браун, А. (2006). Архивирование веб-сайтов: Практическое руководство для специалистов по управлению информацией . Лондон: Facet Publishing. ISBN 978-1-85604-553-7.
  • Брюггер, Н. (2005). Архивирование сайтов. Общие соображения и стратегии . Орхус: Центр интернет-исследований. ISBN 978-87-990507-0-3. Архивировано из оригинала на 29 января 2009 года.
  • Дэй, М. (2003). «Сохранение ткани нашей жизни: обзор инициатив по сохранению Интернета» (PDF) . Исследования и передовые технологии для электронных библиотек: материалы 7-й Европейской конференции (ECDL) . Конспект лекций по информатике. 2769 : 461–472. DOI : 10.1007 / 978-3-540-45175-4_42 . ISBN 978-3-540-40726-3.
  • Айзенбах, Г. и Трудель, М. (2005). «Идет, идет, все еще есть: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): e60. DOI : 10.2196 / jmir.7.5.e60 . PMC  1550686 . PMID  16403724 .
  • Фитч, Кент (2003). «Архивирование веб-сайта - подход к записи каждого существенно отличающегося от веб-сайта ответа» . Ausweb 03 . Архивировано из оригинального 20 -го июля 2003 года . Проверено 27 сентября 2006 года .
  • Джейкоби, Роберт (19 августа 2010 г.). «Архивирование веб-страницы» . Архивировано из оригинала на 3 января 2011 года . Проверено 23 октября 2010 года .
  • Лайман, П. (2002). «Архивирование всемирной паутины» . Создание национальной стратегии сохранения: проблемы архивирования цифровых медиа .
  • Масанес, Дж.), Изд. (2006). Веб-архивирование . Берлин: Springer-Verlag . ISBN 978-3-540-23338-1.
  • Пеннок, Морин (2013). Веб-архивирование . Отчеты о наблюдении за технологиями DPC. Великобритания: Коалиция цифрового сохранения . DOI : 10.7207 / twr13-01 . ISSN  2048-7916 .
  • Тойода, М., Китсурегава, М. (2012). «История веб-архивирования» . Труды IEEE . 100 (специальный столетний выпуск): 1441–1443. DOI : 10.1109 / JPROC.2012.2189920 .CS1 maint: uses authors parameter (link)

Внешние ссылки [ править ]

  • Международный консорциум сохранения в Интернете (IIPC) - Международный консорциум, миссия которого состоит в получении, сохранении и предоставлении доступа к знаниям и информации из Интернета для будущих поколений.
  • International Web Archiving Workshop (IWAW) - Ежегодный семинар, посвященный веб-архивированию.
  • Национальная библиотека Австралии, сохранение доступа к цифровой информации (PADI)
  • Библиотека Конгресса - Интернет-архив
  • Библиография веб-архивирования - подробный список ресурсов веб-архивирования.
  • «На пути к непрерывному веб-архивированию» - Жюльен Масанес, Bibliothèque Nationale de France
  • Сравнение сервисов веб-архивирования
  • Список блогов о веб-архивировании , 2015 г.