Веб-архивирование

Веб - архивирование представляет собой процесс сбора частей World Wide Web для обеспечения информации является сохранившейся в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического захвата из-за огромного размера и количества информации в Интернете. Самая крупная организация веб-архивирования, основанная на подходе массового сканирования, - это Wayback Machine , которая стремится поддерживать архив всей сети.

Растущая часть человеческой культуры, создаваемой и записываемой в сети, неизбежно приводит к тому, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. ^[1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно важного веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать свой собственный веб-контент для корпоративного наследия, нормативных или юридических целей.

История и развитие [ править ]

В то время как курирование и организация сети была распространена с середины до конца 1990-х годов, один из первых крупномасштабных архивирования веб - проекта был Internet Archive , некоммерческой организацией , созданной Брюстер Кейл в 1996 году ^[2] Internet Archive выпустила свою собственную поисковую систему для просмотра заархивированного веб-контента, Wayback Machine , в 2001 году. ^[2] По состоянию на 2018 год в Internet Archive было 40 петабайт данных. ^[3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, включая Petabox для эффективного и безопасного хранения больших объемов данных и Hertrix, веб-сканер, разработанный совместно с национальными библиотеками Скандинавии.^[2] Другие проекты, запущенные примерно в то же время, включали австралийскиевеб-архивы Pandora и Тасмании, а также шведскую Kulturarw3. ^[4]

С 2001 по 2010 год ^{[ неудавшаяся проверка ]} Международный семинар по веб-архивированию (IWAW) предоставил платформу для обмена опытом и идеями. ^[5]^[6] Международный Интернет Сохранность Консорциум (IIPC) , созданная в 2003 году, способствовала международному сотрудничеству в области разработки стандартов и инструментов с открытым исходным кодом для создания веб - архивов. ^[7]

Ныне не существующий фонд памяти Интернета был основан в 2004 году Европейской комиссией с целью архивирования Интернета в Европе. ^[2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «захват мультимедийных данных, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». ^[2] Данные фонда сейчас хранятся в Интернет-архиве, но не являются общедоступными. ^[8]

Несмотря на отсутствие централизованной ответственности за его сохранение, веб-контент быстро становится официальным рекордом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. ^[9]

Сбор сети [ править ]

Веб-архивисты обычно архивируют различные типы веб-контента, включая веб-страницы HTML , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина содержимого. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.

Методы сбора [ править ]

Удаленный сбор урожая [ править ]

Наиболее распространенный метод веб-архивирования использует веб-сканеры для автоматизации процесса сбора веб-страниц . Поисковые роботы обычно обращаются к веб-страницам таким же образом, как пользователи с браузером видят сеть, и поэтому предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования:

Heritrix
HTTrack
Wget

Существуют различные бесплатные сервисы, которые можно использовать для архивации веб-ресурсов «по запросу» с использованием методов веб-сканирования. Эти услуги включают Wayback Machine и WebCite .

Архивирование базы данных [ править ]

Архивирование базы данных относится к методам архивирования основного контента веб-сайтов, управляемых базами данных. Обычно это требует извлечения содержимого базы данных в стандартную схему , часто с использованием XML . После сохранения в этом стандартном формате заархивированное содержимое нескольких баз данных можно сделать доступным с помощью единой системы доступа. Этот подход иллюстрируется на DeepArc и Xinq инструментов , разработанных Национальной библиотеки Франции и Национальной библиотеки Австралии соответственно. DeepArc позволяет сопоставить структуру реляционной базы данных с XML-схемой., и содержимое экспортировано в документ XML. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и извлечения.

Транзакционное архивирование [ править ]

Архивирование транзакций - это управляемый событиями подход, который собирает фактические транзакции, которые происходят между веб-сервером и веб-браузером . Он в основном используется как средство сохранения доказательств того, что контент действительно просматривался на определенном веб-сайте в заданную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования в отношении раскрытия и хранения информации.

Система архивирования транзакций обычно работает, перехватывая каждый HTTP- запрос и ответ от веб-сервера, фильтруя каждый ответ для устранения дублированного контента и постоянно сохраняя ответы в виде битовых потоков.

Трудности и ограничения [ править ]

Поисковые роботы [ править ]

Веб-архивы, которые полагаются на сканирование в качестве основного средства сбора данных в Интернете, подвержены влиянию трудностей веб-сканирования:

Протокол исключения роботов может требовать от сканеров запретить доступ к частям веб-сайта. Некоторые веб-архивисты могут игнорировать запрос и в любом случае сканировать эти части.
Большие части веб-сайта могут быть скрыты в глубокой сети . Например, страница результатов за веб-формой может находиться в глубокой сети, если поисковые роботы не могут перейти по ссылке на страницу результатов.
Ловушки сканера (например, календари) могут заставить сканер загружать бесконечное количество страниц, поэтому поисковые роботы обычно настраиваются на ограничение числа просматриваемых динамических страниц.
Большинство инструментов архивирования не захватывают страницу как она есть. Замечено, что при архивировании часто упускаются рекламные баннеры и изображения.

Однако важно отметить, что веб-архив в собственном формате, т. Е. Полностью просматриваемый веб-архив с рабочими ссылками, носителями и т. Д., Действительно возможен только с использованием технологии поисковых роботов.

Интернет настолько велик, что сканирование значительной его части требует большого количества технических ресурсов. Сеть меняется так быстро, что части веб-сайта могут измениться еще до того, как поисковый робот завершит сканирование.

Общие ограничения [ править ]

Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора страницы, отличные от тех, которые они бы сделали в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы, заставляя их направлять больше пользовательского трафика на веб-сайт, и часто делается, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, они также должны бороться с законами об интеллектуальной собственности. Питер Лайман ^[10] утверждает, что «хотя Интернет обычно считается ресурсом общественного достояния , он защищен авторским правом ; таким образом, архивисты не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах ^[11] имеют законное право копировать части Интернета при расширении обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые становятся общедоступными, такие как WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам содержимого скрывать или удалять заархивированное содержимое, к которому они не хотят, чтобы у общественности был доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite ссылается на недавний иск против кеширования Google , который Google выиграл. ^[12]

Законы [ править ]

В 2017 году Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровой связью, должны вести учет. Сюда входят данные веб-сайтов, сообщения в социальных сетях и сообщения. ^[13] Некоторые законы об авторских правах могут препятствовать архивированию в Интернете. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к академическим работам, в том числе к работам, не имеющим лицензии на открытый доступ, и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. ^[14]^[15]

См. Также [ править ]

Архив сайта
Архивная команда
archive.today (ранее archive.is)
Коллективная память
Обычное сканирование
Цифровое сохранение
Google Cache
Список инициатив веб-архивирования
Memento Project
Инициатива Минервы
Зеркало сайта
Национальная программа по инфраструктуре и сохранению цифровой информации (NDIIPP)
Национальная программа цифровой библиотеки (NDLP)
PADICAT
PageFreezer
Архив Пандоры
Веб-архив Великобритании
Виртуальный артефакт
Wayback Machine
Веб-сканирование
WebCite

Ссылки [ править ]

^ "Трумэн, Гейл. 2016. Сканирование окружающей среды веб-архивирования. Отчет библиотеки Гарварда" . Гейл Трумэн. 2016 г. Cite journal requires |journal= (help)
^ a b c d e Toyoda, M .; Кицурегава, М. (май 2012 г.). «История веб-архивирования» . Труды IEEE . 100 (Special Centennial Issue): 1441–1443. DOI : 10.1109 / JPROC.2012.2189920 . ISSN 0018-9219 .
^ "Inside Wayback Machine, капсула времени интернета" . Хастл . 28 сентября 2018 г. сек. Уйыы назад . Проверено 21 июля 2020 года .
^ Коста, Мигель; Гомеш, Даниэль; Сильва, Марио Дж. (Сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал электронных библиотек . 18 (3): 191–205. DOI : 10.1007 / s00799-016-0171-9 . ISSN 1432-5012 . S2CID 24303455 . ^{[ требуется проверка ]}
^ «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 года .
^ "IWAW - Международные семинары по веб-архивированию" . bibnum.bnf.fr . Проверено 19 августа 2019 года .
^ «О IIPC» . IIPC . Проверено 19 августа 2019 года .^{[ требуется проверка ]}
^ "Internet Memory Foundation: Free Web: Free Download, Borrow and Streaming" . archive.org . Интернет-архив . Проверено 21 июля 2020 года .
↑ Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз» . History Associates . Проверено 14 июля 2019 года .
^ Лайман (2002)
^ "Обязательный депозит | IIPC" . netpreserve.org . Архивировано 16 марта 2017 года . Проверено 31 января 2017 года .
^ "Часто задаваемые вопросы о WebCite" . Webcitation.org . Проверено 20 сентября 2018 года .
^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . FINRA.
^ Claburn, Томас (10 сентября 2020). «Журналы открытого доступа исчезают из Интернета, Internet Archive готов заполнить пробелы» . Реестр .
^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (3 сентября 2020 г.). «Открытость не вечна: исследование исчезнувших журналов открытого доступа». arXiv : 2008.11933 [ cs.DL ].

Общая библиография [ править ]

Браун, А. (2006). Архивирование веб-сайтов: Практическое руководство для специалистов по управлению информацией . Лондон: Facet Publishing. ISBN 978-1-85604-553-7.
Брюггер, Н. (2005). Архивирование сайтов. Общие соображения и стратегии . Орхус: Центр интернет-исследований. ISBN 978-87-990507-0-3. Архивировано из оригинала на 29 января 2009 года.
Дэй, М. (2003). «Сохранение ткани нашей жизни: обзор инициатив по сохранению Интернета» (PDF) . Исследования и передовые технологии для электронных библиотек: материалы 7-й Европейской конференции (ECDL) . Конспект лекций по информатике. 2769 : 461–472. DOI : 10.1007 / 978-3-540-45175-4_42 . ISBN 978-3-540-40726-3.
Айзенбах, Г. и Трудель, М. (2005). «Идет, идет, все еще есть: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): e60. DOI : 10.2196 / jmir.7.5.e60 . PMC 1550686 . PMID 16403724 .
Фитч, Кент (2003). «Архивирование веб-сайта - подход к записи каждого существенно отличающегося от веб-сайта ответа» . Ausweb 03 . Архивировано из оригинального 20 -го июля 2003 года . Проверено 27 сентября 2006 года .
Джейкоби, Роберт (19 августа 2010 г.). «Архивирование веб-страницы» . Архивировано из оригинала на 3 января 2011 года . Проверено 23 октября 2010 года .
Лайман, П. (2002). «Архивирование всемирной паутины» . Создание национальной стратегии сохранения: проблемы архивирования цифровых медиа .
Масанес, Дж.), Изд. (2006). Веб-архивирование . Берлин: Springer-Verlag . ISBN 978-3-540-23338-1.
Пеннок, Морин (2013). Веб-архивирование . Отчеты о наблюдении за технологиями DPC. Великобритания: Коалиция цифрового сохранения . DOI : 10.7207 / twr13-01 . ISSN 2048-7916 .
Тойода, М., Китсурегава, М. (2012). «История веб-архивирования» . Труды IEEE . 100 (специальный столетний выпуск): 1441–1443. DOI : 10.1109 / JPROC.2012.2189920 .CS1 maint: uses authors parameter (link)

Внешние ссылки [ править ]

Использование внешних ссылок в этом разделе может не соответствовать политике или рекомендациям Википедии . Пожалуйста, улучшите эту статью , удалив лишние или неприемлемые внешние ссылки и преобразовав полезные ссылки, где это необходимо, в сноски . ( Март 2014 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

Интернет-книги
Ресурсы в вашей библиотеке
Ресурсы в других библиотеках

Международный консорциум сохранения в Интернете (IIPC) - Международный консорциум, миссия которого состоит в получении, сохранении и предоставлении доступа к знаниям и информации из Интернета для будущих поколений.
International Web Archiving Workshop (IWAW) - Ежегодный семинар, посвященный веб-архивированию.
Национальная библиотека Австралии, сохранение доступа к цифровой информации (PADI)
Библиотека Конгресса - Интернет-архив
Библиография веб-архивирования - подробный список ресурсов веб-архивирования.
«На пути к непрерывному веб-архивированию» - Жюльен Масанес, Bibliothèque Nationale de France
Сравнение сервисов веб-архивирования
Список блогов о веб-архивировании , 2015 г.

[1] "Трумэн, Гейл. 2016. Сканирование окружающей среды веб-архивирования. Отчет библиотеки Гарварда" . Гейл Трумэн. 2016 г. Cite journal requires |journal= (help)

[kitsuregawa-2] Toyoda, M .; Кицурегава, М. (май 2012 г.). «История веб-архивирования» . Труды IEEE . 100 (Special Centennial Issue): 1441–1443. DOI : 10.1109 / JPROC.2012.2189920 . ISSN 0018-9219 .

[3] "Inside Wayback Machine, капсула времени интернета" . Хастл . 28 сентября 2018 г. сек. Уйыы назад . Проверено 21 июля 2020 года .

[4] Коста, Мигель; Гомеш, Даниэль; Сильва, Марио Дж. (Сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал электронных библиотек . 18 (3): 191–205. DOI : 10.1007 / s00799-016-0171-9 . ISSN 1432-5012 . S2CID 24303455 . ^{[ требуется проверка ]}

[5] «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 года .

[6] "IWAW - Международные семинары по веб-архивированию" . bibnum.bnf.fr . Проверено 19 августа 2019 года .

[7] «О IIPC» . IIPC . Проверено 19 августа 2019 года .^{[ требуется проверка ]}

[8] "Internet Memory Foundation: Free Web: Free Download, Borrow and Streaming" . archive.org . Интернет-архив . Проверено 21 июля 2020 года .

[9] Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз» . History Associates . Проверено 14 июля 2019 года .

[10] Лайман (2002)

[11] "Обязательный депозит | IIPC" . netpreserve.org . Архивировано 16 марта 2017 года . Проверено 31 января 2017 года .

[12] "Часто задаваемые вопросы о WebCite" . Webcitation.org . Проверено 20 сентября 2018 года .

[13] «Социальные сети и цифровые коммуникации» (PDF) . finra.org . FINRA.

[Claburn_2020-14] Claburn, Томас (10 сентября 2020). «Журналы открытого доступа исчезают из Интернета, Internet Archive готов заполнить пробелы» . Реестр .

[15] Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (3 сентября 2020 г.). «Открытость не вечна: исследование исчезнувших журналов открытого доступа». arXiv : 2008.11933 [ cs.DL ].

[1]

vтеЦифровое сохранение
Концепции	Артефактическая ценность Курирование Темные времена Моральное устаревание Открытая архивная информационная система
Методы	Криминалистика Эмуляция
По типу	Произведения Электронное письмо Сайты
Организации	Компьютерные музеи Цифровой центр курирования Национальная программа по инфраструктуре и сохранению цифровой информации (США)
Списки	Инициативы по сохранению График Хронология аудиоформатов Инициативы по веб-архивированию Лет в домашнем видео
Категория

vтеСохранение и восстановление культурного наследия
Уход за коллекциями и управление ими	Сбор Коллекция (произведение искусства) Коллекции ухода Каталог коллекции Обслуживание коллекций Управление коллекциями (музей) Политика управления коллекциями Система управления коллекциями Управление культурным наследием Управление культурными ресурсами Закрытие (музей) Методика аудита цифрового репозитория на основе оценки рисков Витрина Документирование культурных ценностей Аварийное реагирование (музей) Выставка объектов культурного наследия Найдено в коллекции Врожденный порок Инвентарь (музей) Музейная комплексная борьба с вредителями Сохранение метаданных Сохранение метаданных: стратегии внедрения Сохранение смысла Обследование сохранности Происхождение Репатриация Реставрация (культурное наследие) Хранение объектов культурного наследия
Роли и опыт	Художник-обработчик Менеджер по сбору Консерватор-реставратор Ученый по охране природы Техник по консервации Куратор Выставочный дизайнер Производитель креплений Консерватор объектов Хранитель картин Хранитель фотографий Защитник Регистратор (музей) Консерватор текстиля
Местные деликатесы	Реставрация антиквариата Археологическая наука Археология Биоархеология Реставрация здания Наука о сохранении Восстановление цифровых фотографий Цифровое сохранение Сохранение базы данных Сохранение пленки Сохранение кадра Наука о наследии Историческое сохранение Сохранение медиа Сохранение объекта Консервация оптических носителей Сохранение живописи Консервация (библиотечное и архивное дело) Реставрация Устойчивое сохранение Веб-архивирование
Методы	Старение (художественное произведение) Анастилез Задержанный распад Архитектура Крэдлинг (картины) Отряд настенных росписей Метод Десмета Исторический анализ краски Визуализация культурного наследия Живопись Кинцуги Leafcasting Подкладка картин Массовое раскисление Контроль и профилактика плесени в библиотеках Перекрашивание Разделение бумаги Радиография культурных объектов Реконструкция (архитектура) Rissverklebung Текстильная стабилизация Перенос панно Сохранение на основе UVC VisualAudio
Темы	Археологические сайты Древнегреческая керамика Автомобили Предметы из кости, рога и рога Книги, рукописи, документы и эфемеры Керамические предметы Часы Объекты на основе меди Перья Фильм Флаги и баннеры Фрески Меховые изделия Стеклянные предметы Гербарии Исторические сады Человеческие останки Иллюминированные рукописи Образцы насекомых Предметы из железа и стали Предметы из слоновой кости Иудаика Лакированная посуда Кожаные предметы Маяки Металлы Музыкальные инструменты Неоновые объекты Новое медиа искусство Работы на открытом воздухе Наружные бронзовые предметы Фрески на открытом воздухе Картины Рамы для картин Панно Папирус Пергамент Исполнительское искусство Фотографии Фотопластинки Пластиковые предметы Помпейские фрески Артефакты кораблекрушений Серебряные предметы Южноазиатские бытовые святыни Витраж Таксидермия Текстиль Тибетские тханки Медиа-искусство, основанное на времени Тотемные столбы Транспортные средства Виниловые диски Гравюры на дереве Деревянные артефакты Деревянная мебель
Известные проекты	Вопросы сохранения Помпеи и Геркуланума Сохранение-реставрация Ecce Homo Элиаса Гарсиа Мартинеса Консервация-реставрация клиники Гросс Томасом Икинсом Консервация-реставрация " Тайной вечери" Леонардо да Винчи Консервация-реставрация Туринской плащаницы Консервация-реставрация фресок Сикстинской капеллы Консервация-реставрация Статуи Свободы Консервация-реставрация HL Hunley Инициатива исследования современного и современного искусства