Стабильный выпуск | 3.4.0 / 3 августа 2020 г. |
---|---|
Репозиторий | |
Написано в | Ява |
Операционная система | Linux / Unix-like / Windows (не поддерживается) |
Тип | Поисковый робот |
Лицензия | Лицензия Apache |
Веб-сайт | github |
Heritrix - это поисковый робот, разработанный для веб-архивирования . Его написал Интернет-архив . Он доступен по лицензии бесплатного программного обеспечения и написан на Java . Основной интерфейс доступен через веб-браузер , а также есть инструмент командной строки , который при желании можно использовать для запуска сканирования.
Heritrix был разработан совместно Интернет-архивом и скандинавскими национальными библиотеками по спецификациям, написанным в начале 2003 года. Первый официальный выпуск был выпущен в январе 2004 года, и он постоянно улучшался сотрудниками Интернет-архива и другими заинтересованными сторонами.
Heritrix не был основным поисковым роботом, который использовался для сканирования содержимого веб-коллекции Internet Archive в течение многих лет. [1] Самым крупным участником коллекции по состоянию на 2011 год является Alexa Internet . [1] Alexa сканирует Интернет в своих целях [1] с помощью поискового робота ia_archiver . Затем Алекса передает материал в Интернет-архив. [1] Интернет-архив сам выполнял некоторое сканирование с помощью Heritrix, но только в меньшем масштабе. [1]
Начиная с 2008 года, Internet Archive начал улучшать производительность для своего собственного широкомасштабного сканирования, и теперь действительно собирает большую часть своего контента. [2] [ не удалось проверить ]
Проекты с использованием Heritrix [ править ]
Ряд организаций и национальных библиотек используют Heritrix, среди них: [ необходима цитата ]
- Австрийская национальная библиотека , веб- архив
- Интернет-архив библиотеки Александрины
- Национальная библиотека Франции
- Британская библиотека
- Служба веб-архивирования Калифорнийской цифровой библиотеки
- CiteSeerX
- Документирование в Интернете2
- Фонд Интернет-памяти
- Библиотека и архивы Канады
- Библиотека Конгресса [3]
- Национальная и университетская библиотека Исландии
- Национальная библиотека Финляндии
- Национальная библиотека Новой Зеландии
- Королевская библиотека Нидерландов (Koninklijke Bibliotheek) [4]
- Netarkivet.dk
- Архивы Смитсоновского института
- Национальная библиотека Израиля
Файлы дуги [ править ]
Старые версии Heritrix по умолчанию сохраняли сканируемые веб-ресурсы в файле Arc. Этот формат файла полностью не связан с ARC (форматом файла) . Этот формат используется Интернет-архивом с 1996 года для хранения своих веб-архивов. В последнее время он сохраняет по умолчанию в формате файла WARC , который похож на ARC, но более точно определен и более гибкий. Heritrix также можно настроить для хранения файлов в формате каталогов, аналогичном поисковому роботу Wget, который использует URL-адрес для именования каталога и имени файла каждого ресурса.
Файл Arc хранит несколько заархивированных ресурсов в одном файле, чтобы избежать управления большим количеством небольших файлов. Файл состоит из последовательности URL-записей, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следуют HTTP-заголовок и ответ. Размер файлов Arc составляет от 100 до 600 МБ. [ необходима цитата ]
Пример:
filedesc: //IA-2006062.arc 0.0.0.0 20060622190110 text / plain 76 1 1 InternetArchive URL IP-адрес Дата архива Тип содержимого Длина архиваhttp://foo.edu:80/hello.html 127.10.100.2 19961104142103 text / html 187 HTTP / 1.1 200 OK Дата : четверг, 22 июня 2006 г., 19:01:15 GMT Сервер : Apache Последнее изменение : сб, 10 июня 2006 22:33:11 GMT Content-Length : 30 Content-Type : text / html< html >Привет мир!!!</ html >
Инструменты для обработки файлов Arc [ править ]
Heritrix включает инструмент командной строки под названием arcreader, который можно использовать для извлечения содержимого файла Arc. Следующая команда выводит список всех URL-адресов и метаданных, хранящихся в данном файле Arc (в формате CDX ):
arcreader IA-2006062.arc
Следующая команда извлекает hello.html из приведенного выше примера, предполагая, что запись начинается со смещения 140:
arcreader -o 140 -f дамп IA-2006062.arc
Другие инструменты:
- Инструменты для обработки дуги
- WERA (доступ к веб-архиву)
Инструменты командной строки [ править ]
Heritrix поставляется с несколькими инструментами командной строки:
- htmlextractor - отображает ссылки, которые Heritrix извлечет для заданного URL.
- hoppath.pl - воссоздает путь перехода (путь ссылок) к указанному URL-адресу из завершенного сканирования
- manifest_bundle.pl - объединяет все ресурсы, на которые ссылается файл манифеста сканирования, в несжатый или сжатый tar-шар
- cmdline-jmxclient - включает управление Heritrix из командной строки
- arcreader - извлекает содержимое файлов ARC (см. выше)
Дополнительные инструменты доступны как часть проекта warctools Internet Archive. [5]
См. Также [ править ]
- Интернет-архив
- Национальная программа по инфраструктуре и сохранению цифровой информации
- Поисковый робот
Ссылки [ править ]
На момент редактирования в этой статье используется контент из Re: Control over the Internet Archive, а не только «Disallow /»? » , который лицензируется способом, допускающим повторное использование в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 Unported License , но не в рамках GFDL . Все соответствующие условия должны быть соблюдены.
- ^ a b c d e Крис (6 сентября 2011 г.). "Re: Контроль над Интернет-архивом помимо" Запретить / "?" . Обмен стеками профессиональных веб-мастеров . Стек биржа, Inc . Проверено 7 января 2013 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ "Wayback Machine: Теперь с 240 000 000 000 URL - Интернет-архивные блоги" . blog.archive.org . Проверено 11 сентября 2017 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ «О - Веб-архивирование (Библиотека Конгресса)» . www.loc.gov . Проверено 29 октября 2017 .
- ^ "Technische aspecten bij webarchivering - Koninklijke Bibliotheek" . www.kb.nl . Проверено 11 сентября 2017 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ "warctools" . 25 августа 2017 . Проверено 11 сентября 2017 г. - через GitHub. CS1 maint: обескураженный параметр ( ссылка )
- Бёрнер М. (1997). «Ползем в вечность - строим архив всемирной паутины» . Веб-методы . 2 (5). Архивировано из оригинала на 1 января 2008 года.
- Мор, Г., Кимптон, М., Стек, М., Ранитович, И. (2004). «Знакомство с Heritrix, поисковым роботом архивного качества» (PDF) . Материалы 4-го Международного семинара по веб-архивированию (IWAW'04) . Архивировано из оригинального (PDF) 12 июня 2011 года . Проверено 9 марта 2007 .CS1 maint: несколько имен: список авторов ( ссылка )
- Сигурэссон, К. (2005). «Инкрементное сканирование с помощью Heritrix» (PDF) . Материалы 5-го Международного семинара по веб-архивированию (IWAW'05) . Архивировано из оригинального (PDF) 12 июня 2011 года . Проверено 23 июня 2006 .
Внешние ссылки [ править ]
Инструменты из Интернет-архива:
- Херитрикс - официальная вики
- NutchWAX - поиск по коллекциям веб-архивов
- Wayback (Wayback Machine с открытым исходным кодом) - поиск и навигация по коллекциям веб-архивов с помощью NutchWax
Ссылки на связанные инструменты:
- Формат файла дуги
- Как запустить Heritrix в Windows
- WERA (Web ARchive Access) - поиск и навигация по коллекциям веб-архивов с помощью NutchWAX