DjVu ( / ˌ д eɪ ʒ ɑ v ¯u / DAY -zhah- VOO , как французский « дежавю » [3] ) представляет собой компьютерный формат файла предназначен в основном для хранения отсканированных документов , особенно те , которые содержат комбинацию текста, линейные чертежи , индексированные цветные изображения и фотографии. Он использует такие технологии, как разделение слоев изображения текста и фона / изображений, прогрессивная загрузка , арифметическое кодирование и сжатие с потерями для битонального ( монохромного)) изображений. Это позволяет хранить высококачественные читаемые изображения на минимальном пространстве, чтобы их можно было сделать доступными в Интернете .
Расширения имени файла | .djvu, .djv |
---|---|
Тип интернет-СМИ | изображение / vnd.djvu, изображение / x-djvu |
Магическое число | AT&T |
Разработано | AT&T Labs - Исследования |
Первый выпуск | 1998 |
Последний релиз | Версия 3.5.28 [1] (8 января 2021 г . ) |
Тип формата | Форматы файлов изображений |
Содержится | Формат файла обмена |
Открытый формат ? | GNU GPLv2 для справочной библиотеки DjVu и DjVuLibre-3.5; Предоставление лицензий под GNU GPL на несколько патентов, которые охватывают аспекты библиотеки [2] |
DjVu рекламировался как предоставляющий файлы меньшего размера, чем PDF, для большинства отсканированных документов. [4] Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 КБ, черно-белые технические статьи сжимаются до 15–40 КБ, а древние рукописи сжимаются примерно до 100 КБ; для удовлетворительного изображения JPEG обычно требуется 500 КБ. [5] Как и PDF, DjVu может содержать текстовый слой OCR , что упрощает выполнение операций копирования и вставки, а также текстового поиска.
Доступны бесплатные создатели, манипуляторы, конвертеры, плагины для веб-браузеров и программы просмотра на рабочем столе. [3] DjVu поддерживается рядом программ для просмотра многоформатных документов и программ для чтения электронных книг в Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) и Android (FBReader, EBookDroid, PocketBook).
История
Технология DjVu была первоначально разработана Янном ЛеКуном , Леоном Ботту , Патриком Хаффнером , Полом Г. Ховардом , Патрисом Симардом и Йошуа Бенжио в AT&T Labs с 1996 по 2001 год [5].
До стандартизации PDF в 2008 году [6] [7] DjVu считался лучшим из-за того, что это открытый формат файла, в отличие от проприетарного формата PDF в то время. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная простота преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в своем выступлении в 2004 году. on IT Conversations обсудили преимущества упрощения доступа к файлам DjVu. [8] [9]
Библиотека DjVu, распространяемая как часть пакета с открытым исходным кодом DjVuLibre , стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется исходными разработчиками DjVu с 2002 года. [10]
Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была внесена в 2005 году.
Версия | Дата выпуска | Заметки | |
---|---|---|---|
[1] | 1–191996–1999 | Разработанные лабораторией AT&T версии, предшествующие продаже формата LizardTech . | |
[1] | Версия 20Апрель 1999 г. | DjVu версии 3. Формат DjVu изменен с одностраничного на многостраничный формат. | |
[1] | Версия 21Сентябрь 1999 г. | Заменен косвенный формат хранения. Добавлен текстовый слой с возможностью поиска. | |
[1] | Версия 22Апрель 2001 г. | Ориентация страницы, цвет JB2 | |
[1] | Версия 23Июль 2002 г. | Чанк CID | |
[1] | Версия 24Февраль 2003 г. | LTAnno chunk | |
[1] | Версия 25Май 2003 г. | Чанк NAVM. Добавлена поддержка закладок (контуров) DjVu. Изменения, внесенные в Версии 23 и 24, устарели. | |
[1] | Версия 26Апрель 2005 г. | Текстовые / строчные аннотации | |
Легенда: Старая версия Старая версия, все еще поддерживается Последняя версия Последняя предварительная версия |
Роль в экосистеме программного обеспечения
Основным использованием формата DjVu было электронное распространение документов с качеством, сопоставимым с качеством печатных документов. Поскольку эта ниша также является основным направлением использования PDF-файлов, эти два формата неизбежно стали конкурентами. Однако следует отметить, что эти два формата подходят к проблеме доставки документов с высоким разрешением по-разному: PDF в первую очередь кодирует графику и текст как векторизованные данные, тогда как DjVu в первую очередь кодирует их как изображения растровых изображений. Это означает, что PDF возлагает бремя рендеринга документа на читателя, тогда как DjVu возлагает это бремя на создателя.
В течение ряда лет, значительно совпадающих с периодом разработки DjVu, не существовало программ просмотра PDF для бесплатных операционных систем - особым камнем преткновения была визуализация векторизованных шрифтов, которые необходимы для сочетания файлов небольшого размера с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для решения которой было доступно бесплатное программное обеспечение, были предложения, что движение за свободное программное обеспечение должно использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе не сильно отличается от рендеринга для драйвера принтера для конкретного устройства, и DjVu в крайнем случае может быть сгенерирован из сканированных бумажных носителей. Однако, когда FreeType 2.0 в 2000 году начал предоставлять рендеринг всех основных форматов векторизованных шрифтов, это конкретное преимущество DjVu начало исчезать.
В 2000-х годах, с ростом всемирной паутины и до широкого распространения широкополосной связи , DjVu часто использовался цифровыми библиотеками в качестве предпочтительного формата благодаря его интеграции с таким программным обеспечением, как Greenstone [11] и Internet Archive , [12] ] плагины для браузера, которые обеспечивали расширенный просмотр в Интернете, меньший размер файла для сопоставимого качества сканирования книг и других документов с большим количеством изображений [13], а также поддержку встраивания и поиска полного текста из OCR . [14] [15] Некоторые функции, такие как предварительный просмотр эскизов, были позже интегрированы в BookReader Интернет-архива [16], и просмотр DjVu был объявлен устаревшим в его пользу, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживать с ними плагины NPAPI и DjVu. [17]
DjVu.js Viewer пытается заменить отсутствующие плагины.
Технический обзор
Файловая структура
Формат файла DjVu основан на формате файла обмена и состоит из иерархически организованных блоков. Структуре IFF предшествует 4-байтовое AT&T
магическое число . Ниже приведен один FORM
фрагмент с вторичным идентификатором либо DJVU
или DJVM
для одной страницы или нескольких страниц документа, соответственно.
Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: один файл для каждой страницы плюс несколько файлов с общими фрагментами.
Типы чанков
Идентификатор чанка | Содержится | Описание |
---|---|---|
ФОРМА: DJVU | ФОРМА: DJVM | Описывает одну страницу. Может быть либо в корне документа и быть одностраничным документом, либо ссылаться на него из DIRM блока. |
ФОРМА: DJVM | N / A | Описывает многостраничный документ. Корневая часть документа. |
ФОРМА: DJVI | ФОРМА: DJVM | Содержит данные, совместно используемые несколькими страницами. |
ФОРМА: THUM | ФОРМА: DJVM | Содержит эскизы. |
ИНФОРМАЦИЯ | ФОРМА: DJVU | Должен быть первый кусок. Описывает ширину, высоту, версию формата, разрешение , гамму и поворот страницы . |
DIRM | ФОРМА: DJVM | Должен быть первый кусок. Ссылки на другие FORM куски. Эти фрагменты могут либо следовать за этим фрагментом внутри FORM:DJVM фрагмента, либо содержаться во внешних файлах. Эти типы документов называются связанными или косвенными , соответственно. |
NAVM | ФОРМА: DJVM | Если присутствует, должен сразу следовать за DIRM чанком. Содержит сжатую структуру документа BZZ. |
Сжатие
DjVu разделяет одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Фоновые изображения и изображения переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение с высоким разрешением (например, 300 точек на дюйм), и обычно это место, где хранится текст. Затем изображения фона и переднего плана сжимаются с использованием алгоритма сжатия на основе вейвлетов под названием IW44. [5] Изображение маски сжимается с использованием метода JB2 (аналогично JBIG2 ). Метод кодирования JB2 идентифицирует почти идентичные формы на странице, например, несколько вхождений определенного символа с заданным шрифтом, стилем и размером. Он сжимает растровое изображение каждой уникальной формы отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо того, чтобы сжимать букву «е» в заданном шрифте несколько раз, он сжимает букву «е» один раз (как сжатое растровое изображение), а затем записывает каждое место на странице, которое встречается.
При желании эти формы могут быть сопоставлены с кодами UTF-8 (вручную или потенциально с помощью системы распознавания текста ) и сохранены в файле DjVu. Если это сопоставление существует, можно выделить и скопировать текст.
Поскольку JB2 (также называемый DjVuBitonal) является разновидностью JBIG2, работающей на тех же принципах [18], оба метода сжатия имеют одинаковые проблемы при выполнении сжатия с потерями. В 2013 году выяснилось, что копировальные аппараты и сканеры Xerox заменяли похожие на цифры цифрами, например, заменяя 6 на 8. [19] Документ DjVu был замечен в дикой природе с заменой символов, например n с просвечивающими засечками превращаясь в au и o с пятном внутри, превращаясь в e. [20] Информация о том, произошло ли сжатие с потерями, не сохраняется в файле, [21] и приложение просмотра DjView не предупреждает пользователя о возможной замене глифов ни при открытии сжатого файла с потерями, ни в информации или метаданных. диалоговые окна. [22]
Лицензирование формата
DjVu - это открытый формат файла с патентами. [4] Публикуется спецификация формата файла, а также исходный код справочной библиотеки. [4] Авторы оригинала распространяют реализацию с открытым исходным кодом под названием « DjVuLibre » под Стандартной общественной лицензией GNU . Права на коммерческую разработку программного обеспечения для кодирования на протяжении многих лет передавались различным компаниям, включая AT&T Corporation , LizardTech , [23] Celartem [24] и Cuminas . [25]
Celartem приобрела LizardTech и Extensis. [26] [27] [24] [28] [29]
Служба поддержки
Программное обеспечение для сканирования и просмотра широко не поддерживает DjVu. [30] Хотя программы просмотра могут быть загружены, открытие файлов DjVu по умолчанию не реализовано в большинстве операционных систем, за исключением большинства дистрибутивов Linux . [31]
В 2002 году формат файла DjVu был выбран Интернет-архивом в качестве формата, в котором его проект «Миллион книг» предоставляет отсканированные общедоступные книги в Интернете (наряду с TIFF и PDF). [32] В феврале 2016 года Интернет-архив объявил, что DjVu больше не будет использоваться для новых загрузок. [33]
Wikimedia Commons , медиа-репозиторий, используемый, среди прочего, Wikipedia , условно разрешает медиафайлы PDF и DjVu. [34]
Смотрите также
- Международная структура взаимодействия изображений (IIIF)
- JBIG2
- Сравнение форматов электронных книг
Рекомендации
- ^ a b c d e f g h i DjVuLibre , страница загрузки
- ^ "Лицензирование DjVu" . Страница DjVu Sourceforge . Sourceforge.net. 2011-08-17 . Проверено 21 сентября 2011 .
- ^ а б «DjVu.org - главное меню для ресурсов djvu» . djvu.org . Проверено 2 июля 2017 .
- ^ а б в «Что такое DjVu - DjVu.org» . DjVu.org . Проверено 5 марта 2009 .
- ^ а б в Леон Ботту; Патрик Хаффнер; Пол Дж. Ховард; Патрис Симард; Йошуа Бенжио; Янн Ле Кун (1998). «Сжатие изображений документов высокого качества с помощью DjVu, 7 (3): 410–425» (PDF) . Журнал электронного изображения .
- ^ «ISO 32000-1: 2008 - Управление документами - Формат переносимых документов - Часть 1: PDF 1.7» . Iso.org. 2008-07-01 . Проверено 21 февраля 2010 .
- ^ Орион, Иган (05.12.2007). «PDF 1.7 утвержден как ISO 32000» . Спрашивающий . Спрашивающий . Архивировано из оригинального 13 декабря 2007 года . Проверено 5 декабря 2007 .
- ^ Брюстер Кале (16 декабря 2004 г.). «Универсальный доступ ко всем знаниям» (аудио; речь в 1 час: 31 мин: 20 сек) . Разговорная сеть.
- ^ "LizardTech, чтобы открыть программу просмотра Java DjVu" . Подключение ECM . 7 декабря 2004 . Проверено 18 августа 2017 года .
- ^ «DjVuLibre: библиотека и программа просмотра DjVu с открытым исходным кодом» . djvu.sourceforge.net .
- ^ «Проекты и демонстрации NZDL» .
- ^ Эрик Рамси (05.09.2018). «Google Книги против DjVu в Интернет-архиве» .
- ^ Эрик Рамси (10.09.2018). «Снова DjVu» .
- ^ Джефф Каплан (2004-12-09). «Новая книжная коллекция: цветные сканы, djvu, немного pdf» .
- ^ Януш С. Бень (11.09.2011). «Эффективный поиск по скрытому тексту больших документов DjVu» .
- ^ Эрик Рамси (10 сентября 2010 г.). "Просмотр эскизов в программе чтения книг Интернет-архива" .
- ^ Брюстер Кале и Джефф Каплан (26 февраля 2016 г.). «Файлы DjVu для новых загрузок» .
- ^ Артем Михеев, Люк Винсент, Майк Гаврилич и Леон Ботту: публикация электронных документов с использованием DjVu
- ^ См.Статью JBIG2 для получения дополнительных сведений и ссылок.
- ^ https://news.ycombinator.com/item?id=17435514
- ^ https://cuminas.jp/docs/techinfo/DjVu3Spec.pdf
- ^ https://sourceforge.net/projects/djvu
- ^ Extensis. «Компания - О компании - LizardTech» . www.lizardtech.com .
- ^ а б "Селартем, Инк.: Информация о частной компании - Блумберг" . www.bloomberg.com .
- ^ «会 社 情報 - Cuminas Corporation» . www.cuminas.jp . Архивировано из оригинала на 2018-01-15 . Проверено 14 января 2018 .
- ^ «Обзор компании - Celartem Technology, Inc.» .
- ^ «Celartem Technology объявляет о слиянии американских холдингов - Extensis.com» . Архивировано из оригинала на 2018-01-15 . Проверено 14 января 2018 .
- ^ "Селартем Технолоджи Инк.: Информация о частной компании - Блумберг" . www.bloomberg.com .
- ^ «Celartem продает плагины Extensis, LizardTech и XTensions для onOne Software - общая картина - широкоформатная печать» . bigpicture.net .
- ^ Руководство для Xerox / Visioneer OneTouch , широко используемого программного обеспечения для сканирования для бизнеса и дома, демонстрирующего поддержку нескольких форматов файлов, но не DjVu.
- ^ Тестовый файл DjVu . Щелкните изображение на странице, чтобы открыть файл на компьютере с поддержкой формата .djvu.
- ^ «Форматы файлов изображений - OLPC» . Wiki.laptop.org . Проверено 9 сентября 2008 .
- ^ "Файлы djvu для новых загрузок" , Брюстер Кале, 26 февраля 2016 г.
- ^ Wikimedia Commons. Объем проекта: PDF и DjVu .
Внешние ссылки
- Коллекция документов DjVu (в основном разделенных)
- Сайт DjVuLibre
- Сайт DjVu.js Viewer, который можно использовать с текущими версиями Firefox и Chrome.
- pdf2djvu Инструменты Якуба Вилка
- djvu.org (поддерживается анонимным веб-мастером)
- djvu.com («Вселенная DjVu») (Caminova Corporation)
- Cuminas Corporation - Загрузки программного обеспечения
- Cuminas DjVu SDK Библиотека декодера / кодировщика DjVu
- Фактическая ссылка на документ DjVu (2001 г.)