Из Википедии, бесплатной энциклопедии
  (Перенаправлено с Djvu )
Перейти к навигации Перейти к поиску

DjVu ( / ˌ д ʒ ɑ v ¯u / DAY -zhah- VOO , как французский « дежавю » [3] ) представляет собой компьютерный формат файла предназначен в основном для хранения отсканированных документов , особенно те , которые содержат комбинацию текста, линейные чертежи , индексированные цветные изображения и фотографии. Он использует такие технологии, как разделение слоев изображения текста и фона / изображений, прогрессивная загрузка , арифметическое кодирование и сжатие с потерями для битонального ( монохромного)) изображений. Это позволяет хранить высококачественные читаемые изображения на минимальном пространстве, чтобы их можно было сделать доступными в Интернете .

DjVu рекламировался как предоставляющий файлы меньшего размера, чем PDF, для большинства отсканированных документов. [4] Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 КБ, черно-белые технические статьи сжимаются до 15–40 КБ, а древние рукописи сжимаются примерно до 100 КБ; для удовлетворительного изображения JPEG обычно требуется 500 КБ. [5] Как и PDF, DjVu может содержать текстовый слой OCR , что упрощает выполнение операций копирования и вставки, а также текстового поиска.

Доступны бесплатные создатели, манипуляторы, конвертеры, плагины для веб-браузеров и программы просмотра на рабочем столе. [3] DjVu поддерживается рядом программ для просмотра многоформатных документов и программ для чтения электронных книг в Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ), Android (FBReader, EBookDroid, PocketBook).

История [ править ]

Технология DjVu была первоначально разработана Янном ЛеКуном , Леоном Ботту , Патриком Хаффнером , Полом Г. Ховардом , Патрисом Симардом и Йошуа Бенжио в AT&T Labs с 1996 по 2001 год [5].

До стандартизации PDF в 2008 году [6] [7] DjVu считался лучшим из-за того, что это открытый формат файла в отличие от проприетарной природы PDF в то время. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная простота преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в своем выступлении в 2004 году. on IT Conversations обсудили преимущества упрощения доступа к файлам DjVu. [8] [9]

Библиотека DjVu, распространяемая как часть пакета с открытым исходным кодом DjVuLibre , стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется исходными разработчиками DjVu с 2002 года. [10]

Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была внесена в 2005 году.

Роль в экосистеме программного обеспечения [ править ]

Основным использованием формата DjVu было электронное распространение документов с качеством, сопоставимым с качеством печатных документов. Поскольку эта ниша также является основным направлением использования PDF-файлов, эти два формата неизбежно стали конкурентами. Однако следует отметить, что эти два формата подходят к проблеме доставки документов с высоким разрешением по-разному: PDF в первую очередь кодирует графику и текст как векторизованные данные, тогда как DjVu в первую очередь кодирует их как изображения растровых изображений. Это означает, что PDF возлагает бремя рендеринга документа на читателя, тогда как DjVu возлагает это бремя на создателя.

В течение ряда лет, значительно совпадающих с периодом разработки DjVu, не существовало программ просмотра PDF для бесплатных операционных систем - особым камнем преткновения была визуализация векторизованных шрифтов, которые необходимы для сочетания файлов небольшого размера с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для решения которой было доступно бесплатное программное обеспечение, были предложения, что движение за свободное программное обеспечение должно использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе не сильно отличается от рендеринга для драйвера принтера для конкретного устройства, и DjVu в крайнем случае может быть сгенерирован из сканированных бумажных носителей. Однако когда FreeType2.0 в 2000 году начал обеспечивать рендеринг всех основных форматов векторизованных шрифтов, это специфическое преимущество DjVu начало исчезать.

В 2000-х годах, с ростом всемирной паутины и до широкого распространения широкополосной связи , DjVu часто использовался цифровыми библиотеками в качестве предпочтительного формата благодаря его интеграции с таким программным обеспечением, как Greenstone [11] и Internet Archive , [12] ] плагины для браузера, которые обеспечивали расширенный просмотр в Интернете, меньший размер файла для сопоставимого качества сканирования книг и других документов с большим количеством изображений [13], а также поддержку встраивания и поиска полного текста из OCR . [14] [15] Некоторые функции, такие как предварительный просмотр эскизов, были позже интегрированы в программу чтения книг Интернет-архива.[16] и просмотр DjVu был объявлен устаревшим, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживатьс ними плагины NPAPI и DjVu. [17]

DjVu.js Viewer пытается заменить отсутствующие плагины.

Технический обзор [ править ]

Файловая структура [ править ]

Формат файла DjVu основан на формате файла обмена и состоит из иерархически организованных блоков. Структуре IFF предшествует 4-байтовое AT&T магическое число . Ниже приведен один FORMфрагмент с вторичным идентификатором либо DJVUили DJVMдля одной страницы или нескольких страниц документа, соответственно.

Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: один файл для каждой страницы плюс несколько файлов с общими фрагментами.

Типы чанков [ править ]

Сжатие [ править ]

DjVu разделяет одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Фоновые изображения и изображения переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение с высоким разрешением (например, 300 точек на дюйм), и обычно это место, где хранится текст. Затем изображения фона и переднего плана сжимаются с использованием алгоритма сжатия на основе вейвлетов под названием IW44. [5] Изображение маски сжимается с использованием метода JB2 (аналогично JBIG2). Метод кодирования JB2 идентифицирует почти идентичные формы на странице, например, несколько вхождений определенного символа с заданным шрифтом, стилем и размером. Он сжимает растровое изображение каждой уникальной формы отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо того, чтобы сжимать букву «е» в заданном шрифте несколько раз, он сжимает букву «е» один раз (как сжатое растровое изображение), а затем записывает каждое место на странице, где оно встречается.

При желании эти формы могут быть сопоставлены с кодами UTF-8 (вручную или потенциально с помощью системы распознавания текста ) и сохранены в файле DjVu. Если это сопоставление существует, можно выделить и скопировать текст.

Так как JBIG2 , была основана на Jb2, [ править ] оба метода сжатия имеют те же проблемы при выполнении сжатия с потерями. Числа могут быть заменены аналогичными числами (например, замена 6 на 8), если текст был отсканирован с низким разрешением до сжатия с потерями.

Лицензирование формата [ править ]

DjVu - это открытый формат файла с патентами. [4] Публикуется спецификация формата файла, а также исходный код справочной библиотеки. [4] Авторы оригинала распространяют реализацию с открытым исходным кодом под названием « DjVuLibre » под Стандартной общественной лицензией GNU . Права на коммерческое развитие программного обеспечения для кодирования, были переданы в различные компании на протяжении многих лет, в том числе AT & T Corporation , LizardTech , [18] Celartem [19] и Cuminas . [20]

Celartem приобрела LizardTech и Extensis. [21] [22] [19] [23] [24]

Поддержка [ править ]

Программное обеспечение для сканирования и просмотра широко не поддерживает DjVu. [25] Хотя программы просмотра могут быть загружены, открытие файлов DjVu по умолчанию не реализовано в большинстве операционных систем, за исключением большинства дистрибутивов Linux . [26]

В 2002 году формат файла DjVu был выбран Интернет-архивом в качестве формата, в котором его проект «Миллион книг» предоставляет отсканированные общедоступные книги в Интернете (наряду с TIFF и PDF). [27] В феврале 2016 года Интернет-архив объявил, что DjVu больше не будет использоваться для новых загрузок. [28]

Wikimedia Commons , медиа-репозиторий, используемый, среди прочего, Wikipedia , условно разрешает медиафайлы PDF и DjVu. [29]

См. Также [ править ]

  • Международная структура взаимодействия изображений (IIIF)
  • JBIG2
  • Сравнение форматов электронных книг

Ссылки [ править ]

  1. ^ a b c d e f g h i Версия формата файла DjVu , Автор: Джим Райл, Опубликовано: Пт 23 февраля 2007 г., 1:08, PlanetDjVu
  2. ^ "Лицензирование DjVu" . Страница DjVu Sourceforge . Sourceforge.net. 2011-08-17 . Проверено 21 сентября 2011 .
  3. ^ a b «DjVu.org - главное меню для ресурсов djvu» . djvu.org . Проверено 2 июля 2017 .
  4. ^ a b c "Что такое DjVu - DjVu.org" . DjVu.org . Проверено 5 марта 2009 .
  5. ^ a b c Леон Ботту; Патрик Хаффнер; Пол Дж. Ховард; Патрис Симард; Йошуа Бенжио; Янн Ле Кун (1998). «Сжатие высококачественных изображений документов с помощью DjVu, 7 (3): 410–425» (PDF) . Журнал электронного изображения .
  6. ^ «ISO 32000-1: 2008 - Управление документами - Формат переносимых документов - Часть 1: PDF 1.7» . Iso.org. 2008-07-01 . Проверено 21 февраля 2010 .
  7. ^ Орион, Иган (2007-12-05). «PDF 1.7 утвержден как ISO 32000» . Спрашивающий . Спрашивающий . Архивировано из оригинального 13 декабря 2007 года . Проверено 5 декабря 2007 .
  8. Brewster Kahle (16 декабря 2004 г.). «Универсальный доступ ко всем знаниям» (аудио; речь в 1 час: 31 мин: 20 сек) . Разговорная сеть.
  9. ^ "LizardTech, чтобы открыть программу просмотра Java DjVu" . Подключение ECM . 7 декабря 2004 . Проверено 18 августа 2017 года .
  10. ^ «DjVuLibre: библиотека и программа просмотра DjVu с открытым исходным кодом» . djvu.sourceforge.net .
  11. ^ «Проекты и демонстрации NZDL» .
  12. ^ Эрик Рамси (2018-09-05). «Google Книги против DjVu в Интернет-архиве» .
  13. ^ Эрик Рамси (10.09.2018). «Снова DjVu» .
  14. ^ Джефф Каплан (2004-12-09). «Новая книжная коллекция: цветные сканы, djvu, немного pdf» .
  15. ^ Януш С. Бень (2011-09-12). «Эффективный поиск по скрытому тексту больших документов DjVu» .
  16. Эрик Рамси (10.09.2010). "Просмотр эскизов в программе чтения книг Интернет-архива" .
  17. ^ Брюстер Кейл и Джефф Каплан (2016-02-26). «Файлы DjVu для новых загрузок» .
  18. ^ Extensis. «Компания - О компании - LizardTech» . www.lizardtech.com .
  19. ^ a b "Селартем, Инк.: Информация о частной компании - Блумберг" . www.bloomberg.com .
  20. ^ "会 社 情報 - Cuminas Corporation" . www.cuminas.jp . Архивировано из оригинала на 2018-01-15 . Проверено 14 января 2018 .
  21. ^ «Обзор компании - Celartem Technology, Inc» .
  22. ^ "Celartem Technology объявляет о слиянии американских холдингов - Extensis.com" . Архивировано из оригинала на 2018-01-15 . Проверено 14 января 2018 .
  23. ^ "Celartem Technology Inc.: Информация о частной компании - Bloomberg" . www.bloomberg.com .
  24. ^ «Celartem продает плагины Extensis, LizardTech и XTensions для onOne Software - Общая картина - Широкоформатная печать» . bigpicture.net .
  25. ^ Руководство для Xerox / Visioneer OneTouch , широко используемого программного обеспечения для сканирования для бизнеса и дома, демонстрирующего поддержку нескольких форматов файлов, но не DjVu.
  26. ^ Тестовый файл DjVu . Щелкните изображение на странице, чтобы открыть файл на компьютере с поддержкой формата .djvu.
  27. ^ «Форматы файлов изображений - OLPC» . Wiki.laptop.org . Проверено 9 сентября 2008 .
  28. ^ "Файлы djvu для новых загрузок" , Брюстер Кале, 26 февраля 2016 г.
  29. ^ Wikimedia Commons. Объем проекта: PDF и DjVu .

Внешние ссылки [ править ]

  • Коллекция документов DjVu (в основном разделенных)
  • Сайт DjVuLibre
  • Сайт DjVu.js Viewer, который можно использовать с текущими версиями Firefox и Chrome.
  • pdf2djvu Инструменты Якуба Вилка
  • djvu.org (поддерживается анонимным веб-мастером)
  • djvu.com («Вселенная DjVu») (Caminova Corporation)
  • Cuminas Corporation - Загрузки программного обеспечения
  • Cuminas DjVu SDK Библиотека декодера / кодировщика DjVu
  • Фактическая ссылка на документ DjVu (2001 г.)