JPEG

JPEG или JPG ( / dʒ eɪ р ɛ ɡ / ДЖЭЙ -PEG ) ^[2] является широко используемым методом сжатия с потерями для цифровых изображений , особенно для тех изображений , полученных с помощью цифровой фотографии . Степень сжатия можно регулировать, что позволяет выбирать компромисс между размером хранилища и качеством изображения . JPEG обычно обеспечивает сжатие 10: 1 с незначительной потерей качества изображения. ^[3] С момента своего появления в 1992 году JPEG был наиболее широко используемым стандартом сжатия изображений в мире.^[4]^[5] и наиболее широко используемый формат цифровых изображений: по состоянию на 2015 год ежедневно создавалось несколько миллиардов изображений JPEG.^[6]

JPEG

Фотография европейской дикой кошки с повышением качества слева направо
Расширение имени файла	`.jpg`, `.jpeg`, `.jpe` `.jif`, `.jfif`,`.jfi`
Тип интернет-СМИ	изображение / JPEG
Типовой код	`JPEG`
Единый идентификатор типа (UTI)	public.jpeg
Магическое число	`ff d8 ff`
Разработано	Объединенная группа экспертов по фотографии , IBM , Mitsubishi Electric , AT&T , Canon Inc. , ^[1] Исследовательская группа ITU-T 16
Первый выпуск	18 сентября 1992 г . ; 28 лет назад ( 1992-09-18 )
Тип формата	Lossy сжатия изображения в формате
Стандарт	ITU-T T.81, ITU-T T.83, ITU-T T.84, ITU-T T.86, ISO / IEC 10918
Веб-сайт	www .jpeg .org / jpeg /

">

Воспроизвести медиа

Постоянно изменяемое сжатие JPEG (от Q = 100 до Q = 1) для КТ брюшной полости

Термин «JPEG» является аббревиатурой от Joint Photographic Experts Group , которая создала стандарт в 1992 году. Основой для JPEG является дискретное косинусное преобразование (DCT) ^[1], метод сжатия изображений с потерями, который был впервые предложен Насир Ахмед в 1972 году. ^[7] JPEG был в значительной степени ответственен за распространение цифровых изображений и цифровых фотографий в Интернете, а затем и в социальных сетях . ^[8]

Сжатие JPEG используется во многих форматах файлов изображений . JPEG / Exif - наиболее распространенный формат изображения, используемый цифровыми фотоаппаратами и другими устройствами захвата фотографических изображений; наряду с JPEG / JFIF , это наиболее распространенный формат для хранения и передачи фотографических изображений во всемирной паутине . ^[9] Эти варианты формата часто не различаются и называются просто JPEG.

Тип мультимедиа MIME для JPEG - image / jpeg , за исключением старых версий Internet Explorer , которые предоставляют MIME-тип изображения / pjpeg при загрузке изображений JPEG. ^[10] файлы JPEG обычно имеют расширение имени файла в .jpgили .jpeg. JPEG / JFIF поддерживает максимальный размер изображения 65 535 × 65 535 пикселей ^[11], следовательно, до 4 гигапикселей при соотношении сторон 1: 1. В 2000 году группа JPEG представила формат, который должен был стать преемником, JPEG 2000 , но он не смог заменить исходный JPEG в качестве доминирующего стандарта изображения. ^[12]

История

Задний план

Исходная спецификация JPEG, опубликованная в 1992 году, реализует процессы из различных более ранних исследовательских работ и патентов, на которые ссылаются CCITT (ныне ITU-T , через ITU-T Study Group 16 ) и Joint Photographic Experts Group. ^[1] Основной основой алгоритма сжатия JPEG с потерями является дискретное косинусное преобразование (DCT) ^[1]^[13], которое впервые было предложено Насиром Ахмедом в качестве метода сжатия изображений в 1972 году. ^[7]^[13] Ахмед разработал методику сжатия изображений. Практический алгоритм DCT с Т. Натараджаном из Университета штата Канзас и К.Р. Рао из Техасского университета в Арлингтоне в 1973 г. ^[7] Их основополагающая статья 1974 г. ^[14] цитируется в спецификации JPEG вместе с несколькими более поздними исследовательскими работами, которые сделали дальнейшее работа над DCT, в том числе статья Wen-Hsiung Chen, CH Smith и SC Fralick 1977 года, в которой описан быстрый алгоритм DCT, ^[1]^[15], а также статья 1978 года NJ Narasinha и SC Fralick, и статья 1984 г. Б.Г. Ли. ^[1] В спецификации также цитируется статья Вэнь-Сюн Чена и В.К. Пратта 1984 года, оказавшая влияние на его алгоритм квантования , ^[1]^[16] и статью Дэвида А. Хаффмана 1952 года об алгоритме кодирования Хаффмана . ^[1]

В спецификации JPEG цитируются патенты нескольких компаний. Следующие патенты легли в основу алгоритма арифметического кодирования . ^[1]

IBM
- Патент США 4652856 - 4 февраля 1986 - Коттаппурам М.А. Мохиуддин и Йорма Дж. Риссанен - Многоалфавитный арифметический код без умножения.
- Патент США 4905297 - 27 февраля 1990 г. - Дж. Лэнгдон, Дж. Л. Митчелл, У. Б. Пеннебейкер и Йорма Дж. Риссанен - Система кодирования и декодирования арифметических кодов.
- Патент США 4935882 - 19 июня 1990 г. - У. Б. Пеннебейкер и Дж. Л. Митчелл - Вероятностная адаптация для арифметических кодеров.
Mitsubishi Electric
- JP H02202267 ( 1021672 ) - 21 января 1989 - Тошихиро Кимура, Сигенори Кино, Фумитака Оно, Масаюки Ёсида - Система кодирования
- JP H03247123 ( 2-46275 ) - 26 февраля 1990 г. - Фумитака Оно, Томохиро Кимура, Масаюки Ёсида и Сигенори Кино - Устройство кодирования и метод кодирования

В спецификации JPEG также упоминаются три других патента IBM. Другие компании, упомянутые в качестве держателей патентов, включают AT&T (два патента) и Canon Inc. ^[1]. В списке отсутствует патент США № 4698672 , поданный Вен-Сюн Ченом и Дэниелом Дж. Кленке из Compression Labs в октябре 1986 года. Алгоритм сжатия изображений на основе DCT, который позже станет причиной разногласий в 2002 г. (см. Споры о патентах ниже). ^[17] Тем не менее, спецификация JPEG процитировала две более ранние исследовательские работы Вен-Сюн Чена, опубликованные в 1977 и 1984 годах. ^[1]

Стандарт JPEG

«JPEG» означает Joint Photographic Experts Group, название комитета, который создал стандарт JPEG, а также другие стандарты кодирования неподвижных изображений. «Джойнт» означает ISO TC97 WG8 и CCITT SGVIII. Основанная в 1986 году, группа разработала стандарт JPEG в конце 1980-х годов. Среди нескольких методов кодирования с преобразованием , которые они исследовали, они выбрали дискретное косинусное преобразование (DCT), поскольку это был наиболее эффективный практический метод сжатия. Группа опубликовала стандарт JPEG в 1992 году. ^[4]

В 1987 году ISO TC 97 стал ISO / IEC JTC1, а в 1992 году CCITT стал ITU-T. В настоящее время на стороне JTC1 JPEG является одной из двух подгрупп Объединенного технического комитета 1 ISO / IEC , Подкомитета 29, Рабочей группы 1 ( ISO / IEC JTC 1 / SC 29 / WG 1) - под названием « Кодирование неподвижных изображений» . ^[18]^[19]^[20] Со стороны МСЭ-Т ИК16 МСЭ-Т является соответствующим органом. Первоначальная группа JPEG была организована в 1986 году ^[21], выпустив первый стандарт JPEG в 1992 году, который был утвержден в сентябре 1992 года как Рекомендация ITU-T T.81 ^[22], а в 1994 году как ISO / IEC 10918-1 .

Стандарт JPEG определяет кодек , который определяет, как изображение сжимается в поток байтов и распаковывается обратно в изображение, но не формат файла, используемый для этого потока. ^[23] Стандарты Exif и JFIF определяют обычно используемые форматы файлов для обмена сжатыми изображениями JPEG.

Стандарты JPEG официально называются « Информационные технологии» - цифровое сжатие и кодирование неподвижных изображений с непрерывным тоном . ИСО / МЭК 10918 состоит из следующих частей:

Цифровое сжатие и кодирование неподвижных изображений с непрерывным тоном - Части ^[19]^[21]^[24]
Часть	Стандарт ISO / IEC	Рек. МСЭ-Т.	Дата первого публичного выпуска	Последняя поправка	Заголовок	Описание
Часть 1	ИСО / МЭК 10918-1: 1994	Т.81 (09/92)	18 сен.1992 г.		Требования и рекомендации
Часть 2	ИСО / МЭК 10918-2: 1995	Т.83 (11/94)	11 нояб.1994 г.		Тестирование на соответствие	Правила и проверки на соответствие программного обеспечения (части 1).
Часть 3	ИСО / МЭК 10918-3: 1997	Т.84 (07/96)	03 июля 1996 г.	1 апреля 1999 г.	Расширения	Набор расширений для улучшения Части 1, включая формат файла обмена неподвижными изображениями (SPIFF). ^[25]
Часть 4	ИСО / МЭК 10918-4: 1999	Т.86 (06/98)	18 июня 1998 г.	29 июня 2012 г.	Регистрация профилей JPEG, профилей SPIFF, тегов SPIFF, цветовых пространств SPIFF, маркеров APPn, типов сжатия SPIFF и органов регистрации (REGAUT)	методы регистрации некоторых параметров, используемых для расширения JPEG
Часть 5.	ИСО / МЭК 10918-5: 2013	T.871 (05/11)	14 мая 2011 г.		Формат обмена файлами JPEG (JFIF)	Популярный формат, который был де-факто форматом файлов для изображений, закодированных по стандарту JPEG. В 2009 году Комитет JPEG официально учредил Специальную группу для стандартизации JFIF как JPEG Part 5. ^[26]
Часть 6	ИСО / МЭК 10918-6: 2013	T.872 (12.06)	Июнь 2012 г.		Применение в системах печати	Определяет подмножество функций и инструментов приложения для обмена изображениями, закодированными в соответствии с ISO / IEC 10918-1, для печати.
Часть 7	ИСО / МЭК 10918-7: 2019	Т.873 (05/19)	Май 2019		Цифровое сжатие и кодирование неподвижных изображений с непрерывным тоном	Предоставляет справочное программное обеспечение для технологии кодирования, указанной в Рекомендации ITU-T T.81 - ISO / IEC 10918-1. Хотя эталонные реализации также предоставляют кодировщик, проверка соответствия их процесса кодирования выходит за рамки данной Спецификации.

Ecma International TR / 98 определяет формат обмена файлами JPEG (JFIF); первое издание было опубликовано в июне 2009 года. ^[27]

Патентные споры

В 2002 году Forgent Networks заявила, что владеет и будет обеспечивать соблюдение патентных прав на технологию JPEG, вытекающих из патента, который был подан 27 октября 1986 года и выдан 6 октября 1987 года: патент США 4698672 , выданный Вен- Сюн Чен и Даниэль Дж. Кленке. ^[17]^[28] В то время как Forgent не владел лабораториями сжатия, Чен позже продал лаборатории сжатия Forgent, прежде чем Чен перешел на работу в Cisco . Это привело к тому, что Forgent получил право собственности на патент. ^[17] Объявление Форгента в 2002 году произвело фурор, напоминающий попытки Unisys отстоять свои права на стандарт сжатия изображений GIF.

Комитет JPEG исследовал патентных претензий в 2002 году , и высказали мнение о том , что они были признаны недействительными по уровню техники , ^[29] мнение разделяют различными экспертами. ^[17]^[30] В патенте описан алгоритм сжатия изображения, основанный на дискретном косинусном преобразовании (DCT), ^[17] метод сжатия изображений с потерями, который был взят из статьи 1974 года Насира Ахмеда, Т. Натараджана и К.Р. Рао . ^[1]^[13]^[14] Вен-Сюн Чен продолжил развитие своей техники DCT, описав быстрый алгоритм DCT в статье 1977 г. с CH Smith и SC Fralick. ^[15]^[17] В спецификации JPEG 1992 года цитируются как статья Ахмеда 1974 года, так и статья Чена 1977 года для его алгоритма DCT, а также статья 1984 года Чена и В.К. Пратта для его алгоритма квантования . ^[1]^[16] Compression Labs была основана Ченом и стала первой компанией, коммерциализировавшей технологию DCT. ^[31] К тому времени, когда Чен подал в Klenke патент на алгоритм сжатия изображений на основе DCT в 1986 году, большая часть того, что позже станет стандартом JPEG, уже было сформулировано в предшествующей литературе. ^[17] Представитель JPEG Ричард Кларк также утверждал, что сам Чен входил в состав одного из комитетов JPEG, но Форгент отрицал это утверждение. ^[17]

В период с 2002 по 2004 год Forgent смогла получить около 105 миллионов долларов США, выдав лицензию на свои патенты примерно 30 компаниям. В апреле 2004 года Forgent подал в суд на 31 другую компанию с требованием обеспечить дальнейшие лицензионные платежи. В июле того же года консорциум из 21 крупной компьютерной компании подал встречный иск с целью признания патента недействительным. Кроме того, Microsoft подала отдельный иск против Forgent в апреле 2005 года. ^[32] В феврале 2006 года Управление США по патентам и товарным знакам согласилось пересмотреть патент Forgent в формате JPEG по запросу Public Patent Foundation . ^[33] 26 мая 2006 г. ВПТЗ США признало патент недействительным на основании предшествующего уровня техники. ВПТЗ США также обнаружило, что Forgent знал об известном уровне техники, но намеренно не сообщил об этом в Патентное ведомство. Это делает маловероятным успех любого призыва к восстановлению патента. ^[34]

Forgent также обладает аналогичным патентом, выданным Европейским патентным ведомством в 1994 году, хотя неясно, насколько он подлежит исполнению. ^[35]

По состоянию на 27 октября 2006 г. 20-летний срок действия патента в США, по-видимому, истек, и в ноябре 2006 г. Forgent согласился отказаться от исполнения патентных требований в отношении использования стандарта JPEG. ^[36]

Комитет JPEG имеет в качестве одной из своих явных целей, чтобы их стандарты (в частности, их базовые методы) были реализованы без уплаты лицензионных сборов, и они получили соответствующие лицензионные права на свой стандарт JPEG 2000 от более чем 20 крупных организаций.

Начиная с августа 2007 года другая компания, Global Patent Holdings, LLC, заявила, что ее патент (патент США 5 253 341 ), выданный в 1993 году, нарушается путем загрузки изображений JPEG на веб-сайт или по электронной почте. Если не будет признан недействительным, этот патент может применяться к любому веб-сайту, на котором отображаются изображения в формате JPEG. Патент находился на повторной экспертизе в Управлении по патентам и товарным знакам США с 2000 по 2007 год; в июле 2007 г. Патентное ведомство отозвало все первоначальные притязания на патент, но обнаружило, что дополнительное притязание, предложенное Global Patent Holdings (п. 17), является действительным. ^[37] Global Patent Holdings затем подала ряд исков на основании пункта 17 своего патента.

В своих первых двух судебных исках после повторного рассмотрения, поданных в Чикаго, штат Иллинойс, Global Patent Holdings предъявила иск против Green Bay Packers , CDW , Motorola , Apple , Orbitz , Officemax , Caterpillar , Kraft и Peapod в качестве ответчиков. Третий иск был подан 5 декабря 2007 г. в Южной Флориде против ADT Security Services , AutoNation , Florida Crystals Corp., HearUSA, MovieTickets.com , Ocwen Financial Corp. и Tire Kingdom , а четвертый иск 8 января 2008 г. в Южном Флорида против Boca Raton Resort & Club . Пятый иск был подан против Global Patent Holdings в Неваде. Этот иск был подан компанией Zappos.com , Inc., которой якобы угрожала компания Global Patent Holdings, и требовала судебного объявления о том, что патент «341» недействителен и не нарушается.

Global Patent Holdings также использовала патент «341», чтобы подать в суд или запугать откровенных критиков широких программных патентов, включая Грегори Агарониана ^[38] и анонимного оператора блога веб-сайта, известного как « Патентный тролль-трекер ». ^[39] 21 декабря 2007 г. патентный юрист Вернон Фрэнсиссен из Чикаго обратился в Бюро по патентам и товарным знакам США с просьбой пересмотреть единственную оставшуюся формулу патента «341» на основе нового известного уровня техники. ^[40]

5 марта 2008 г. Управление по патентам и товарным знакам США согласилось пересмотреть патент «341», обнаружив, что новый уровень техники вызывает новые существенные вопросы относительно действительности патента. ^[41] В свете повторной экспертизы обвиняемые нарушители в четырех из пяти ожидающих рассмотрения исков подали ходатайства о приостановлении (приостановлении) рассмотрения их дел до завершения рассмотрения Управлением США по патентам и товарным знакам патента «341». 23 апреля 2008 года судья, председательствовавший в двух судебных процессах в Чикаго, штат Иллинойс, удовлетворил ходатайства по этим делам. ^[42] 22 июля 2008 г. Патентное ведомство выпустило первое «решение ведомства» второй повторной экспертизы, признав иск недействительным на основании девятнадцати отдельных оснований. ^[43] 24 ноября 2009 г. было выдано свидетельство о повторной экспертизе, отменяющее все претензии.

Начиная с 2011 года и до начала 2013 года, организация, известная как Princeton Digital Image Corporation ^[44], базирующаяся в Восточном Техасе, начала судиться с большим количеством компаний за предполагаемое нарушение патента США 4 813 056 . Princeton утверждает, что стандарт сжатия изображений JPEG нарушает патент '056 и подал в суд на большое количество веб-сайтов, розничных продавцов, производителей камер и устройств, а также торговых посредников. Патент изначально принадлежал и переуступался General Electric. Срок действия патента истек в декабре 2007 года, но Принстон подал в суд на большое количество компаний за «прошлое нарушение» этого патента. (Согласно патентным законам США, патентообладатель может подать в суд за «прошлое нарушение» за шесть лет до подачи иска, поэтому Принстон теоретически мог продолжать предъявлять иски компаниям до декабря 2013 года.) По состоянию на март 2013 года в Принстоне находились иски, находящиеся на рассмотрении в Нью-Йорк и Делавэр против более 55 компаний. Причастность General Electric к иску неизвестна, хотя протоколы судебных заседаний показывают, что она передала патент Принстону в 2009 году и сохраняет определенные права на патент. ^[45]

Типичное использование

Алгоритм сжатия JPEG лучше всего работает с фотографиями и картинами реалистичных сцен с плавными вариациями тона и цвета. Для использования в Интернете, где уменьшение объема данных, используемых для изображения, важно для адаптивной презентации, преимущества сжатия JPEG делают его популярным. JPEG / Exif также является наиболее распространенным форматом, сохраняемым цифровыми камерами.

Однако JPEG плохо подходит для штриховых рисунков и другой текстовой или пиктограммы, где резкие контрасты между соседними пикселями могут вызвать заметные артефакты. Такие изображения лучше сохранять в графическом формате без потерь, таком как TIFF , GIF или PNG . ^[46] Стандарт JPEG включает режим кодирования без потерь, но этот режим не поддерживается большинством продуктов.

Поскольку типичное использование JPEG - это метод сжатия с потерями, который снижает точность изображения, он не подходит для точного воспроизведения данных изображения (например, некоторых научных и медицинских приложений для обработки изображений и некоторых технических работ по обработке изображений ).

JPEG также не очень хорошо подходит для файлов, которые будут подвергаться многократному редактированию, поскольку некоторое качество изображения теряется каждый раз, когда изображение повторно сжимается, особенно если изображение обрезано или сдвинуто, или если параметры кодирования изменены - подробности см. В разделе Потеря цифрового поколения . Чтобы предотвратить потерю информации об изображении во время последовательного и повторяющегося редактирования, первое редактирование может быть сохранено в формате без потерь, впоследствии отредактировано в этом формате, а затем опубликовано в формате JPEG для распространения.

Сжатие JPEG

JPEG использует форму сжатия с потерями, основанную на дискретном косинусном преобразовании (DCT). Эта математическая операция преобразует каждый кадр / поле видеоисточника из пространственной (2D) области в частотную область (также известную как область преобразования). Модель восприятия, в некоторой степени основанная на психовизуальной системе человека, отбрасывает высокочастотную информацию, то есть резкие переходы интенсивности и цветового тона . В области преобразования процесс сокращения информации называется квантованием. Проще говоря, квантование - это метод оптимального уменьшения масштаба большого числа (с разными вхождениями каждого числа) в меньший, а область преобразования - удобное представление изображения, поскольку высокочастотные коэффициенты вносят меньший вклад. к общей картине, чем другие коэффициенты, характерны небольшие значения с высокой сжимаемостью. Затем квантованные коэффициенты упорядочиваются и без потерь упаковываются в выходной битовый поток . Почти все программные реализации JPEG позволяют пользователю управлять степенью сжатия (а также другими дополнительными параметрами), позволяя пользователю выбирать между качеством изображения и меньшим размером файла. Во встроенных приложениях (таких как miniDV, в котором используется аналогичная схема сжатия DCT) параметры предварительно выбираются и фиксируются для приложения.

Метод сжатия обычно с потерями, что означает, что некоторая информация об исходном изображении теряется и не может быть восстановлена, что может повлиять на качество изображения. В стандарте JPEG есть дополнительный режим без потерь . Однако этот режим широко не поддерживается в продуктах.

Существует также чересстрочный прогрессивный формат JPEG, в котором данные сжимаются за несколько проходов с более высокой детализацией. Это идеально подходит для больших изображений, которые будут отображаться при загрузке через медленное соединение, обеспечивая разумный предварительный просмотр после получения только части данных. Однако поддержка прогрессивных JPEG не универсальна. Когда прогрессивные JPEG-файлы принимаются программами, которые их не поддерживают (например, версиями Internet Explorer до Windows 7 ) ^[47], программное обеспечение отображает изображение только после того, как оно было полностью загружено.

Редактирование без потерь

Ряд изменений изображения JPEG может быть выполнен без потерь (то есть без повторного сжатия и связанной с этим потери качества) до тех пор, пока размер изображения кратен 1 блоку MCU (минимальная кодированная единица) (обычно 16 пикселей в обоих направлениях, для подвыборки цветности 4: 2: 0 ). Утилиты, которые это реализуют, включают:

jpegtran и его графический интерфейс Jpegcrop.
IrfanView использует «Обрезка без потерь JPG (подключаемый модуль)» и «Вращение без потерь JPG (подключаемый модуль)», которые требуют установки подключаемого модуля JPG_TRANSFORM.
Программа просмотра изображений FastStone использует функции «Обрезка без потерь в файл» и «Поворот без потерь в формате JPEG».
XnViewMP с использованием «преобразований без потерь JPEG».
ACDSee поддерживает вращение без потерь (но не обрезку без потерь) с опцией «Принудительно выполнять операции JPEG без потерь».

Блоки можно поворачивать с шагом 90 градусов, переворачивать по горизонтальной, вертикальной и диагональной осям и перемещать по изображению. Не все блоки из исходного изображения нужно использовать в модифицированном.

Верхний и левый край изображения JPEG должны лежать на границе блока 8 × 8 пикселей, но нижний и правый край не должны этого делать. Это ограничивает возможные операции кадрирования без потерь , а также предотвращает переворачивание и поворот изображения, нижний или правый край которого не лежит на границе блока для всех каналов (потому что край окажется сверху или слева, где, как упоминалось выше, граница блока обязательна).

Повороты, при которых ширина и высота изображения не кратны 8 или 16 (в зависимости от субдискретизации цветности), не без потерь. Вращение такого изображения вызывает пересчет блоков, что приводит к потере качества. ^[48]

При использовании обрезки без потерь, если нижняя или правая сторона области обрезки не находится на границе блока, тогда остальные данные из частично используемых блоков все равно будут присутствовать в обрезанном файле и могут быть восстановлены. Также возможно преобразование между базовым и прогрессивным форматами без потери качества, поскольку единственная разница заключается в порядке, в котором коэффициенты помещаются в файл.

Кроме того, несколько изображений JPEG можно объединить без потерь, если они были сохранены с одинаковым качеством и края совпадали с границами блоков.

Файлы JPEG

Формат файла, известный как «JPEG Interchange Format» (JIF), указан в Приложении B стандарта. Однако этот «чистый» формат файла используется редко, в первую очередь из-за сложности программирования кодировщиков и декодеров, которые полностью реализуют все аспекты стандарта, а также из-за определенных недостатков стандарта:

Определение цветового пространства
Регистрация подвыборки компонентов
Определение соотношения сторон пикселя.

Для решения этих проблем было разработано несколько дополнительных стандартов. Первым из них, выпущенным в 1992 году, был формат обмена файлами JPEG (или JFIF), за которым в последние годы последовали формат обмена файлами изображений (Exif) и цветовые профили ICC . Оба этих формата используют фактическую структуру байтов JIF, состоящую из разных маркеров , но, кроме того, используют одну из точек расширения стандарта JIF, а именно маркеры приложений : JFIF использует APP0, а Exif использует APP1. В этих сегментах файла, которые были оставлены для будущего использования в стандарте JIF и не читаются им, эти стандарты добавляют определенные метаданные.

Таким образом, в некотором смысле JFIF является урезанной версией стандарта JIF в том смысле, что он определяет определенные ограничения (например, запрещение всех различных режимов кодирования), в то время как в других отношениях это расширение JIF из-за добавленных метаданные. В документации к исходному стандарту JFIF говорится: ^[49]

Формат обмена файлами JPEG - это минимальный формат файла, который позволяет обмениваться потоками битов JPEG между широким спектром платформ и приложений. Этот минимальный формат не включает никаких дополнительных функций, которые можно найти в спецификации TIFF JPEG или каких-либо форматов файлов для конкретных приложений. И этого не должно быть, поскольку единственная цель этого упрощенного формата - обеспечить обмен сжатыми изображениями JPEG.

Файлы изображений, использующие сжатие JPEG, обычно называются «файлами JPEG» и хранятся в вариантах формата изображения JIF. Большинство устройств захвата изображений (таких как цифровые камеры), которые выводят JPEG, на самом деле создают файлы в формате Exif, формате, стандартизированном в индустрии фотоаппаратов для обмена метаданными. С другой стороны, поскольку стандарт Exif не допускает цветовых профилей, большинство программ для редактирования изображений хранят JPEG в формате JFIF, а также включают сегмент APP1 из файла Exif для включения метаданных почти совместимым способом; стандарт JFIF трактуется несколько гибко. ^[50]

Строго говоря, стандарты JFIF и Exif несовместимы, потому что каждый указывает, что его сегмент маркера (APP0 или APP1 соответственно) появляется первым. На практике большинство файлов JPEG содержат сегмент маркера JFIF, который предшествует заголовку Exif. Это позволяет более старым читателям правильно обрабатывать сегмент JFIF старого формата, в то время как новые считыватели также декодируют следующий сегмент Exif, не требуя, чтобы он появлялся первым.

Расширения файлов JPEG

Большинство расширений имен файлов общих для файлов , использующих сжатие JPEG являются .jpgи .jpeg, хотя .jpe, .jfifи .jifтакже используются. Также возможно встраивание данных JPEG в файлы других типов - файлы с кодировкой TIFF часто включают изображение JPEG как миниатюру основного изображения; файлы MP3 могут содержать обложку в формате JPEG в теге ID3v2 .

Цветовой профиль

Многие файлы JPEG содержат цветовой профиль ICC ( цветовое пространство ). Обычно используемые цветовые профили включают sRGB и Adobe RGB . Поскольку эти цветовые пространства используют нелинейное преобразование, динамический диапазон 8-битного файла JPEG составляет около 11 ступеней ; см. гамма-кривую .

Синтаксис и структура

Изображение JPEG состоит из последовательности сегментов , каждый из которых начинается с маркера , каждый из которых начинается с байта 0xFF, за которым следует байт, указывающий, что это за маркер. Некоторые маркеры состоят только из этих двух байтов; за другими следуют два байта (старший, затем младший), указывающие длину следующих за ними данных полезной нагрузки, специфичных для маркера. (Длина включает два байта длины, но не два байта маркера.) За некоторыми маркерами следуют данные с энтропийным кодированием ; длина такого маркера не включает данные с энтропийным кодом. Обратите внимание, что последовательные байты 0xFF используются в качестве байтов заполнения для целей заполнения , хотя это заполнение байтов должно происходить только для маркеров, следующих сразу за данными сканирования с энтропийным кодированием (подробности см. В разделах B.1.1.2 и E.1.2 спецификации JPEG; в частности: «Во всех случаях, когда маркеры добавляются после сжатых данных, необязательные байты заполнения 0xFF могут предшествовать маркеру»).

Внутри данных с энтропийным кодированием после любого байта 0xFF байт 0x00 вставляется кодировщиком перед следующим байтом, чтобы не было маркера там, где он не предназначен, что предотвращает ошибки кадрирования. Декодеры должны пропускать этот байт 0x00. Этот метод, называемый байтовым заполнением (см. Раздел F.1.2.3 спецификации JPEG), применяется только к данным с энтропийным кодированием, а не к данным полезной нагрузки маркера. Однако обратите внимание, что данные с энтропийным кодом имеют несколько собственных маркеров; в частности, маркеры сброса (от 0xD0 до 0xD7), которые используются для выделения независимых фрагментов энтропийно-кодированных данных, чтобы обеспечить параллельное декодирование, и кодеры могут свободно вставлять эти маркеры сброса через равные промежутки времени (хотя не все кодеры делают это).

Общие маркеры JPEG ^[51]
Короткое имя	Байты	Полезная нагрузка	Имя	Комментарии
ТАК ЧТО Я	0xFF, 0xD8	никто	Начало изображения
SOF0	0xFF, 0xC0	переменный размер	Начало кадра (базовый DCT)	Указывает, что это базовый JPEG на основе DCT, и определяет ширину, высоту, количество компонентов и подвыборку компонентов (например, 4: 2: 0).
SOF2	0xFF, 0xC2	переменный размер	Начало кадра (прогрессивная DCT)	Указывает, что это JPEG на основе прогрессивного DCT, и определяет ширину, высоту, количество компонентов и подвыборку компонентов (например, 4: 2: 0).
DHT	0xFF, 0xC4	переменный размер	Определить таблицы Хаффмана	Задает одну или несколько таблиц Хаффмана.
DQT	0xFF, 0xDB	переменный размер	Определить таблицу (ы) квантования	Задает одну или несколько таблиц квантования.
DRI	0xFF, 0xDD	4 байта	Определить интервал перезапуска	Задает интервал между маркерами RST n в минимальных кодированных единицах (MCU). За этим маркером следуют два байта, указывающие фиксированный размер, поэтому его можно рассматривать как любой другой сегмент переменного размера.
SOS	0xFF, 0xDA	переменный размер	Начало сканирования	Начинает сканирование изображения сверху вниз. В базовых изображениях DCT JPEG обычно выполняется одно сканирование. Изображения прогрессивного формата DCT JPEG обычно содержат несколько сканированных изображений. Этот маркер указывает, какой фрагмент данных он будет содержать, за ним сразу следуют энтропийно-кодированные данные.
RST n	0xFF, 0xD n ( n = 0..7)	никто	Запустить снова	Вставлено каждые r макроблоков, где r - интервал перезапуска, установленный маркером DRI. Не используется, если не было маркера DRI. Три младших бита кода маркера имеют значение от 0 до 7.
ПРИЛОЖЕНИЕ №	0xFF, 0xE n	переменный размер	Зависит от приложения	Например, файл Exif JPEG использует маркер APP1 для хранения метаданных, размещенных в структуре, близкой к TIFF .
COM	0xFF, 0xFE	переменный размер	Комментарий	Содержит текстовый комментарий.
EOI	0xFF, 0xD9	никто	Конец изображения

Существуют и другие маркеры начала кадра, которые вводят другие типы кодировок JPEG.

Поскольку несколько поставщиков могут использовать один и тот же тип маркера APP n, маркеры для конкретных приложений часто начинаются со стандартного имени или имени поставщика (например, «Exif» или «Adobe») или какой-либо другой идентифицирующей строки.

В маркере перезапуска переменные предиктора от блока к блоку сбрасываются, и поток битов синхронизируется с границей байта. Маркеры перезапуска предоставляют средства для восстановления после ошибки битового потока, такой как передача по ненадежной сети или повреждение файла. Поскольку серии макроблоков между маркерами перезапуска могут декодироваться независимо, эти серии могут декодироваться параллельно.

Пример кодека JPEG

Хотя файл JPEG можно кодировать различными способами, чаще всего это делается с помощью кодировки JFIF. Процесс кодирования состоит из нескольких этапов:

Представление цветов в изображении преобразуется в Y'C B C R , состоящее из одного компонента яркости (Y '), представляющего яркость, и двух компонентов цветности (C _B и C _R ), представляющих цвет. Этот шаг иногда пропускают.
Разрешение данных цветности снижается, обычно в 2 или 3 раза. Это отражает тот факт, что глаз менее чувствителен к мелким деталям цвета, чем к мелким деталям яркости.
Изображение разбивается на блоки размером 8 × 8 пикселей, и для каждого блока данные Y, C _B и C _R подвергаются дискретному косинусному преобразованию (DCT). DCT похож на преобразование Фурье в том смысле, что он создает своего рода спектр пространственных частот.
Амплитуды частотных составляющих квантуются. Человеческое зрение гораздо более чувствительно к небольшим изменениям цвета или яркости на больших площадях, чем к силе высокочастотных изменений яркости. Следовательно, величины высокочастотных составляющих сохраняются с меньшей точностью, чем низкочастотные составляющие. Настройка качества кодировщика (например, 50 или 95 по шкале от 0 до 100 в библиотеке Independent JPEG Group ^[52] ) влияет на степень уменьшения разрешения каждого частотного компонента. Если используется слишком низкая настройка качества, высокочастотные компоненты полностью отбрасываются.
Результирующие данные для всех блоков 8 × 8 дополнительно сжимаются с помощью алгоритма без потерь, варианта кодирования Хаффмана .

В процессе декодирования эти шаги меняются на противоположные, за исключением квантования, поскольку оно необратимо. В оставшейся части этого раздела процессы кодирования и декодирования описаны более подробно.

Кодирование

Многие параметры в стандарте JPEG используются нечасто, и, как упоминалось выше, в большинстве программ обработки изображений при создании файла JPEG используется более простой формат JFIF, который, среди прочего, определяет метод кодирования. Вот краткое описание одного из наиболее распространенных методов кодирования, применяемого к входным данным, имеющим 24 бита на пиксель (по восемь разрядов красного, зеленого и синего цветов). Этот конкретный вариант представляет собой метод сжатия данных с потерями .

Преобразование цветового пространства

Во-первых, изображение должно быть преобразовано из RGB в другое цветовое пространство, называемое Y′C B C R (или, неофициально, YCbCr). Он состоит из трех компонентов: Y ', C _B и C _R : компонент Y' представляет яркость пикселя, а компоненты C _B и C _R представляют цветность (разделенную на синий и красный компоненты). Это в основном то же цветовое пространство, которое используется в цифровом цветном телевидении, а также в цифровом видео, включая видео DVD , и похоже на то, как цвет представлен в аналоговом видео PAL и MAC (но не в аналоговом NTSC , который использует цветовое пространство YIQ. ). Преобразование цветового пространства Y'C _B C _R обеспечивает большее сжатие без значительного влияния на качество восприятия изображения (или более высокое качество изображения при таком же сжатии). Сжатие более эффективно, поскольку информация о яркости, которая более важна для конечного качества восприятия изображения, ограничивается одним каналом. Это больше соответствует восприятию цвета зрительной системой человека. Преобразование цвета также улучшает сжатие за счет статистической декорреляции .

Конкретное преобразование в Y'C _B C _R указано в стандарте JFIF и должно выполняться для максимальной совместимости результирующего файла JPEG. Однако некоторые реализации JPEG в режиме «высочайшего качества» не применяют этот шаг и вместо этого сохраняют информацию о цвете в цветовой модели RGB ^[53], где изображение сохраняется в отдельных каналах для красной, зеленой и синей составляющих яркости. Это приводит к менее эффективному сжатию и вряд ли будет использоваться, когда размер файла особенно важен.

Даунсэмплинг

Из-за плотности чувствительных к цвету и яркости рецепторов в человеческом глазу люди могут видеть значительно больше мелких деталей в яркости изображения (компонент Y '), чем в оттенке и насыщенности цвета изображения (Cb и Компоненты Cr). Используя эти знания, можно разработать кодировщики для более эффективного сжатия изображений.

Преобразование в цветовую модель Y'C B C R позволяет выполнить следующий обычный шаг, который заключается в уменьшении пространственного разрешения компонентов Cb и Cr (называемого « понижающей дискретизацией » или «субдискретизацией цветности»). Соотношения, при которых понижающая дискретизация обычно выполняется для изображений JPEG, составляют 4: 4: 4 (без понижающей дискретизации), 4: 2: 2 (уменьшение в 2 раза по горизонтали) или (чаще всего) 4: 2: 0 (уменьшение в 2 раза как по горизонтали, так и по вертикали). Для остальной части процесса сжатия Y ', Cb и Cr обрабатываются отдельно и очень похожим образом.

Разделение блоков

После субдискретизации каждый канал должен быть разделен на блоки 8 × 8. В зависимости от субдискретизации цветности это дает блоки минимального кодирования (MCU) размером 8 × 8 (4: 4: 4 - без субдискретизации), 16 × 8 (4: 2: 2) или чаще всего 16 × 16 (4: 2: 0). При сжатии видео микроконтроллеры называются макроблоками .

Если данные для канала не представляют собой целое число блоков, кодер должен заполнить оставшуюся область неполных блоков некоторой формой фиктивных данных. Заполнение краев фиксированным цветом (например, черным) может привести к появлению кольцевых артефактов вдоль видимой части границы; повторение краевых пикселей - распространенный метод, который уменьшает (но не обязательно полностью устраняет) такие артефакты, также могут применяться более сложные методы заполнения границ.

Дискретное косинусное преобразование

Дополнительное изображение 8 × 8, показанное в 8-битной шкале серого

Затем каждый блок 8 × 8 каждого компонента (Y, Cb, Cr) преобразуется в представление в частотной области с использованием нормализованного двумерного дискретного косинусного преобразования (DCT) типа II, см. Цитату 1 в дискретном косинусном преобразовании. . DCT иногда упоминается как «DCT типа II» в контексте семейства преобразований, таких как дискретное косинусное преобразование , а соответствующая инверсия (IDCT) обозначается как «DCT типа III».

Например, одно из таких 8-битных фрагментов изображения размером 8 × 8 может быть:

{\ Displaystyle \ влево [{\ начинают {массив} {rrrrrrrr} 52 & 55 & 61 & 66 & 70 & 61 & 64 & 73 \\ 63 & 59 & 55 & 90 & 109 & 85 & 69 & 72 \\ 62 & 59 & 68 & 113 & 144 & 104 & 66 & 73 \\ 63 & 58 & 71 & 122 & 154 & 106 & 70 & 69 \\ 67 & 61 & 68 & 104 & 126 & 88 & 68 & 70 \\ 79 & 65 & 60 & 70 & 77 & 68 & 58 & 75 \\ 85 & 71 & 64 & 59 & 55 & 61 & 65 & 83 \\ 87 & 79 & 69 & 68 & 65 & 76 & 78 & 94 \ конец {массив}} \ право].}

Перед вычислением DCT блока 8 × 8 его значения сдвигаются с положительного диапазона на единицу с центром в нуле. Для 8-битного изображения каждая запись в исходном блоке попадает в диапазон ${\ displaystyle [0,255]}$ . Средняя точка диапазона (в данном случае значение 128) вычитается из каждой записи, чтобы получить диапазон данных с центром на нуле, так что измененный диапазон равен ${\ displaystyle [-128,127]}$ . Этот шаг снижает требования к динамическому диапазону на следующем этапе обработки DCT.

Результатом этого шага являются следующие значения:

{\ displaystyle g = {\ begin {array} {c} x \\\ longrightarrow \\\ left [{\ begin {array} {rrrrrrrr} -76 & -73 & -67 & -62 & -58 & -67 & -64 & -55 \ \ -65 & -69 & -73 & -38 & -19 & -43 & -59 & -56 \\ - 66 & -69 & -60 & -15 & 16 & -24 & -62 & -55 \\ - 65 & -70 & -57 & -6 & 26 & -22 & -58 & -59 \ \ -61 & -67 & -60 & -24 & -2 & -40 & -60 & -58 \\ - 49 & -63 & -68 & -58 & -51 & -60 & -70 & -53 \\ - 43 & -57 & -64 & -69 & -73 & -67 & - 63 & -45 \\ - 41 & -49 & -59 & -60 & -63 & -52 & -50 & -34 \ end {array}} \ right] \ end {array}} {\ Bigg \ downarrow} y.}

DCT преобразует блок входных значений 8 × 8 в линейную комбинацию этих 64 шаблонов. Шаблоны называются двумерными базисными функциями DCT , а выходные значения упоминаются как коэффициенты преобразования . Горизонтальный индекс

{\ displaystyle u}

а вертикальный индекс

{\ displaystyle v}

.

Следующим шагом является получение двумерного DCT, которое определяется как:

{\ displaystyle \ G_ {u, v} = {\ frac {1} {4}} \ alpha (u) \ alpha (v) \ sum _ {x = 0} ^ {7} \ sum _ {y = 0 } ^ {7} g_ {x, y} \ cos \ left [{\ frac {(2x + 1) u \ pi} {16}} \ right] \ cos \ left [{\ frac {(2y + 1) v \ pi} {16}} \ right]}

где

${\ displaystyle \ u}$ - горизонтальная пространственная частота для целых чисел ${\ Displaystyle \ 0 \ Leq и <8}$ .
${\ displaystyle \ v}$ - вертикальная пространственная частота, для целых чисел ${\ Displaystyle \ 0 \ Leq v <8}$ .
${\ displaystyle \ alpha (u) = {\ begin {cases} {\ frac {1} {\ sqrt {2}}}, & {\ mbox {if}} u = 0 \\ 1, & {\ mbox { в противном случае}} \ end {case}}}$ является нормализующим масштабным коэффициентом, чтобы сделать преобразование ортонормированным.
${\ Displaystyle \ g_ {х, у}}$ значение пикселя в координатах ${\ Displaystyle \ (х, у)}$
${\ Displaystyle \ G_ {и, v}}$ - коэффициент DCT в координатах ${\ Displaystyle \ (и, v).}$

Если мы выполним это преобразование в нашей матрице выше, мы получим следующее (округленное до ближайших двух цифр после десятичной точки):

{\ displaystyle G = {\ begin {array} {c} u \\\ longrightarrow \\\ left [{\ begin {array} {rrrrrrrr} -415.38 & -30.19 & -61.20 & 27.24 & 56.12 & -20.10 & - 2,39 и 0,46 \\ 4,47 и -21,86 и -60,76 и 10,25 и 13,15 и -7,09 и -8,54 и 4,88 \\ - 46,83 и 7,37 и 77,13 и -24,56 и -28,91 и 9,93 и 5,42 и -5,65 \\ - 48,53 и 12,07 и 34,10 и -14,76 и -10,24 и 6,30 и 1,83 и 1,95 \\ 12,12 и -6,55 и -13,20 и -3,95 и -1,87 и 1,75 и -2,79 и 3,14 \\ - 7,73 и 2,91 и 2,38 и -5.94 & -2.38 & 0.94 & 4.30 & 1.85 \\ - 1.03 & 0.18 & 0.42 & -2.42 & -0.88 & -3.02 & 4.12 & -0.66 \\ - 0.17 & 0.14 & -1.07 & -4.19 & -1.17 & -0,10 и 0,50 и 1,68 \ end {array}} \ right] \ end {array}} {\ Bigg \ downarrow} v.}

Обратите внимание на запись в верхнем левом углу с довольно большой величиной. Это коэффициент DC (также называемый постоянной составляющей), который определяет основной оттенок для всего блока. Остальные 63 коэффициента - это коэффициенты переменного тока (также называемые переменными компонентами). ^[54] Преимущество DCT заключается в его тенденции агрегировать большую часть сигнала в одном углу результата, как можно увидеть выше. Последующий этап квантования усиливает этот эффект, одновременно уменьшая общий размер DCT-коэффициентов, в результате чего получается сигнал, который легко эффективно сжимать на этапе энтропии.

DCT временно увеличивает битовую глубину данных, поскольку DCT-коэффициенты 8-битного / компонентного изображения занимают до 11 или более битов (в зависимости от точности вычисления DCT) для хранения. Это может заставить кодек временно использовать 16-битные числа для хранения этих коэффициентов, удваивая размер представления изображения в этой точке; эти значения обычно уменьшаются обратно до 8-битных значений на этапе квантования. Временное увеличение размера на этом этапе не является проблемой производительности для большинства реализаций JPEG, поскольку обычно только очень небольшая часть изображения сохраняется в полной форме DCT в любой момент времени во время процесса кодирования или декодирования изображения.

Квантование

Человеческий глаз хорошо видит небольшие различия в яркости на относительно большой площади, но не очень хорошо распознает точную силу высокочастотного изменения яркости. Это позволяет значительно уменьшить количество информации в высокочастотных компонентах. Это делается путем простого деления каждого компонента в частотной области на константу для этого компонента и последующего округления до ближайшего целого числа. Эта операция округления является единственной операцией с потерями во всем процессе (кроме субдискретизации цветности), если вычисление DCT выполняется с достаточно высокой точностью. В результате этого обычно бывает так, что многие высокочастотные компоненты округляются до нуля, а многие из остальных становятся небольшими положительными или отрицательными числами, для представления которых требуется гораздо меньше битов.

Элементы в матрице квантования управляют степенью сжатия, при этом большие значения производят большее сжатие. Типичная матрица квантования (для качества 50%, как указано в исходном стандарте JPEG) выглядит следующим образом:

{\ Displaystyle Q = {\ BEGIN {bmatrix} 16 & 11 & 10 & 16 & 24 & 40 & 51 & 61 \\ 12 & 12 & 14 & 19 & 26 & 58 & 60 & 55 \\ 14 & 13 & 16 & 24 & 40 & 57 & 69 & 56 \\ 14 & 17 & 22 & 29 & 51 & 87 & 80 & 62 \\ 18 & 22 & 37 & 56 & 68 & 109 & 103 & 77 \\ 24 & 35 & 55 & 64 & 81 & 104 & 113 & 92 \\ 49 & 64 & 78 & 87 & 103 & 121 & 120 & 101 \\ 72 & 92 & 95 & 98 & 112 & 100 & 103 & 99 \ конец {bmatrix}}.}

Квантованные коэффициенты DCT вычисляются с помощью

{\ displaystyle B_ {j, k} = \ mathrm {round} \ left ({\ frac {G_ {j, k}} {Q_ {j, k}}} \ right) {\ mbox {for}} j = 0,1,2, \ ldots, 7; k = 0,1,2, \ ldots, 7}

где ${\ displaystyle G}$ - неквантованные коэффициенты DCT; ${\ displaystyle Q}$ - матрица квантования, приведенная выше; а также ${\ displaystyle B}$ - квантованные коэффициенты DCT.

Использование этой матрицы квантования с матрицей коэффициентов DCT из приведенного выше приводит к:

Слева: окончательное изображение состоит из ряда базовых функций. Справа: каждая из базовых функций DCT, составляющих изображение, и соответствующий весовой коэффициент. В центре: базовая функция, после умножения на коэффициент: этот компонент добавляется к окончательному изображению. Для наглядности макроблок 8 × 8 в этом примере увеличен в 10 раз с помощью билинейной интерполяции.

{\ displaystyle B = \ left [{\ begin {array} {rrrrrrrr} -26 & -3 & -6 & 2 & 2 & -1 & 0 & 0 \\ 0 & -2 & -4 & 1 & 1 & 0 & 0 & 0 \\ - 3 & 1 & 5 & -1 & -1 & 0 & 0 & 0 & 0 \\ - 3 & 1\ & 2 & -1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & \ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \ end {array}} \ right].}

Например, используя -415 (коэффициент DC) и округляя до ближайшего целого числа

{\ displaystyle \ mathrm {round} \ left ({\ frac {-415.37} {16}} \ right) = \ mathrm {round} \ left (-25.96 \ right) = - 26.}

Обратите внимание, что большинство высокочастотных элементов субблока (т. Е. Те, у которых пространственная частота x или y больше 4) квантуются до нулевых значений.

Энтропийное кодирование

Зигзагообразный порядок компонентов изображения JPEG

Энтропийное кодирование - это особая форма сжатия данных без потерь . Он включает в себя размещение компонентов изображения в « зигзагообразном » порядке с использованием алгоритма кодирования длин серий (RLE), который группирует одинаковые частоты вместе, вставляя нули кодирования длины, а затем используя кодирование Хаффмана на том, что осталось.

Стандарт JPEG также позволяет, но не требует, чтобы декодеры поддерживали использование арифметического кодирования, которое математически превосходит кодирование Хаффмана. Однако эта функция использовалась редко, поскольку исторически она охранялась патентами, требующими лицензионных отчислений, а также потому, что она медленнее кодирует и декодирует по сравнению с кодированием Хаффмана. Арифметическое кодирование обычно уменьшает размер файлов примерно на 5–7%.

Предыдущий квантованный коэффициент DC используется для предсказания текущего квантованного коэффициента DC. Разница между ними кодируется, а не фактическое значение. Кодирование 63 квантованных коэффициентов AC не использует такое предсказание разности.

Зигзагообразная последовательность для вышеупомянутых квантованных коэффициентов показана ниже. (Показанный формат предназначен только для простоты понимания / просмотра.)

−26
−3	0
−3	−2	−6
2	−4	1	−3
1	1	5	1	2
−1	1	−1	2	0	0
0	0	0	−1	−1	0	0
0	0	0	0	0	0	0	0
0	0	0	0	0	0	0
0	0	0	0	0	0
0	0	0	0	0
0	0	0	0
0	0	0
0	0
0

Если i-й блок представлен как ${\ displaystyle B_ {i}}$ и позиции в каждом блоке представлены ${\ displaystyle (p, q)}$ , где ${\ displaystyle p = 0,1, ..., 7}$ а также ${\ displaystyle q = 0,1, ..., 7}$ , то любой коэффициент в изображении DCT можно представить как ${\ displaystyle B_ {i} (p, q)}$ . Таким образом, в приведенной выше схеме порядок кодирования пикселей (для $i-го$ блока) равен ${\ displaystyle B_ {i} (0,0)}$ , ${\ displaystyle B_ {i} (0,1)}$ , ${\ displaystyle B_ {i} (1,0)}$ , ${\ displaystyle B_ {i} (2,0)}$ , ${\ displaystyle B_ {i} (1,1)}$ , ${\ displaystyle B_ {i} (0,2)}$ , ${\ displaystyle B_ {i} (0,3)}$ , ${\ displaystyle B_ {i} (1,2)}$ и так далее.

Базовые процессы последовательного кодирования и декодирования JPEG

Этот режим кодирования называется базовым последовательным кодированием. Базовый JPEG также поддерживает прогрессивное кодирование. В то время как последовательное кодирование кодирует коэффициенты одного блока за раз (зигзагообразно), прогрессивное кодирование кодирует пакет коэффициентов всех блоков с одинаковыми позициями за один раз (так называемое сканирование ), за которым следует следующий пакет коэффициентов всех блоков. , и так далее. Например, если изображение разделено на N блоков 8 × 8 ${\ displaystyle B_ {0}, B_ {1}, B_ {2}, ..., B_ {n-1}}$ , то 3-сканирующее прогрессивное кодирование кодирует составляющую постоянного тока ${\ displaystyle B_ {i} (0,0)}$ для всех блоков (т.е. для всех ${\ Displaystyle я = 0,1,2, ..., N-1}$ , в первом сканировании). За этим следует второе сканирование, которое кодирует (при условии, что еще четыре компонента) ${\ displaystyle B_ {i} (0,1)}$ к ${\ displaystyle B_ {i} (1,1)}$ , по-прежнему зигзагообразно. На этом этапе последовательность коэффициентов следующая: ${\ displaystyle B_ {0} (0,1), B_ {0} (1,0), B_ {0} (2,0), B_ {0} (1,1), B_ {1} (0, 1), B_ {1} (1,0), ..., B_ {N} (2,0), B_ {N} (1,1)}$ ), за которым следуют оставшиеся коэффициенты всех блоков в последнем сканировании.

После того, как все коэффициенты с одинаковыми позициями были закодированы, следующая позиция, которая должна быть закодирована, - это позиция, встречающаяся следующей при зигзагообразном обходе, как показано на рисунке выше. Было обнаружено, что базовое прогрессивное кодирование JPEG обычно дает лучшее сжатие по сравнению с базовым последовательным JPEG из-за возможности использовать разные таблицы Хаффмана (см. Ниже), адаптированные для разных частот на каждом «сканировании» или «проходе» (что включает аналогичные - позиционированные коэффициенты), хотя разница не слишком велика.

В остальной части статьи предполагается, что сгенерированный шаблон коэффициентов вызван последовательным режимом.

Для кодирования сгенерированного выше шаблона коэффициентов JPEG использует кодирование Хаффмана. Стандарт JPEG предоставляет таблицы Хаффмана общего назначения, хотя кодировщики могут также выбрать динамическое создание таблиц Хаффмана, оптимизированных для фактических частотных распределений в кодируемых изображениях.

Процесс кодирования зигзагообразных квантованных данных начинается с кодирования длин серий, где:

$x$ - ненулевой квантованный коэффициент переменного тока.
RUNLENGTH - это количество нулей перед этим ненулевым коэффициентом переменного тока.
РАЗМЕР - это количество битов, необходимых для представления $x$ .
АМПЛИТУДА - это битовое представление $x$ .

Кодирование длин серий работает, исследуя каждый ненулевой коэффициент переменного тока $x$ и определяя, сколько нулей было перед предыдущим коэффициентом переменного тока. На основе этой информации создаются два символа:

Символ 1	Символ 2
(ДЛИНА, РАЗМЕР)	(АМПЛИТУДА)

И RUNLENGTH, и SIZE опираются на один и тот же байт, что означает, что каждый содержит только четыре бита информации. Старшие биты имеют дело с количеством нулей, а младшие биты обозначают количество битов, необходимых для кодирования значения $x$ .

Из этого следует, что символ 1 может хранить информацию только о первых 15 нулях, предшествующих ненулевому коэффициенту переменного тока. Однако JPEG определяет два специальных кодовых слова Хаффмана. Один предназначен для преждевременного завершения последовательности, когда оставшиеся коэффициенты равны нулю (так называемый «конец блока» или «EOB»), а другой - когда серия нулей выходит за пределы 15 до достижения ненулевого коэффициента AC. В таком случае, когда перед заданным ненулевым коэффициентом переменного тока встречаются 16 нулей, символ 1 кодируется как (15, 0) (0).

Общий процесс продолжается до тех пор, пока не будет достигнут "EOB", обозначенный (0, 0).

Имея это в виду, предыдущая последовательность выглядит следующим образом:

(0, 2) (- 3); (1, 2) (- 3); (0, 1) (- 2); (0, 2) (- 6); (0, 1) (2); ( 0, 1) (- 4); (0, 1) (1); (0, 2) (- 3); (0, 1) (1); (0, 1) (1);
(0, 2) (5); (0, 1) (1); (0, 1) (2); (0, 1) (- 1); (0, 1) (1); (0, 1) ) (- 1); (0, 1) (2); (5, 1) (- 1); (0, 1) (- 1); (0, 0);

(Первое значение в матрице, −26, является коэффициентом DC; оно не кодируется таким же образом. См. Выше.)

Отсюда вычисления частоты производятся на основе появления коэффициентов. В нашем примере блока большинство квантованных коэффициентов представляют собой небольшие числа, которым непосредственно не предшествует нулевой коэффициент. Эти более частые случаи будут представлены более короткими кодовыми словами.

Степень сжатия и артефакты

На этом изображении показаны пиксели, которые различаются между несжатым изображением и тем же изображением JPEG, сжатым с настройкой качества 50. Чем темнее, тем больше разница. Обратите особое внимание на изменения, происходящие возле острых краев и имеющие блочную форму.

Исходное изображение

Сжатые квадраты 8 × 8 видны на увеличенном изображении вместе с другими визуальными артефактами сжатия с потерями .

Результирующая степень сжатия может варьироваться в зависимости от необходимости, более или менее агрессивно применяя делители, используемые на этапе квантования. Сжатие десять к одному обычно приводит к тому, что изображение невозможно отличить от оригинала на глаз. Обычно возможна степень сжатия 100: 1, но по сравнению с оригиналом он будет выглядеть явно искаженным . Подходящий уровень сжатия зависит от цели использования изображения.

Внешний образ
Иллюстрация пограничной занятости ^[55]

Те, кто пользуется Всемирной паутиной, могут быть знакомы с нарушениями, известными как артефакты сжатия, которые появляются в изображениях JPEG, которые могут принимать форму шума вокруг контрастных краев (особенно кривых и углов) или «блочных» изображений. Это связано с этапом квантования алгоритма JPEG. Они особенно заметны вокруг острых углов между контрастными цветами (хороший пример - текст, поскольку он содержит много таких углов). Аналогичные артефакты в видео MPEG называются москитным шумом , поскольку возникающие в результате «граничные помехи» и ложные точки, которые меняются со временем, напоминают комаров, роящихся вокруг объекта. ^[55]^[56]

Эти артефакты можно уменьшить, выбрав более низкий уровень сжатия; их можно полностью избежать, сохранив изображение в формате без потерь, хотя это приведет к увеличению размера файла. Изображения, созданные с помощью программ трассировки лучей , имеют заметные блочные формы на местности. Некоторые артефакты сжатия низкой интенсивности могут быть приемлемы при простом просмотре изображений, но могут быть подчеркнуты, если изображение будет впоследствии обработано, что обычно приводит к неприемлемому качеству. Рассмотрим пример ниже, демонстрирующий влияние сжатия с потерями на этапе обработки обнаружения границ .

Изображение	Сжатие без потерь	Сжатие с потерями
Оригинал
Обработано краевым детектором Canny

Некоторые программы позволяют пользователю изменять степень сжатия отдельных блоков. Более сильное сжатие применяется к областям изображения с меньшим количеством артефактов. Таким образом можно вручную уменьшить размер файла JPEG с меньшей потерей качества.

Поскольку этап квантования всегда приводит к потере информации, стандарт JPEG всегда является кодеком со сжатием с потерями. (Информация теряется как при квантовании, так и при округлении чисел с плавающей запятой.) Даже если матрица квантования является матрицей единиц , информация все равно будет потеряна на этапе округления.

Расшифровка

Декодирование для отображения изображения заключается в выполнении всего вышеописанного в обратном порядке.

Взятие матрицы коэффициентов DCT (после добавления разницы коэффициентов DC)

{\ displaystyle \ left [{\ begin {array} {rrrrrrrr} -26 & -3 & -6 & 2 & 2 & -1 & 0 & 0 \\ 0 & -2 & -4 & 1 & 1 & 0 & 0 & 0 \\ - 3 & 1 & 5 & -1 & -1 & 0 & 0 & 0 \\ - 3 & 1 & 5 & -1 & -1 & 0 & 0 & 0 \\ - 3 & 1 & 2 &\ 2 & amp; \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \ end {array}} \ right]}

и взятие произведения вход-вход с матрицей квантования из приведенной выше приводит к

{\ Displaystyle \ влево [{\ начинают {массив} {rrrrrrrr} -416 & -33 & -60 & 32 & 48 & -40 & 0 & 0 \\ 0 & -24 & -56 & 19 & 26 & 0 & 0 & 0 \\ - 42 & 13 & 80 & -24 & -40 & 0 & 0 & 0 \\ - 42 & 17 & 44 & -29 & 0 & 0 & 0 & 0 \\ 18 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \ end {array}} \ right]}

что очень похоже на исходную матрицу коэффициентов DCT для верхней левой части.

Следующим шагом является получение двумерного обратного ДКП (ДКП 2D типа III), который определяется как:

{\ displaystyle f_ {x, y} = {\ frac {1} {4}} \ sum _ {u = 0} ^ {7} \ sum _ {v = 0} ^ {7} \ alpha (u) \ альфа (v) F_ {u, v} \ cos \ left [{\ frac {(2x + 1) u \ pi} {16}} \ right] \ cos \ left [{\ frac {(2y + 1) v \ pi} {16}} \ right]}

где

${\ displaystyle \ x}$ - строка пикселей для целых чисел ${\ Displaystyle \ 0 \ Leq х <8}$ .
${\ displaystyle \ y}$ столбец пикселей, для целых чисел ${\ Displaystyle \ 0 \ Leq у <8}$ .
${\ Displaystyle \ \ альфа (и)}$ определяется, как указано выше, для целых чисел ${\ Displaystyle \ 0 \ Leq и <8}$ .
${\ Displaystyle \ F_ {и, v}}$ - восстановленный приближенный коэффициент в координатах ${\ Displaystyle \ (и, v).}$
${\ displaystyle \ f_ {x, y}}$ - восстановленное значение пикселя в координатах ${\ Displaystyle \ (х, у)}$

Округление вывода до целочисленных значений (поскольку исходное имело целочисленные значения) приводит к изображению со значениями (все еще сдвинутыми вниз на 128).

Заметны небольшие различия между исходным (вверху) и распакованным изображением (внизу), что лучше всего видно в нижнем левом углу.

{\ displaystyle \ left [{\ begin {array} {rrrrrrrr} -66 & -63 & -71 & -68 & -56 & -65 & -68 & -46 \\ - 71 & -73 & -72 & -46 & -20 & -41 & -66 & -57 \ \ -70 & -78 & -68 & -17 & 20 & -14 & -61 & -63 \\ - 63 & -73 & -62 & -8 & 27 & -14 & -60 & -58 \\ - 58 & -65 & -61 & -27 & -6 & -40 & -68 & -50 \ \ -57 & -57 & -64 & -58 & -48 & -66 & -72 & -47 \\ - 53 & -46 & -61 & -74 & -65 & -63 & -62 & -45 \\ - 47 & -34 & -53 & -74 & -60 & -47 & - 47 & -41 \ end {array}} \ right]}

и добавляя 128 к каждой записи

{\ Displaystyle \ влево [{\ начинают {массив} {rrrrrrrr} 62 & 65 & 57 & 60 & 72 & 63 & 60 & 82 \\ 57 & 55 & 56 & 82 & 108 & 87 & 62 & 71 \\ 58 & 50 & 60 & 111 & 148 & 114 & 67 & 65 \\ 65 & 55 & 66 & 120 & 155 & 114 & 68 & 70 \\ 70 & 63 & 67 & 101 & 122 & 88 & 60 & 78 \\ 71 & 71 & 64 & 70 & 80 & 62 & 56 & 81 \\ 75 & 82 & 67 & 54 & 63 & 65 & 66 & 83 \\ 81 & 94 & 75 & 54 & 68 & 81 & 81 & 87 \ конец {массив}} \ право].}

Это распакованный фрагмент изображения. В общем, процесс декомпрессии может давать значения за пределами исходного входного диапазона ${\ displaystyle [0,255]}$ . Если это происходит, декодеру необходимо обрезать выходные значения, чтобы удерживать их в этом диапазоне, чтобы предотвратить переполнение при сохранении распакованного изображения с исходной битовой глубиной.

Распакованный фрагмент изображения можно сравнить с исходным фрагментом изображения (также см. Изображения справа), взяв разницу (исходный - несжатый), приводящую к следующим значениям ошибок:

{\ displaystyle \ left [{\ begin {array} {rrrrrrrr} -10 & -10 & 4 & 6 & -2 & -2 & 4 & -9 \\ 6 & 4 & -1 & 8 & 1 & -2 & 7 & 1 \\ 4 & 9 & 8 & 2 & -4 & -10 & -1 & 8 \\ - 2 & 3 & 5 & 2 & -1 & -8 & 2 & 2 & 2 & 1 \\ - 3 & -2 & 1 & 3 & 4 & 0 & 8 & -8 \\ 8 & -6 & -4 & -0 & -3 & 6 & 2 & -6 \\ 10 & -11 & -3 & 5 & -8 & -4 & -1 & -0 \\ 6 & -15 & -6 & 14 & -3 & -5 & -3 & 7 \ end {array}} \ right]}

со средней абсолютной ошибкой около 5 значений на пиксель (т. е. ${\ displaystyle {\ frac {1} {64}} \ sum _ {x = 0} ^ {7} \ sum _ {y = 0} ^ {7} | e (x, y) | = 4.8750}$ ).

Ошибка наиболее заметна в нижнем левом углу, где нижний левый пиксель становится темнее, чем пиксель справа от него.

Требуемая точность

Соответствие кодирования и декодирования и, следовательно, требования к точности указаны в ISO / IEC 10918-2, то есть в части 2 спецификации JPEG. Эта спецификация требует, например, чтобы DCT-коэффициенты (преобразованные в прямом направлении), сформированные из изображения тестируемой реализации JPEG, имели ошибку, которая находится в пределах точности одного блока квантования по сравнению с эталонными коэффициентами. С этой целью ИСО / МЭК 10918-2 предоставляет тестовые потоки, а также коэффициенты DCT, которые кодовый поток должен декодировать.

Точно так же ISO / IEC 10918-2 определяет точность кодера с точки зрения максимально допустимой ошибки в области DCT. Это настолько необычно, поскольку многие другие стандарты определяют только соответствие декодера и требуют от кодера только генерировать синтаксически правильный кодовый поток.

Тестовые изображения, содержащиеся в ISO / IEC 10918-2, представляют собой (псевдо) случайные шаблоны для проверки наихудших случаев. Поскольку ISO / IEC 10918-1 не определяет цветовые пространства и не включает преобразование YCbCr в RGB JFIF (теперь ISO / IEC 10918-5), точность последнего преобразования не может быть проверена ISO / IEC 10918-2.

Для поддержки 8-битной точности на вывод компонента пикселя, деквантование и обратное DCT-преобразование обычно реализуются с точностью не менее 14-битной в оптимизированных декодерах.

Эффекты сжатия JPEG

"> Воспроизвести медиа

Повторное сжатие изображения (произвольное качество)

[2]

Качество	Размер (байты)	Степень сжатия	Комментарий
Наивысшее качество (Q = 100)	81 447	2,7: 1	Чрезвычайно незначительные артефакты
Высокое качество (Q = 50)	14 679	15: 1	Начальные признаки артефактов фрагментов изображения
Среднее качество (Q = 25)	9 407	23: 1	Более сильные артефакты; потеря высокочастотной информации
Низкое качество (Q = 10)	4787	46: 1	Сильная потеря высоких частот приводит к очевидным артефактам на границах фрагментов изображения («макроблокирование»).
Самое низкое качество (Q = 1)	1,523	144: 1	Крайняя потеря цвета и деталей; листья почти неузнаваемы.

JPEG

История

Задний план

Стандарт JPEG

Патентные споры

Типичное использование

Сжатие JPEG

Редактирование без потерь

Файлы JPEG

Расширения файлов JPEG

Цветовой профиль

Синтаксис и структура

Пример кодека JPEG

Кодирование

Преобразование цветового пространства

Даунсэмплинг

Разделение блоков

Дискретное косинусное преобразование

Квантование

Энтропийное кодирование

Степень сжатия и артефакты

Расшифровка

Требуемая точность

Эффекты сжатия JPEG

Образцы фотографий

Дальнейшее сжатие без потерь

Производные форматы

Для стереоскопического 3D

JPEG стереоскопический

Формат нескольких изображений JPEG

JPEG XT

JPEG XL

Несовместимые стандарты JPEG

Реализации

Смотрите также

Рекомендации

Внешние ссылки