Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

MPEG-1 является стандартным для потерь сжатия видео и аудио . Он предназначен для сжатия необработанного цифрового видео качества VHS и аудио с компакт-дисков примерно до 1,5 Мбит / с (коэффициенты сжатия 26: 1 и 6: 1 соответственно) [1] без чрезмерной потери качества, создание видео компакт-дисков , цифрового кабельного / спутникового телевидения. возможно цифровое аудиовещание (DAB). [2] [3]

Сегодня MPEG-1 стал наиболее широко совместимым аудио / видео форматом с потерями в мире и используется в большом количестве продуктов и технологий. Возможно, самая известная часть стандарта MPEG-1 - это первая версия представленного им аудиоформата MP3 .

Стандарт MPEG-1 опубликован как ISO / IEC 11172 - Информационные технологии - Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью примерно до 1,5 Мбит / с.
Стандарт состоит из следующих пяти частей : [4] [5] [6] [7] [8]

  1. Системы (хранение и синхронизация видео, аудио и других данных вместе)
  2. Видео (сжатый видеоконтент)
  3. Аудио (сжатый аудиоконтент)
  4. Тестирование на соответствие (тестирование правильности реализаций стандарта)
  5. Справочное программное обеспечение (пример программного обеспечения, показывающий, как кодировать и декодировать в соответствии со стандартом)

История [ править ]

Предшественником MPEG-1 для кодирования видео был стандарт H.261 , разработанный CCITT (теперь известный как ITU-T ). Базовая архитектура, установленная в H.261, представляла собой гибридную структуру кодирования видео DCT с компенсацией движения . [9] [10] Он использует макроблоки размером 16 × 16 с оценкой движения на основе блоков в кодере и компенсацией движения с использованием выбранных кодером векторов движения в декодере, с кодированием остаточной разности с использованием дискретного косинусного преобразования (DCT) размера 8 × 8, скалярное квантование и коды переменной длины (например,Коды Хаффмана ) для энтропийного кодирования . [11] H.261 был первым практическим стандартом кодирования видео, и все описанные в нем элементы конструкции также использовались в MPEG-1. [12]

Созданная на основе успешного совместного подхода и технологий сжатия, разработанных Joint Photographic Experts Group и CCITT Experts Group on Telephony (создателями стандарта сжатия изображений JPEG и стандарта H.261 для видеоконференцсвязи соответственно), Группа экспертов по движущемуся изображению (MPEG) рабочая группа была создана в январе 1988 года по инициативе Хироши Ясуда ( Nippon Telegraph and Telephone ) и Леонардо Кьяриглионе ( CSELT ). [13] MPEG был создан для удовлетворения потребности в стандартевидео и аудио форматы, а также на основе H.261 для получения лучшего качества за счет использования несколько более сложных методов кодирования (например, поддержки более высокой точности для векторов движения). [2] [14] [15]

Разработка стандарта MPEG-1 началась в мае 1988 года. Четырнадцать предложений по видео и четырнадцать аудио кодеков были представлены отдельными компаниями и учреждениями для оценки. Кодеки были тщательно протестированы на вычислительную сложность и субъективное (воспринимаемое человеком) качество при скорости передачи данных 1,5 Мбит / с. Этот конкретный битрейт был выбран для передачи по линиям T-1 / E-1 и как приблизительная скорость передачи данных аудио компакт-дисков . [16] Кодеки, которые показали отличные результаты в этом тестировании, были использованы в качестве основы для стандарта и доработаны, с добавлением дополнительных функций и других улучшений, включенных в процесс. [17]

После 20 собраний полной группы в разных городах по всему миру и 4,5 лет разработки и тестирования окончательный стандарт (для частей 1–3) был одобрен в начале ноября 1992 г. и опубликован несколько месяцев спустя. [18] Сообщаемая дата завершения стандарта MPEG-1 сильно различается: в сентябре 1990 года был выпущен в значительной степени полный проект стандарта, и с этого момента были внесены лишь незначительные изменения. [2] Проект стандарта был общедоступен для покупки. [19] Стандарт был завершен на собрании 6 ноября 1992 года. [20] Исследовательская группа по мультимедиа на плато Беркли разработала декодер MPEG-1 в ноябре 1992 года. [21]В июле 1990 года, еще до того, как был написан первый проект стандарта MPEG-1, началась работа над вторым стандартом, MPEG-2 , [22], предназначенным для расширения технологии MPEG-1 для обеспечения видео полного качества вещания (согласно CCIR 601 ) с высокими битрейтами (3–15 Мбит / с) и поддержкой чересстрочного видео. [23] Отчасти из-за схожести двух кодеков, стандарт MPEG-2 включает полную обратную совместимость с видео MPEG-1, поэтому любой декодер MPEG-2 может воспроизводить видео MPEG-1. [24]

Примечательно, что стандарт MPEG-1 очень строго определяет поток битов и функцию декодера, но не определяет, как должно выполняться кодирование MPEG-1, хотя эталонная реализация представлена ​​в ISO / IEC-11172-5. [1] Это означает, что эффективность кодирования MPEG-1 может сильно различаться в зависимости от используемого кодировщика, и в целом означает, что более новые кодеры работают значительно лучше, чем их предшественники. [25] Первые три части (системы, видео и аудио) ISO / IEC 11172 были опубликованы в августе 1993 года. [26]

Патенты [ править ]

Из-за своего возраста MPEG-1 больше не защищен какими-либо существенными патентами и, таким образом, может использоваться без получения лицензии или уплаты каких-либо сборов. [33] [34] [35] [36] [37] В патентной базе данных ISO указан один патент на ISO 11172, US 4 472 747, срок действия которого истек в 2003 году. [38] Почти полный проект стандарта MPEG-1 был обнародован доступен как ISO CD 11172 [19] до 6 декабря 1991 г. [39] Ни статья Kuro5hin за июль 2008 г. «Патентный статус MPEG-1, H.261 и MPEG-2» [40], ни ветка августа 2008 г. gstreamer-devel [41]В списке рассылки был указан единственный еще не истекший патент на MPEG-1 Video и MPEG-1 Audio Layer I / II. В ходе обсуждения в списке рассылки whatwg в мае 2009 г. упоминалось, что патент США 5 214 678, возможно, распространяется на MPEG-1 Audio Layer II. [42] Срок действия этого патента истек. [43]

Полный декодер и кодировщик MPEG-1 с «звуком уровня III» не мог быть реализован без лицензионных отчислений, поскольку были компании, которые требовали патентных сборов для реализации MPEG-1 Audio Layer III, как обсуждалось в статье о MP3 . Срок действия всех патентов в мире, связанных с MP3, истек 30 декабря 2017 года, что делает этот формат полностью бесплатным для использования. [ необходима цитата ] 23 апреля 2017 года Fraunhofer IIS прекратил взимать плату за лицензионную программу Technicolor в отношении MP3 для некоторых патентов и программного обеспечения, связанных с MP3. [44]

Бывшие патентообладатели [ править ]

Следующие корпорации подали заявления в ISO о том, что они владеют патентами на формат видео MPEG-1 (ISO / IEC-11172-2), хотя с тех пор срок действия всех таких патентов истек. [45]

  • BBC
  • Даймлер Бенц АГ
  • Fujitsu
  • IBM
  • Matsushita Electric Industrial Co., Ltd.
  • Mitsubishi Electric
  • NEC
  • NHK
  • Philips
  • Корпорация Пионер
  • Qualcomm
  • Ricoh
  • Sony
  • Инструменты Техаса
  • Томсон Мультимедиа
  • Печать Топпан
  • Toshiba
  • Виктор Компания Японии

Приложения [ править ]

  • Наиболее популярное программное обеспечение для воспроизведения видео включает декодирование MPEG-1 в дополнение к любым другим поддерживаемым форматам.
  • Популярность звука в формате MP3 привела к появлению массивной установленной базы оборудования, которое может воспроизводить звук в формате MPEG-1 (все три уровня).
  • «Практически все цифровые аудиоустройства » могут воспроизводить звук в формате MPEG-1. [46] На сегодняшний день продано много миллионов.
  • До того, как MPEG-2 получил широкое распространение, многие службы цифрового спутникового / кабельного телевидения использовали исключительно MPEG-1. [15] [25]
  • Широкая популярность MPEG-2 среди вещателей означает, что MPEG-1 может воспроизводиться большинством цифровых кабельных и спутниковых телевизионных приставок , а также цифровых проигрывателей дисков и магнитных лент благодаря обратной совместимости.
  • MPEG-1 использовался для полноэкранного видео на Green Book CD-i и на Video CD (VCD).
  • Стандарт Super Video CD , основанный на VCD, использует исключительно аудио MPEG-1, а также видео MPEG-2.
  • Формат DVD-Video в первую очередь использует видео MPEG-2, но поддержка MPEG-1 явно определена в стандарте.
  • Стандарт DVD-Video изначально требовал MPEG-1 Audio Layer II для стран PAL, но был изменен, чтобы разрешить диски только AC-3 / Dolby Digital . MPEG-1 Audio Layer II по-прежнему разрешен на DVD, хотя новые расширения формата, такие как MPEG Multichannel , поддерживаются редко.
  • Большинство DVD-плееров также поддерживают воспроизведение Video CD и MP3 CD , в которых используется MPEG-1.
  • Международный стандарт цифрового видеовещания (DVB) в основном использует MPEG-1 Audio Layer II и видео MPEG-2.
  • Международный стандарт цифрового аудиовещания (DAB) использует исключительно MPEG-1 Audio Layer II из-за его особенно высокого качества, скромных требований к характеристикам декодера и устойчивости к ошибкам.
  • Кассета Digital Compact использует PASC (Precision Adaptive поддиапазона Coding) для кодирования его звука. PASC - это ранняя версия MPEG-1 Audio Layer I с фиксированной скоростью передачи данных 384 килобита в секунду.

Часть 1. Системы [ править ]

Часть 1 стандарта MPEG-1 охватывает системы и определена в ISO / IEC-11172-1.

MPEG-1 Systems определяет логическую схему и методы, используемые для хранения закодированных аудио, видео и других данных в стандартном потоке битов, а также для поддержания синхронизации между различным содержимым. Этот формат файла специально разработан для хранения на носителях и передачи по каналам связи , которые считаются относительно надежными. Стандарт определяет только ограниченную защиту от ошибок, а небольшие ошибки в потоке битов могут вызвать заметные дефекты.

Эта структура была позже названа программным потоком MPEG : «Структура системы MPEG-1 по существу идентична структуре программного потока MPEG-2». [47] Эта терминология более популярна, точна (отличает ее от транспортного потока MPEG ) и будет использоваться здесь.

Элементарные потоки, пакеты и ссылки на часы [ править ]

  • Элементарные потоки (ES) - это необработанные потоки битов аудио- и видеокодированных данных MPEG-1 (выводимые кодировщиком). Эти файлы могут распространяться сами по себе, как, например, в случае с файлами MP3.
  • Пакетированные элементарные потоки (PES) - это элементарные потоки, упакованные в пакеты переменной длины, т. Е. Разделенные ES на независимые блоки, где контрольная сумма циклического избыточного кода (CRC) была добавлена ​​к каждому пакету для обнаружения ошибок.
  • Системная тактовая частота (SCR) - это значение синхронизации, хранящееся в 33-битном заголовке каждого PES с частотой / точностью 90 кГц, с дополнительным 9-битным расширением, которое хранит дополнительные данные синхронизации с точностью до 27 МГц. [48] [49] Они вставляются кодировщиком на основе часов системного времени (STC). Однако одновременно кодированные аудио- и видеопотоки не будут иметь одинаковых значений SCR из-за буферизации, кодирования, дрожания и других задержек.

Программные потоки [ править ]

Программные потоки (PS) связаны с объединением нескольких пакетированных элементарных потоков (обычно только одного аудио и видео PES) в один поток, обеспечивая одновременную доставку и поддерживая синхронизацию. Структура PS известна как мультиплексный или контейнерный формат .

Отметки времени представления (PTS) существуют в PS для исправления неизбежного несоответствия между значениями SCR аудио и видео (коррекция временной развертки). Значения PTS 90 кГц в заголовке PS сообщают декодеру, какие значения SCR видео соответствуют каким значениям SCR аудио. [48] PTS определяет, когда отображать часть программы MPEG, а также используется декодером для определения того, когда данные могут быть отброшены из буфера . [50] Либо видео, либо аудио будет задержано декодером до тех пор, пока не прибудет соответствующий сегмент другого и не будет декодирован.

Обработка PTS может быть проблематичной. Декодеры должны принимать несколько программных потоков , которые были объединены (соединены последовательно). Это приводит к тому, что значения PTS в середине видео сбрасываются до нуля, а затем снова начинают увеличиваться. Такие несоответствия цикла PTS могут вызвать проблемы синхронизации, которые должны быть специально обработаны декодером.

Метки времени декодирования (DTS), кроме того, требуются из-за B-кадров. С B-кадрами в видеопотоке соседние кадры должны кодироваться и декодироваться вне очереди (переупорядоченные кадры). DTS очень похож на PTS, но вместо того, чтобы просто обрабатывать последовательные кадры, он содержит правильные временные метки, чтобы сообщить декодеру, когда декодировать и отображать следующий B-кадр (типы кадров, описанные ниже), перед его привязкой (P - или I-) кадр. Без B-кадров в видео значения PTS и DTS идентичны. [51]

Мультиплексирование [ править ]

Для генерации PS мультиплексор будет чередовать (два или более) пакетированных элементарных потоков. Это сделано для того, чтобы пакеты одновременных потоков могли быть переданы по одному и тому же каналу и гарантированно поступили в декодер в одно и то же время. Это случай мультиплексирования с временным разделением .

Определение того, сколько данных из каждого потока должно быть в каждом чередующемся сегменте (размер чередования) - сложное, но важное требование. Неправильное чередование приведет к опустошению или переполнению буфера, поскольку приемник получает больше одного потока, чем он может сохранить (например, аудио), прежде чем он получит достаточно данных для декодирования другого одновременного потока (например, видео). Средство проверки буферизации видео MPEG (VBV) помогает определить, может ли мультиплексированный PS декодироваться устройством с заданной скоростью передачи данных и размером буфера. [52] Это обеспечивает обратную связь с мультиплексором и кодировщиком, чтобы они могли изменять размер мультиплексора или регулировать битрейт по мере необходимости для обеспечения соответствия.

Часть 2: Видео [ править ]

Часть 2 стандарта MPEG-1 касается видео и определена в ISO / IEC-11172-2. На дизайн сильно повлиял H.261 .

MPEG-1 Video использует методы перцептивного сжатия для значительного снижения скорости передачи данных, необходимой для видеопотока. Он уменьшает или полностью отбрасывает информацию в определенных частотах и ​​областях изображения, которые человеческий глаз имеет ограниченную способность полностью воспринимать. Он также использует временную (по времени) и пространственную (по изображению) избыточность, обычную для видео, для достижения лучшего сжатия данных, чем было бы возможно в противном случае. (См .: Сжатие видео )

Цветовое пространство [ править ]

Пример подвыборки 4: 2: 0. Два перекрывающихся центральных круга представляют пиксели насыщенного синего и красного цвета (цвет), а 4 внешних круга представляют яркость (яркость).

Перед кодированием видео в MPEG-1 цветовое пространство преобразуется в Y'CbCr (Y '= Luma, Cb = Chroma Blue, Cr = Chroma Red). Luma (яркость, разрешение) хранится отдельно от насыщенности цвета (цвет, оттенок, фаза) и еще далее разделено на красные и синие компоненты.

Цветность также субдискретизируется до 4: 2: 0 , то есть уменьшается до половины разрешения по вертикали и до половины разрешения по горизонтали, то есть до одной четверти количества выборок, используемых для компонента яркости видео. [1] Такое использование более высокого разрешения для некоторых цветовых компонентов по своей концепции аналогично шаблонному фильтру Байера, который обычно используется для датчика захвата изображения в цифровых цветных камерах. Поскольку человеческий глаз гораздо более чувствителен к небольшим изменениям яркости (компонент Y), чем к цвету (компоненты Cr и Cb), субдискретизация цветности - очень эффективный способ уменьшить объем видеоданных, которые необходимо сжать. Однако на видео с мелкими деталями (высокая пространственная сложность) это может проявляться в виде артефактов наложения цветности . По сравнению с другими артефактами цифрового сжатия эта проблема очень редко вызывает раздражение. Из-за субдискретизации видео Y′CbCr 4: 2: 0 обычно сохраняется с четными размерами ( кратными 2 по горизонтали и вертикали).

Цвет Y'CbCr часто неофициально называют YUV для упрощения обозначений, хотя этот термин более правильно относится к несколько другому формату цвета. Точно так же термины яркость и цветность часто используются вместо (более точных) терминов яркость и цветность.

Разрешение / битрейт [ править ]

MPEG-1 поддерживает разрешение до 4095 × 4095 (12 бит) и скорость передачи до 100 Мбит / с. [15]

Видео в формате MPEG-1 чаще всего просматриваются с использованием разрешения исходного входного формата (SIF): 352 × 240, 352 × 288 или 320 × 240. Эти относительно низкие разрешения в сочетании с битовой скоростью менее 1,5 Мбит / с составляют так называемый битовый поток с ограниченными параметрами (CPB), позже переименованный в профиль «Низкий уровень» (LL) в MPEG-2. Это минимальные характеристики видео, с которыми должен справиться любой декодер , чтобы считаться совместимым с MPEG-1 . Это было выбрано, чтобы обеспечить хороший баланс между качеством и производительностью, позволяя использовать достаточно дешевое оборудование того времени. [2] [15]

Типы кадров / изображений / блоков [ править ]

MPEG-1 имеет несколько типов кадров / изображений, которые служат разным целям. Самый важный, но самый простой - это I-frame .

I-кадры [ править ]

«I-кадр» - это аббревиатура от « Intra-frame », так называемого, потому что они могут быть декодированы независимо от любых других кадров. Их также можно называть I-изображениями или ключевыми кадрами из-за того, что они в чем-то похожи на ключевые кадры, используемые в анимации. I-кадры можно считать фактически идентичными базовым изображениям JPEG . [15]

Высокоскоростной поиск по видео MPEG-1 возможен только до ближайшего I-кадра. При нарезке видео невозможно начать воспроизведение сегмента видео до первого I-кадра в сегменте (по крайней мере, без перекодирования, требующего интенсивных вычислений). По этой причине в приложениях для редактирования используются видео MPEG только с I-кадром.

Сжатие только I-кадра происходит очень быстро, но дает файлы очень больших размеров: в 3 раза (или более) больше, чем обычно кодированное видео MPEG-1, в зависимости от того, насколько сложным во времени является конкретное видео. [2] Видео MPEG-1 только с I-кадром очень похоже на видео MJPEG . Настолько, что очень быстрое и теоретически без потерь (на самом деле есть ошибки округления) преобразование из одного формата в другой может быть выполнено при соблюдении нескольких ограничений (цветовое пространство и матрица квантования) при создании битовый поток. [53]

Длина между I-кадрами известна как размер группы изображений (GOP). MPEG-1 чаще всего использует размер GOP 15-18. т.е. 1 I-кадр на каждые 14-17 не-I-кадров (некоторая комбинация P- и B-кадров). В более интеллектуальных кодировщиках размер GOP выбирается динамически до некоторого заранее выбранного максимального предела. [15]

Ограничения накладываются на максимальное количество кадров между I-кадрами из-за сложности декодирования, размера буфера декодера, времени восстановления после ошибок данных, возможности поиска и накопления ошибок IDCT в реализациях с низкой точностью, наиболее распространенных в аппаратных декодерах (см .: IEEE -1180).

P-кадры [ править ]

«P-frame» - это сокращение от «Predicted-frame». Их также можно называть кадрами с прогнозированием вперед или межкадрами (B-кадры также являются межкадрами).

P-кадры существуют для улучшения сжатия за счет использования временной (во времени) избыточности видео. P-кадры хранить только на разницу в изображении из кадра (либо I-кадра или P-кадр) , непосредственно предшествующей его (этот опорный кадр также называется якорный кадр ).

Разница между P-кадром и его опорным кадром вычисляется с использованием векторов движения для каждого макроблока кадра (см. Ниже). Такие данные вектора движения будут встроены в P-кадр для использования декодером.

P-кадр может содержать любое количество блоков с внутренним кодированием в дополнение к любым блокам с прямым предсказанием. [54]

Если видео резко меняется от одного кадра к другому (например, отрывка ), более эффективно кодировать его как I-кадр.

B-кадры [ править ]

«B-кадр» означает «двунаправленный кадр» или «двунаправленный кадр». Они также могут быть известны как кадры с обратным предсказанием или B-изображения. B-кадры очень похожи на P-кадры, за исключением того, что они могут делать прогнозы, используя как предыдущие, так и будущие кадры (то есть два якорных кадра).

Следовательно, игроку необходимо сначала декодировать следующий I- или P-кадр привязки последовательно после B-кадра, прежде чем B-кадр может быть декодирован и отображен. Это означает, что для декодирования B-кадров требуются большие буферы данных и увеличивается задержка как при декодировании, так и во время кодирования. Это также требует функции декодирования временных меток (DTS) в контейнере / системном потоке (см. Выше). Таким образом, B-кадры долгое время вызывали много споров, их часто избегают в видео, а иногда и не полностью поддерживают аппаратные декодеры.

Никакие другие кадры не предсказываются из B-кадра. Из-за этого при необходимости может быть вставлен B-кадр с очень низким битрейтом, чтобы помочь контролировать битрейт. Если бы это было сделано с P-кадром, будущие P-кадры предсказывались бы на его основе, что снизило бы качество всей последовательности. Однако аналогично будущий P-кадр должен по-прежнему кодировать все изменения между ним и предыдущим I- или P-кадром привязки. B-кадры также могут быть полезны в видеороликах, где фон позади объекта раскрывается в нескольких кадрах, или при переходах с постепенным исчезновением изображения, например при смене сцены. [2] [15]

B-кадр может содержать любое количество блоков с внутренним кодированием и блоков с прямым предсказанием в дополнение к блокам с обратным или двунаправленным предсказанием. [15] [54]

D-кадры [ править ]

MPEG-1 имеет уникальный тип кадра, которого нет в более поздних стандартах видео. «D-кадры» или DC-изображения представляют собой независимо кодированные изображения (внутрикадровые), которые были закодированы с использованием только коэффициентов преобразования постоянного тока (коэффициенты переменного тока удаляются при кодировании D-кадров - см. DCT ниже) и, следовательно, имеют очень низкое качество. На D-кадры никогда не ссылаются I-, P- или B-кадры. D-кадры используются только для быстрого предварительного просмотра видео, например, при поиске видео на высокой скорости. [2]

При наличии оборудования декодирования с умеренно более высокой производительностью быстрый предварительный просмотр может быть выполнен путем декодирования I-кадров вместо D-кадров. Это обеспечивает более качественный предварительный просмотр, поскольку I-кадры содержат коэффициенты переменного тока, а также коэффициенты постоянного тока. Если кодер может предположить, что в декодерах доступна возможность быстрого декодирования I-кадров, он может сэкономить биты, не посылая D-кадры (таким образом, улучшая сжатие видеоконтента). По этой причине D-кадры редко используются в кодировании видео MPEG-1, а функция D-кадра не была включена ни в какие более поздние стандарты кодирования видео.

Макроблоки [ править ]

MPEG-1 работает с видео в виде последовательности блоков 8 × 8 для квантования. Однако для уменьшения скорости передачи битов, необходимой для векторов движения, и поскольку цветность (цвет) субдискретизируется с коэффициентом 4, каждая пара (красный и синий) блоков цветности соответствует 4 различным блокам яркости. Этот набор из 6 блоков с разрешением 16 × 16 обрабатывается вместе и называется макроблоком .

Макроблок - это наименьшая независимая единица (цветного) видео. Векторы движения (см. Ниже) действуют исключительно на уровне макроблоков.

Если высота или ширина видео не кратны 16, полные строки и полные столбцы макроблоков все равно должны кодироваться и декодироваться, чтобы заполнить изображение (хотя дополнительные декодированные пиксели не отображаются).

Векторы движения [ править ]

Чтобы уменьшить степень временной избыточности в видео, обновляются только изменяющиеся блоки (до максимального размера GOP). Это называется условным пополнением. Однако само по себе это не очень эффективно. Движение объектов и / или камеры может привести к необходимости обновления больших частей кадра, даже если изменилось только положение ранее закодированных объектов. Посредством оценки движения кодер может компенсировать это движение и удалить большой объем избыточной информации.

Кодер сравнивает текущий кадр с соседними частями видео от опорного кадра (предыдущего I- или P - кадр) в форме ромба, вплоть до (кодер-специфического) предопределенного радиуса ограничения из области текущего макроблока. Если совпадение найдено, только направление и расстояние (т.е. вектор от движения ) от предыдущей области видео к текущей потребности макроблока, подлежащий кодированию в интер-кадр (P- или B- кадр). Обратный процесс, выполняемый декодером для восстановления изображения, называется компенсацией движения .

Однако предсказанный макроблок редко полностью совпадает с текущим изображением. Различия между предполагаемой областью совпадения и реальным кадром / макроблоком называется ошибкой предсказания. Чем больше ошибка предсказания, тем больше данных необходимо дополнительно закодировать в кадре. Для эффективного сжатия видео очень важно, чтобы кодер мог эффективно и точно выполнять оценку движения.

Векторы движения записывают расстояние между двумя областями на экране в зависимости от количества пикселей (также называемых пикселями). Видео MPEG-1 использует точность вектора движения (MV) в половину одного пикселя или полупикселя. Чем выше точность MV, тем точнее будет совпадение и тем эффективнее будет сжатие. Однако есть компромиссы для более высокой точности. Более высокая точность MV приводит к использованию большего количества данных для представления MV, поскольку в кадре должны храниться большие числа для каждого отдельного MV, повышенная сложность кодирования, поскольку как для кодера, так и для декодера требуются возрастающие уровни интерполяции в макроблоке, и убывающая отдача(минимальный выигрыш) с более высокой точностью MV. Половинная точность была выбрана как идеальный компромисс на тот момент времени. (См .: qpel )

Поскольку соседние макроблоки, вероятно, имеют очень сходные векторы движения, эта избыточная информация может быть сжата достаточно эффективно хранятся ДИКЙ закодировано. Только (меньшая) разница между MV для каждого макроблока должна быть сохранена в конечном потоке битов.

P-кадры имеют один вектор движения каждого макроблока, по отношению к предыдущему кадру якоря. Однако B-кадры могут использовать два вектора движения; один из предыдущего якорного кадра и один из будущего якорного кадра. [54]

Частичные макроблоки и черные границы / полосы, закодированные в видео, которые не попадают точно на границу макроблока, вызывают хаос в прогнозировании движения. Информация о заполнении / границе блока предотвращает точное совпадение макроблока с любой другой областью видео, и поэтому для каждого из нескольких десятков частичных макроблоков вдоль границы экрана необходимо кодировать значительно большую информацию об ошибке прогнозирования. Кодирование и квантование DCT (см. Ниже) также не так эффективно, когда в блоке есть большой / резкий контраст изображения.

Еще более серьезная проблема существует с макроблоками, которые содержат значительный случайный краевой шум , когда изображение становится (обычно) черным. Все вышеперечисленные проблемы также относятся к краевому шуму. К тому же добавленную случайность просто невозможно значительно сжать. Все эти эффекты существенно снизят качество (или увеличат битрейт) видео.

DCT [ править ]

Каждый блок 8 × 8 кодируется сначала путем применения прямого дискретного косинусного преобразования (FDCT), а затем процесса квантования. Процесс FDCT (сам по себе) теоретически не имеет потерь и может быть отменен путем применения обратного DCT ( IDCT ) для воспроизведения исходных значений (при отсутствии каких-либо ошибок квантования и округления). В действительности, есть некоторые (иногда большие) ошибки округления, вызванные как квантованием в кодере (как описано в следующем разделе), так и ошибкой аппроксимации IDCT в декодере. Минимально допустимая точность приближения IDCT декодера определяется ISO / IEC 23002-1. (До 2006 года это было указано в стандарте IEEE 1180-1990.)

Процесс FDCT преобразует блок 8 × 8 несжатых значений пикселей (значений яркости или цветового различия) в индексированный массив 8 × 8 значений частотных коэффициентов . Одним из них является (статистически высокая дисперсия) «коэффициент постоянного тока», который представляет собой среднее значение всего блока 8 × 8. Остальные 63 коэффициента являются статистически меньшими «коэффициентами переменного тока», которые имеют положительные или отрицательные значения, каждое из которых представляет синусоидальные отклонения от значения плоского блока, представленного коэффициентом постоянного тока.

Пример закодированного блока FDCT 8 × 8:

Поскольку значение коэффициента DC статистически коррелирует от одного блока к другому, оно сжимается с использованием кодирования DPCM . Только (меньшая) разница между каждым значением DC и значением коэффициента DC в блоке слева от него должна быть представлена ​​в конечном потоке битов.

Кроме того, преобразование частоты, выполняемое путем применения DCT, обеспечивает функцию статистической декорреляции для эффективного концентрирования сигнала в меньшем количестве высокоамплитудных значений перед применением квантования (см. Ниже).

Квантование [ править ]

Квантование - это, по сути, процесс снижения точности сигнала путем деления его на некоторый больший размер шага и округления до целого значения (т.е. нахождение ближайшего кратного и отбрасывание остатка).

Квантователь уровня кадра - это число от 0 до 31 (хотя кодеры обычно пропускают / отключают некоторые из крайних значений), которое определяет, сколько информации будет удалено из данного кадра. Квантователь на уровне кадра обычно либо динамически выбирается кодером для поддержания определенной скорости передачи битов, заданной пользователем, либо (что гораздо реже) напрямую задается пользователем.

«Матрица квантования» - это строка из 64 чисел (в диапазоне от 0 до 255), которая сообщает кодировщику, насколько относительно важна или не важна каждая часть визуальной информации. Каждому числу в матрице соответствует определенная частотная составляющая видеоизображения.

Пример матрицы квантования:

Квантование выполняется путем взятия каждого из 64 частотных значений блока DCT, их деления с помощью квантователя уровня кадра, а затем деления их на соответствующие им значения в матрице квантования. Наконец, результат округляется в меньшую сторону. Это значительно уменьшает или полностью исключает информацию в некоторых частотных компонентах изображения. Как правило, высокочастотная информация менее важна для визуального восприятия, поэтому высокие частоты гораздо сильнее квантуются (значительно уменьшаются). MPEG-1 фактически использует две отдельные матрицы квантования, одну для внутриблоков (I-блоки) и одну для межблоков (P- и B-блоки), поэтому квантование разных типов блоков может выполняться независимо, а значит, более эффективно. . [2]

Этот процесс квантования обычно уменьшает значительное количество коэффициентов AC до нуля (известных как разреженные данные), которые затем могут быть более эффективно сжаты с помощью энтропийного кодирования (сжатие без потерь) на следующем этапе.

Пример квантованного блока DCT:

Квантование устраняет большой объем данных и является основным этапом обработки с потерями при кодировании видео MPEG-1. Это также основной источник большинства артефактов сжатия видео MPEG-1 , таких как блочность , цветовые полосы , шум , звон , обесцвечивание и т. Д. Это происходит, когда видео кодируется с недостаточным битрейтом, и поэтому кодировщик вынужден использовать квантователи с высоким уровнем кадра ( сильное квантование ) для большей части видео.

Энтропийное кодирование [ править ]

Некоторые этапы кодирования видео MPEG-1 выполняются без потерь, что означает, что они будут отменены при декодировании для получения точно таких же (исходных) значений. Поскольку эти шаги сжатия данных без потерь не добавляют шума или иным образом не изменяют содержимое (в отличие от квантования), это иногда называют бесшумным кодированием . [46] Поскольку сжатие без потерь направлено на устранение как можно большей избыточности, в области теории информации оно известно как энтропийное кодирование .

Коэффициенты квантованных блоков DCT стремятся к нулю в правом нижнем углу. Максимальное сжатие может быть достигнуто зигзагообразным сканированием блока DCT, начиная с верхнего левого угла, и с использованием методов кодирования длин серий.

Коэффициенты DC и векторы движения кодируются DPCM.

Кодирование длин серий (RLE) - это простой метод сжатия повторений. Последовательную строку символов, независимо от ее длины, можно заменить несколькими байтами с указанием повторяющегося значения и количества раз. Например, если кто-то скажет «пять девяток», вы поймете, что они имеют в виду число: 99999.

RLE особенно эффективен после квантования, так как значительная часть коэффициентов переменного тока теперь равна нулю (так называемые разреженные данные) и могут быть представлены всего парой байтов. Это хранится в специальной двумерной таблице Хаффмана, которая кодирует длину серии и символ окончания серии.

Кодирование Хаффмана - очень популярный и относительно простой метод энтропийного кодирования, который используется в видео MPEG-1 для уменьшения размера данных. Данные анализируются, чтобы найти строки, которые часто повторяются. Эти строки затем помещаются в специальную таблицу, причем наиболее часто повторяющимся данным назначается кратчайший код. Это позволяет уменьшить размер данных при такой форме сжатия. [46] После построения таблицы эти строки в данных заменяются их (гораздо меньшими) кодами, которые ссылаются на соответствующую запись в таблице. Декодер просто меняет этот процесс, чтобы получить исходные данные.

Это последний шаг в процессе кодирования видео, поэтому результат кодирования Хаффмана известен как «битовый поток» видео MPEG-1.

Конфигурации GOP для конкретных приложений [ править ]

I-кадры хранят в кадре полную информацию о кадре и поэтому подходят для произвольного доступа. P-кадры обеспечивают сжатие с использованием векторов движения относительно предыдущего кадра (I или P). B-кадры обеспечивают максимальное сжатие, но для вычисления требуются как предыдущий, так и следующий кадр. Следовательно, для обработки B-кадров требуется больший буфер на декодированной стороне. Конфигурация группы изображений(GOP) следует выбирать на основе этих факторов. Последовательности только I-кадра дают наименьшее сжатие, но полезны для произвольного доступа, FF / FR и возможности редактирования. Последовательности I- и P-кадров дают умеренное сжатие, но добавляют определенную степень произвольного доступа, функциональность FF / FR. Последовательности I-, P- и B-кадров дают очень высокое сжатие, но также значительно увеличивают задержку кодирования / декодирования. Поэтому такие конфигурации не подходят для приложений видеотелефонии или видеоконференцсвязи.

Типичная скорость передачи данных для I-кадра составляет 1 бит на пиксель, для P-кадра - 0,1 бит на пиксель, а для B-кадра - 0,015 бит на пиксель. [55]

Часть 3: Аудио [ править ]

Часть 3 стандарта MPEG-1 касается звука и определена в ISO / IEC-11172-3.

MPEG-1 Audio использует психоакустику для значительного снижения скорости передачи данных, необходимой для аудиопотока. Он уменьшает или полностью отбрасывает определенные части звука, которые, по его мнению, не могут быть слышны человеческим ухом , либо потому, что они находятся на частотах, где ухо имеет ограниченную чувствительность, либо маскируются другими (обычно более громкими) звуками. [56]

Кодировка канала:

  • Мононуклеоз
  • Joint Stereo - закодированная интенсивность
  • Joint Stereo - M / S кодируется только для уровня III
  • Стерео
  • Двойной (два некоррелированных моноканала)
  • Частота дискретизации : 32000, 44100 и 48000 Гц
  • Битрейт для уровня I: 32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416 и 448 кбит / с [57]
  • Битрейт для уровня II: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 и 384 кбит / с
  • Битрейт для уровня III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 и 320 кбит / с

MPEG-1 Audio разделен на 3 уровня. Каждый более высокий уровень является более сложным в вычислительном отношении и, как правило, более эффективным при более низких битрейтах, чем предыдущий. [15] Уровни являются частично обратно совместимыми, поскольку технологии повторного использования более высоких уровней реализованы нижними уровнями. «Полный» декодер уровня II также может воспроизводить звук уровня I, но не звук уровня III, хотя не все проигрыватели более высокого уровня являются «полными». [56]

Слой I [ править ]

MPEG-1 Audio Layer I - это упрощенная версия MPEG-1 Audio Layer II. [17] Слой I использует меньший размер кадра 384 отсчета для очень низкой задержки и более высокого разрешения. [25] Это выгодно для таких приложений, как телеконференции, студийное редактирование и т. Д. Он имеет меньшую сложность, чем уровень II, для облегчения кодирования в реальном времени на оборудовании, доступном примерно в 1990 году. [46]

Слой я видел ограниченное принятие в свое время, и в первую очередь используется на Philips ' несуществующей Digital Compact Cassette с битрейтом 384 кбит / с. [1] Благодаря существенному повышению производительности цифровой обработки с момента его появления, Layer I быстро стал ненужным и устаревшим.

Аудиофайлы уровня I обычно используют расширение «.mp1» или иногда «.m1a».

Слой II [ править ]

MPEG-1 Audio Layer II (первая версия MP2, часто неофициально называемая MUSICAM) [56] - это аудиоформат с потерями , разработанный для обеспечения высокого качества стереозвука со скоростью около 192 кбит / с. Декодирование аудио MP2 в вычислительном отношении просто по сравнению с MP3, AAC и т. Д.

История / МУЗЫКА [ править ]

MPEG-1 Audio Layer II был получен на основе аудиокодека MUSICAM (универсальное интегрированное кодирование и мультиплексирование поддиапазонов, адаптированное к шаблону маскирования ), разработанного Центром коммуникаций и телевидения (CCETT), Philips и Institut für Rundfunktechnik (IRT / CNET). ) [15] [17] [58] в рамках общеевропейской межправительственной инициативы EUREKA 147 по исследованиям и разработкам для развития цифрового аудиовещания.

Большинство ключевых функций MPEG-1 Audio были непосредственно унаследованы от MUSICAM, включая банк фильтров, обработку во временной области, размеры аудиокадров и т. Д. Однако были внесены улучшения, и фактический алгоритм MUSICAM не использовался в окончательной версии MPEG-1. Стандарт Audio Layer II. Широко распространенное использование термина MUSICAM для обозначения Layer II совершенно неверно и не приветствуется как по техническим, так и по юридическим причинам. [56]

Технические детали [ править ]

MP2 - кодировщик временной области. Он использует набор многофазных фильтров из 32 поддиапазонов с малой задержкой для частотно-временного преобразования; имеющие перекрывающиеся диапазоны (т.е. многофазные) для предотвращения наложения спектров. [59] Психоакустическая модель основана на принципах слуховой маскировки , одновременных маскирующих эффектов и абсолютного порога слышимости (ATH). Размер кадра уровня II фиксирован и составляет 1152 выборки (коэффициентов).

Временная область относится к тому, как выполняется анализ и квантование коротких дискретных выборок / фрагментов звуковой волны. Это обеспечивает низкую задержку, поскольку только небольшое количество выборок анализируется перед кодированием, в отличие от кодирования в частотной области (например, MP3), которое должно анализировать во много раз больше выборок, прежде чем он сможет решить, как преобразовать и вывести закодированный звук. Это также обеспечивает более высокую производительность для сложных, случайных и кратковременных импульсов (таких как ударные инструменты и аплодисменты), что позволяет избежать артефактов, таких как пре-эхо.

Набор из 32 поддиапазонов фильтров возвращает 32 амплитудных коэффициента , по одному для каждой полосы частот / сегментов одинакового размера, ширина которой составляет около 700 Гц (в зависимости от частоты дискретизации звука). Затем кодер использует психоакустическую модель, чтобы определить, какие поддиапазоны содержат менее важную звуковую информацию и, следовательно, где квантование будет неслышным или, по крайней мере, гораздо менее заметным. [46]

Пример анализа БПФ на образце звуковой волны.

Психоакустическая модель применяется с использованием 1024-точечного быстрого преобразования Фурье (БПФ). Из 1152 отсчетов на кадр 64 отсчета вверху и внизу частотного диапазона игнорируются для этого анализа. Предположительно, они недостаточно значительны, чтобы изменить результат. Психоакустическая модель использует эмпирически определенную модель маскирования, чтобы определить, какие поддиапазоны вносят больший вклад в порог маскирования и сколько шума квантования каждый может содержать, не будучи воспринятым. Любые звуки ниже абсолютного порога слышимости (ATH) полностью игнорируются. Доступные биты затем назначаются каждой подполосе соответственно. [56] [59]

Как правило, поддиапазоны менее важны, если они содержат более тихие звуки (меньший коэффициент), чем соседний (т.е. аналогичная частота) подполоса с более громкими звуками (больший коэффициент). Кроме того, «шумовые» компоненты обычно имеют более значительный маскирующий эффект, чем «тональные» компоненты. [58]

Точность менее значимых поддиапазонов снижается за счет квантования. Это в основном включает сжатие частотного диапазона (амплитуды коэффициента), то есть повышение минимального уровня шума. Затем вычисляется коэффициент усиления, который декодер может использовать для повторного расширения каждого поддиапазона до надлежащего частотного диапазона. [60] [61]

Уровень II также может дополнительно использовать стереокодирование интенсивности , форму совместного стерео. Это означает, что частоты выше 6 кГц обоих каналов объединяются / микшируются в один единственный (моно) канал, но информация «побочного канала» об относительной интенсивности (громкости, амплитуде) каждого канала сохраняется и кодируется в битовый поток отдельно. При воспроизведении один канал воспроизводится через левый и правый динамики, при этом информация об интенсивности применяется к каждому каналу, чтобы создать иллюзию стереозвука. [46] [58]Этот трюк с восприятием известен как «стереозависимость». Это может позволить дальнейшее снижение битрейта аудио без заметной потери точности, но обычно не используется с более высокими битрейтами, так как не обеспечивает очень высокое качество (прозрачное) аудио. [46] [59] [62] [63]

Качество [ править ]

Субъективное тестирование звука экспертами в самых критических условиях, когда-либо реализованных, показало, что MP2 предлагает прозрачное сжатие звука со скоростью 256 кбит / с для 16-битного звука CD 44,1 кГц с использованием самой ранней эталонной реализации (более современные кодеры, вероятно, должны работать еще лучше) . [1] [58] [59] [64] Эта (приблизительно) степень сжатия 1: 6 для аудио компакт-дисков особенно впечатляет, потому что она довольно близка к предполагаемому верхнему пределу восприятия энтропии , чуть более 1: 8. [65] [66] Достижение более высокого уровня сжатия просто невозможно без отказа от некоторой воспринимаемой информации.

MP2 остается предпочтительным стандартом кодирования звука с потерями из-за его особенно высоких характеристик кодирования звука на таких важных аудиоматериалах, как кастаньеты, симфонический оркестр, мужские и женские голоса, а также особенно сложные и высокоэнергетические переходные процессы (импульсы), такие как ударные звуки: треугольник, глокеншпиль и аудитория. аплодисменты. [25] Более недавнее тестирование показало, что MPEG Multichannel (на основе MP2), несмотря на то, что он скомпрометирован более низким матричным режимом (ради обратной совместимости) [1] [59], немного ниже, чем у гораздо более поздних аудиокодеков, такие как Dolby Digital (AC-3) и Advanced Audio Coding(AAC) (в основном в пределах погрешности - и в некоторых случаях значительно лучше, например, при аплодисментах аудитории). [67] [68] Это одна из причин того, что звук MP2 продолжает широко использоваться. Однако проверочные тесты MPEG-2 AAC Stereo пришли к совершенно иному выводу, показав, что AAC обеспечивает превосходную производительность по сравнению с MP2 при вдвое меньшем битрейте. [69] Причина этого несоответствия как с более ранними, так и с более поздними тестами не ясна, но, как ни странно, выборка аплодисментов заметно отсутствует в последнем тесте.

Аудиофайлы уровня II обычно используют расширение «.mp2» или иногда «.m2a».

Слой III [ править ]

MPEG-1 Audio Layer III (первая версия MP3 ) - это аудиоформат с потерями , разработанный для обеспечения приемлемого качества со скоростью около 64 кбит / с для монофонического звука по одноканальным ( BRI ) каналам ISDN и 128 кбит / с для стереозвука. .

История / ASPEC [ править ]

ASPEC 91 в Немецком музее Бонна , с кодировщиком (внизу) и декодером

MPEG-1 Audio Layer III был получен на основе кодека адаптивного спектрального восприятия энтропийного кодирования (ASPEC), разработанного Фраунгофер в рамках общеевропейской межправительственной инициативы исследований и разработок EUREKA 147 для развития цифрового аудиовещания. ASPEC был адаптирован для соответствия модели уровня II (размер кадра, набор фильтров, БПФ и т. Д.), Чтобы стать уровнем III. [17]

АСПЭК сам был основан на несколько адаптивном спектральном кодировании звука (MSC) с помощью EF Шредера , оптимального кодирования в частотной области (OCF) докторская диссертация по Карлхайнц Бранденбург в Университете Эрланген-Нюрнберг , Перцепционная Transform Coding (PXFM) от JD Johnston в AT&T Bell Labs и « Преобразование кодирования аудиосигналов » Я. Махье и Ж. Пети из Institut für Rundfunktechnik (IRT / CNET). [70]

Технические детали [ править ]

MP3 - это кодировщик преобразования звука в частотной области . Несмотря на то, что в нем используются некоторые функции нижнего уровня, MP3 сильно отличается от MP2.

MP3 работает с 1152 сэмплами, как MP2, но ему необходимо взять несколько кадров для анализа, прежде чем обработка и квантование в частотной области (MDCT) станут эффективными. Он выводит переменное количество выборок, используя битовый буфер для включения кодирования с переменным битрейтом (VBR), сохраняя при этом 1152 выходных кадра с размером выборки. Это вызывает значительно более длительную задержку перед выводом, из-за чего MP3 считается непригодным для студийных приложений, где требуется редактирование или другая обработка. [59]

MP3 не использует 32-х полосный многофазный банк фильтров, вместо этого просто использует 18-точечное преобразование MDCT на каждом выходе для разделения данных на 576 частотных компонентов и обработки их в частотной области. [58] Эта дополнительная степень детализации позволяет MP3 иметь гораздо более тонкую психоакустическую модель и более тщательно применять соответствующее квантование к каждой полосе, обеспечивая гораздо лучшую производительность с низким битрейтом.

Обработка в частотной области также накладывает некоторые ограничения, вызывая ухудшение временного разрешения в 12 или 36 раз по сравнению с уровнем II. Это вызывает артефакты квантования из-за переходных звуков, таких как ударные события и другие высокочастотные события, которые распространяются на большее окно. Это приводит к слышимому размытию и пре-эхо . [59] MP3 использует процедуры обнаружения предварительного эха и кодирование VBR, что позволяет временно увеличивать битрейт во время сложных пассажей, пытаясь уменьшить этот эффект. Он также может переключаться между обычным окном квантования из 36 отсчетов и вместо этого использовать 3 × короткие окна из 12 отсчетов, чтобы уменьшить временную (временную) длину артефактов квантования. [59] И все же при выборе довольно небольшого размера окна, чтобы временная характеристика MP3 была достаточно адекватной, чтобы избежать самых серьезных артефактов, MP3 становится гораздо менее эффективным в сжатии в частотной области стационарных тональных компонентов.

Вынужденный использовать гибридную модель временной области (банк фильтров) / частотной области (MDCT), чтобы соответствовать Уровню II, просто тратит время обработки и ставит под угрозу качество, вводя артефакты наложения спектров. MP3 имеет стадию отмены наложения спектров специально для маскировки этой проблемы, но вместо этого вырабатывает энергию частотной области, которая должна быть закодирована в аудио. Он помещается в верхнюю часть частотного диапазона, где у большинства людей плохой слух, в надежде, что вызываемое им искажение будет менее слышимым.

1024-точечное БПФ уровня II не полностью покрывает все выборки и не учитывает несколько целых поддиапазонов MP3, где необходимо определить коэффициенты квантования. Вместо этого MP3 использует два прохода анализа БПФ для спектральной оценки, чтобы вычислить глобальный и индивидуальный пороги маскирования. Это позволяет охватить все 1152 образца. Из этих двух он использует глобальный пороговый уровень маскирования для более критического прохода с наиболее сложным звуком.

В дополнение к объединенному стереозвуку Layer II, закодированному по интенсивности, MP3 может использовать объединенное стерео среднее / боковое (середина / сторона, м / с, MS, матричное). При использовании среднего / бокового стерео определенные частотные диапазоны обоих каналов объединяются в один (средний, средний, L + R) моно канал, в то время как разница в звучании между левым и правым каналами сохраняется как отдельный (боковой, LR) канал. . В отличие от интенсивного стерео, этот процесс не отбрасывает никакой звуковой информации. Однако в сочетании с квантованием он может усилить артефакты.

Если разница между левым и правым каналами небольшая, боковой канал будет небольшим, что обеспечит экономию битрейта на 50% и соответствующее улучшение качества. Если разница между левым и правым большие, может быть предпочтительнее стандартное (дискретное, левое / правое) стереокодирование, поскольку объединенное стерео середина / сторона не принесет никаких преимуществ. Кодировщик MP3 может переключаться между м / с стерео и полным стерео на покадровой основе. [58] [63] [71]

В отличие от уровней I и II, MP3 использует кодирование Хаффмана переменной длины (после перцептивного) для дальнейшего снижения битрейта без дальнейшей потери качества. [56] [59]

Качество [ править ]

Эти технические ограничения по своей сути не позволяют MP3 обеспечивать критически прозрачное качество при любой скорости передачи данных. Благодаря этому качество звука Layer II фактически превосходит качество звука MP3, когда он используется с достаточно высоким битрейтом, чтобы избежать заметных артефактов. Однако термин «прозрачный» часто используется неправильно. Качество MP3 (и других кодеков) иногда называют «прозрачным» даже при невероятно низких битрейтах, когда на самом деле имеется в виду «среднее хорошее качество / некритичный материал» или, возможно, «проявляются только не раздражающие артефакты». "

Однако более мелкозернистое и избирательное квантование MP3 заметно превосходит MP2 при более низких битрейтах. Он способен обеспечить почти такое же качество звука, что и Layer II, при более низком битрейте на 15% (приблизительно). [68] [69] 128 кбит / с считается оптимальным вариантом для MP3; означает , что она обеспечивает в целом приемлемое качество стерео звука на большинстве музыки, и есть убывающая улучшения качества от дальнейшего увеличения битрейта. Также считается, что MP3 демонстрирует менее раздражающие артефакты, чем Layer II, когда оба используются со слишком низкой битовой скоростью, чтобы обеспечить точное воспроизведение.

Аудиофайлы уровня III имеют расширение «.mp3».

Расширения аудио MPEG-2 [ править ]

Стандарт MPEG-2 включает несколько расширений MPEG-1 Audio. [59] Они известны как MPEG-2 BC - обратно совместимы с MPEG-1 Audio. [72] [73] [74] [75] Аудио MPEG-2 определено в ISO / IEC 13818-3.

  • MPEG Multichannel - 5.1-канальный объемный звук с обратной совместимостью . [24]
  • Частота дискретизации : 16000, 22050 и 24000 Гц.
  • Битрейты : 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144 и 160 кбит / с

Эти частоты дискретизации ровно вдвое меньше тех, что были изначально определены для MPEG-1 Audio. Они были введены для поддержания более высокого качества звука при кодировании звука с более низкой скоростью передачи данных. [24] Еще более низкие битрейты были введены, потому что тесты показали, что MPEG-1 Audio может обеспечить более высокое качество, чем любые существующие ( около 1994 года) аудиокодеки с очень низким битрейтом (то есть речи ). [76]

Часть 4: Тестирование на соответствие [ править ]

Часть 4 стандарта MPEG-1 охватывает тестирование на соответствие и определена в ISO / IEC-11172-4.

Соответствие: Процедуры проверки соответствия.

Предоставляет два набора руководящих принципов и эталонных битовых потоков для проверки совместимости аудио- и видеодекодеров MPEG-1, а также битовых потоков, создаваемых кодировщиком. [15] [22]

Часть 5: Справочное программное обеспечение [ править ]

Часть 5 стандарта MPEG-1 включает справочное программное обеспечение и определена в ISO / IEC TR 11172-5.

Моделирование: справочное программное обеспечение.

Эталонный код C для кодирования и декодирования аудио и видео, а также мультиплексирования и демультиплексирования. [15] [22]

Сюда входит код аудиокодера ISO Dist10 , на котором изначально были основаны LAME и TooLAME .

Расширение файла [ править ]

.mpg - это одно из ряда расширений файлов для сжатия аудио и видео MPEG-1 или MPEG-2 . Видео MPEG-1 Part 2 в настоящее время встречается редко, и это расширение обычно относится к программному потоку MPEG (определенному в MPEG-1 и MPEG-2) или транспортному потоку MPEG (определенному в MPEG-2). Также существуют другие суффиксы, такие как .m2ts, указывающие точный контейнер, в данном случае TS MPEG-2, но это не имеет большого отношения к носителям MPEG-1.

.mp3 - наиболее распространенное расширение для файлов, содержащих аудио в формате MP3 (обычно MPEG-1 Audio, иногда MPEG-2 Audio). Файл MP3 обычно представляет собой неограниченный поток необработанного звука; Обычный способ пометить файлы MP3 - это записать данные в «мусорные» сегменты каждого кадра, которые сохраняют мультимедийную информацию, но отбрасываются проигрывателем. Это во многом похоже на то, как помечаются необработанные файлы .AAC (но в настоящее время это менее поддерживается, например, iTunes ).

Обратите внимание, что, хотя это применимо, .mpg обычно не добавляет необработанный AAC или AAC в контейнеры MPEG-2 Part 7 . Расширение .aac обычно обозначает эти аудиофайлы.

См. Также [ править ]

  • MPEG The Moving Picture Experts Group, разработчики стандарта MPEG-1
  • MP3 Дополнительные менее технические сведения о MPEG-1 Audio Layer III
  • Многоканальный MPEG с обратной совместимостью 5.1-канальное расширение объемного звука до MPEG-1 Audio Layer II
  • MPEG-2 Прямой преемник стандарта MPEG-1.
  • ISO / IEC JTC 1 / SC 29
Реализации
  • Libavcodec включает в себя кодировщики и декодеры видео / аудио MPEG-1/2
  • Mjpegtools кодировщики видео / аудио MPEG-1/2
  • TooLAME Высококачественный кодировщик MPEG-1 Audio Layer II.
  • LAME Высококачественный аудиокодер MP3.
  • Musepack Формат, изначально основанный на MPEG-1 Audio Layer II, но теперь несовместимый.

Ссылки [ править ]

  1. ^ a b c d e f Адлер, Марк; Попп, Харальд; Hjerde, Morten (9 ноября 1996 г.), MPEG-FAQ: сжатие мультимедиа [1/9] , faqs.org, заархивировано из оригинала 4 января 2017 г. , получено 11 ноября 2016 г.
  2. ^ a b c d e f g h Ле Галл, Дидье (апрель 1991 г.), MPEG: стандарт сжатия видео для мультимедийных приложений (PDF) , Коммуникации ACM , заархивировано (PDF) из оригинала 27 января 2017 г. , получено 11.11.2016
  3. ^ Chiariglione, Leonardo (21 октября 1989), Kurihama 89 пресс - релиз , ISO / IEC , архивируются с оригинала на 5 августа 2010 года , восстановлена 2008-04-09
  4. ^ ISO / IEC JTC 1 / SC 29 (2009-10-30). «Программа работы - отнесена к SC 29 / WG 11, MPEG-1 (Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с)» . Архивировано из оригинала на 2013-12-31 . Проверено 10 ноября 2009 .
  5. ^ ISO. «ISO / IEC 11172-1: 1993 - Информационные технологии. Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с - Часть 1: Системы» . Архивировано 12 ноября 2016 года . Проверено 11 ноября 2016 .
  6. ^ MPEG. «О MPEG - достижениях» . chiariglione.org. Архивировано из оригинала на 2008-07-08 . Проверено 31 октября 2009 .
  7. ^ MPEG. «Техническое задание» . chiariglione.org. Архивировано из оригинала на 2010-02-21 . Проверено 31 октября 2009 .
  8. ^ a b MPEG. «Стандарты MPEG - Полный список стандартов, разработанных или разрабатываемых» . chiariglione.org. Архивировано из оригинала на 2010-04-20 . Проверено 31 октября 2009 .
  9. ^ Ли, Уильям (1994). Видео по запросу: Research Paper 94/68 . Библиотека Палаты общин . Архивировано из оригинального 20 сентября 2019 года . Проверено 20 сентября 2019 года .
  10. ^ «История сжатия видео» . ITU-T . Объединенная группа по видео (JVT) ISO / IEC MPEG и ITU-T VCEG (ISO / IEC JTC1 / SC29 / WG11 и ITU-T SG16 Q.6). Июль 2002. С. 11, 24–9, 33, 40–1, 53–6 . Дата обращения 3 ноября 2019 .
  11. ^ Ghanbari, Мохаммед (2003). Стандартные кодеки: от сжатия изображений до расширенного кодирования видео . Институт инженерии и технологий . С. 1–2. ISBN 9780852967102.
  12. ^ "История инфографики форматов видеофайлов" . RealNetworks . 22 апреля 2012 . Дата обращения 5 августа 2019 .
  13. ^ Hans GEOG Musmann, генезис MP3 Audio Coding Standard (PDF) , в архиве с оригинала (PDF) на 2012-01-17 , извлекаются 2011-07-26
  14. ^ a b c d e f g h i j k l Фогг, Чад (2 апреля 1996 г.), MPEG-2 FAQ (заархивированный веб-сайт) , Калифорнийский университет, Беркли , заархивировано из оригинала 16 июня 2008 г. , извлечено 2016-11-11
  15. ^ Chiariglione, Леонардо (март 2001), с открытым исходным кодом в формате MPEG , Linux Journal , архивируются с оригинала на 2011-07-25 , извлекаться 2008-04-09
  16. ^ a b c d Кьяриглионе, Леонардо; Ле Галль, Дидье; Мусманн, Ханс-Георг; Саймон, Аллен (сентябрь 1990 г.), пресс-релиз - отчет о состоянии ISO MPEG , ISO / IEC , заархивировано из оригинала 14 февраля 2010 г. , получено 9 апреля 2008 г.
  17. ^ Встречи , ISO / IEC , заархивировано из оригинала 10 февраля 2010 г. , извлечено 9 апреля 2008 г.
  18. ^ a b «MPEG-FAQ, версия 3.1» . Архивировано из оригинала на 2009-07-23 . Проверено 12 октября 2008 . В. Хорошо, тогда как мне получить документы, такие как проект MPEG I? A. MPEG - это проект стандарта ISO. Его [ sic ] точное название - ISO CD 11172. [...] Вы можете заказать его у своего национального органа по стандартизации (например, ANSI в США) или купить у таких компаний, как OMNICOM [...]
  19. ^ "MPEG Press Release" (Пресс-релиз). ИСО / МЭК JTC1 / SC29 / WG11. 6 ноября 1992 года Архивировано из оригинала 12 августа 2010 года . Проверено 7 мая 2018 .
  20. ^ "Архивная копия" . Архивировано из оригинала на 2008-10-06 . Проверено 13 июля 2008 .CS1 maint: archived copy as title (link) «Архивная копия» . Архивировано из оригинала на 2008-06-12 . Проверено 13 июля 2008 .CS1 maint: archived copy as title (link)Непрерывный медиаплеер, Лоуренс А. Роу и Брайан С. Смит, Proc. 3-й Int. Семинар по поддержке сетей и ОС для цифрового аудио и видео, Сан-Диего, Калифорния (ноябрь 1992 г.) [ мертвая ссылка ]
  21. ^ a b c Достижения , ISO / IEC , заархивировано из оригинала на 2008-07-08 , извлечено 2008-04-03
  22. ^ Chiariglione, Леонардо (6 ноября 1992), MPEG Пресс - релиз, Лондон, 6 ноября 1992 , ISO / IEC , архивируются с оригинала на 12 августа 2010 года , получен 2008-04-09
  23. ^ Б с Уоллес, Грег (2 апреля 1993 года), Пресс - релиз , ISO / IEC , архивируются с оригинала на 6 августа 2010 , извлекаться 2008-04-09
  24. ^ a b c d Попп, Харальд; Hjerde, Morten (9 ноября 1996 г.), MPEG-FAQ: сжатие мультимедиа [2/9] , faqs.org, заархивировано из оригинала 4 января 2017 г. , получено 11 ноября 2016 г.
  25. ^ «МЕЖДУНАРОДНАЯ ОРГАНИЗАЦИЯ ПО СТАНДАРТИЗАЦИИ, МЕЖДУНАРОДНАЯ НОРМАЛИЗАЦИЯ ISO» . 26 июля 2010. Архивировано из оригинала 26 июля 2010 года . Проверено 7 мая 2018 .
  26. ^ ISO / IEC JTC 1 / SC 29 (2010-07-17). «MPEG-1 (Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с)» . Архивировано из оригинала на 2013-12-31 . Проверено 18 июля 2010 .
  27. ^ ISO. «ISO / IEC 11172-1: 1993 - Информационные технологии. Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с - Часть 1: Системы» . Архивировано 30 августа 2017 года . Проверено 11 ноября 2016 .
  28. ^ ISO. «ISO / IEC 11172-2: 1993 - Информационные технологии. Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с - Часть 2: Видео» . Архивировано 30 августа 2017 года . Проверено 11 ноября 2016 .
  29. ^ ISO. «ISO / IEC 11172-3: 1993 - Информационные технологии. Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с - Часть 3: Аудио» . Архивировано 15 мая 2017 года . Проверено 11 ноября 2016 .
  30. ^ ISO. «ISO / IEC 11172-4: 1995 - Информационные технологии. Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с - Часть 4: Тестирование на соответствие» . Архивировано 30 августа 2017 года . Проверено 11 ноября 2016 .
  31. ^ ISO. «ISO / IEC TR 11172-5: 1998 - Информационные технологии - Кодирование движущихся изображений и связанного звука для цифровых носителей со скоростью до 1,5 Мбит / с - Часть 5: Моделирование программного обеспечения» . Архивировано 30 августа 2017 года . Проверено 11 ноября 2016 .
  32. Ozer, январь (12 октября 2001 г.), Выбор оптимального разрешения видео: рынок проигрывателей MPEG-2 , extremetech.com , архив из оригинала 7 июня 2011 г. , извлечено 11 ноября 2016 г.
  33. ^ Сравнение между MPEG 1 и 2 , заархивировано из оригинала 10 февраля 2012 г. , извлечено 11 ноября 2016 г.
  34. ^ MPEG 1 And 2 Compared , Pure Motion Ltd., 2003, архивировано из оригинала 14 декабря 2005 г. , извлечено 9 апреля 2008 г.
  35. ^ Дэйв Сингер (2007-11-09). "домашнее задание] резюме обсуждения видео (и аудио) кодеков" . Архивировано 21 декабря 2016 года . Проверено 11 ноября, 2016 .
  36. ^ «Кодирование видео MPEG-1 (H.261)» . Библиотека Конгресса , цифровое хранение. 21 октября 2014 года. Архивировано 11 января 2017 года . Проверено 11 ноября 2016 .
  37. ^ «Стандарты и патенты ISO» . Архивировано 15 ноября 2016 года . Проверено 11 ноября 2016 . Искать 11172
  38. ^ Производительность программного видео декодера MPEG Ссылка 3 в документе относится к проекту стандарта ISO / IEC 11172 комитета, 6 декабря 1991 г.
  39. ^ Статус патента MPEG-1, H.261 и MPEG-2
  40. ^ "[gst-devel] Может ли MPEG-1 с подключаемым модулем Audio Layers 1 и 2 быть в хорошем состоянии (патентоспособно)?" . SourceForge.net . 2008-08-23. Архивировано 02 февраля 2014 года . Проверено 11 ноября 2016 .
  41. ^ https://web.archive.org/web/20110719183135/http://lists.whatwg.org/pipermail/whatwg-whatwg.org/2009-May/020015.html
  42. ^ http://patft1.uspto.gov/netacgi/nph-Parser?patentnumber=5214678 Архивировано 13 июля 2012 г. в Archive.today «Система цифровой передачи, использующая поддиапазонное кодирование цифрового сигнала» Подано: 31 мая 1990 г., Разрешено 25 мая 1993 г., срок действия истекает 31 мая 2010 г.?
  43. ^ "mp3" . Институт интегральных схем им . Фраунгофера IIS . Архивировано 22 марта 2018 года . Проверено 7 мая 2018 .
  44. ^ «Стандарты и патенты ISO» . ISO . Проверено 10 июля 2019 .
  45. ^ a b c d e f g Гриль, B .; Quackenbush, S. (октябрь 2005 г.), MPEG-1 Audio , ISO / IEC , заархивировано из оригинала 30 апреля 2010 г.
  46. ^ Chiariglione, Леонардо, MPEG-1 системы , ISO / IEC , архивируются с оригинала на 2016-11-12 , извлекаться 2016-11-11
  47. ^ a b Заголовок пакета , заархивировано из оригинала 27.10.2016 , получено 11.11.2016
  48. ^ Фимофф, Марк; Bretl, Wayne E. (1 декабря 1999), MPEG2 Tutorial , архивируются с оригинала на 12 ноября 2016 года , восстановлена 2016-11-11
  49. ^ Фимофф, Марк; Bretl, Wayne E. (1 декабря 1999), MPEG2 Tutorial , архивируются с оригинала на 5 ноября 2016 года , восстановлена 2016-11-11
  50. ^ Фимофф, Марк; Bretl, Wayne E. (1 декабря 1999), MPEG2 Tutorial , архивируются с оригинала на 5 ноября 2016 года , восстановлена 2016-11-11
  51. ^ Фимофф, Марк; Bretl, Wayne E. (1 декабря 1999), MPEG2 Tutorial , архивируются с оригинала на 12 ноября 2016 года , восстановлена 2016-11-11
  52. ^ Ачарья, Соам; Смит, Брайан (1998), Сжатый Домен перекодирование MPEG , Cornell University , IEEE Computer Society , IEEE Международная конференция по мультимедиа вычислений и систем, с. 3, заархивировано из оригинала 23 февраля 2011 г. , извлечено 11 ноября 2016 г.- (Требуется умное прочтение: говорит, что матрицы квантования различаются, но это просто значения по умолчанию и их можно выбрать) ( требуется регистрация )
  53. ^ a b c Ви, Сьюзи Дж .; Васудев, Бхаскаран; Лю, Сэм (13 марта 1997 г.), Транскодирование видеопотоков MPEG в сжатой области , Hewlett-Packard , CiteSeerX 10.1.1.24.633 , заархивировано из оригинала 17 августа 2007 г. , получено 11 ноября 2016 г. 
  54. ^ "Архивная копия" . Архивировано из оригинала на 2009-05-03 . Проверено 3 мая 2009 .CS1 maint: archived copy as title (link)
  55. ^ a b c d e е Том, Д .; Пурнхаген, Х. (октябрь 1998 г.), MPEG Audio FAQ Version 9 , ISO / IEC , заархивировано из оригинала 18 февраля 2010 г. , извлечено 11 ноября 2016 г.
  56. ^ Заголовок аудиокадра MPEG , заархивировано из оригинала 8 февраля 2015 г. , извлечено 11 ноября 2016 г.
  57. ^ Б с д е е Церкви, Стив, Перцепционный Coding и MPEG компрессией , НАБ Engineering Handbook, ТЭЛОС Systems , архивируются с оригинала на 2001-05-08 , извлекаться 2008-04-09
  58. ^ a b c d e f g h i j Пан, Дэвис (лето 1995 г.), Учебное пособие по сжатию MPEG / аудио (PDF) , IEEE Multimedia Journal, стр. 8, архивировано из оригинального (PDF) 19 сентября 2004 г. , получено 9 апреля 2008 г.
  59. ^ Смит, Брайан (1996), Обзор методов обработки сжатых доменов , Корнельский университет , стр. 7, заархивировано из оригинала 23 февраля 2011 г. , получено 9 апреля 2008 г.( требуется регистрация )
  60. ^ Cheng, Майк, Психоакустические модели в TwoLAME , twolame.org, архивируется с оригинала на 2016-10-22 , извлекаться 2016-11-11
  61. ^ Гриль, Б .; Quackenbush, S. (октябрь 2005 г.), MPEG-1 Audio , заархивировано из оригинала 27 апреля 2008 г. , получено 11 ноября 2016 г.
  62. ^ a b Эрре, Юрген (5 октября 2004 г.), От совместного стереофонического кодирования к пространственному звуку (PDF) , Международная конференция по цифровым звуковым эффектам , стр. 2, в архиве от оригинала (PDF) 5 апреля 2006 года , восстановлена 2008-04-17
  63. ^ C.Grewin и T.Ryden, Субъективные оценки на Low Bit-скорость аудиокодеков , Труды 10й Международной конференции AES, стр 91 - 102, Лондон 1991
  64. ^ Дж. Джонстон, Оценка энтропии восприятия с использованием критериев маскировки шума, в Proc. ICASSP-88, стр. 2524-2527, май 1988 г.
  65. ^ Дж. Джонстон, Преобразование кодирования аудиосигналов с использованием критериев восприятия шума, Журнал IEEE по избранным областям связи, т. 6, вып. 2, стр. 314-323, февраль 1988 г.
  66. ^ Wustenhagenдр., Субъективная Listening Тест многоканального аудио кодеков , AES Convention Paper сто пятых 4813, СанФранциско 1998
  67. ^ a b Проектная группа B / MAE (сентябрь 2007 г.), оценки EBU многоканальных аудиокодеков (PDF) , Европейский вещательный союз , заархивировано из оригинала (PDF) 30 октября 2008 г. , получено 9 апреля 2008 г.
  68. ^ a b Мирес, Дэвид; Ватанабэ, Каору; Шайрер, Эрик (февраль 1998 г.), Отчет о проверочных тестах стерео MPEG-2 AAC (PDF) , ISO / IEC , стр. 18, архивировано из оригинального (PDF) 14 апреля 2008 г. , получено 11 ноября 2016 г.
  69. ^ Художник, Тед; Спаниас, Андреас (апрель 2000 г.), Perceptual Coding of Digital Audio (Proceedings of the IEEE, VOL. 88, NO. 4) (PDF) , Proceedings of the IEEE , заархивировано из оригинала (PDF) 16 сентября 2006 г. , извлечено 2016-11-11
  70. ^ Аморим, Роберто (19 сентября 2006 г.), GPSYCHO - Mid / Side Stereo , LAME , заархивировано из оригинала 16 декабря 2016 г. , получено 11 ноября 2016 г.
  71. ^ ISO (октябрь 1998 г.). «Часто задаваемые вопросы по MPEG Audio, версия 9 - MPEG-1 и MPEG-2 BC» . ISO. Архивировано из оригинала на 2010-02-18 . Проверено 11 ноября 2016 .
  72. ^ Д. Том, Х. Пурнхаген и подгруппа MPEG Audio (октябрь 1998 г.). «Часто задаваемые вопросы по MPEG Audio, версия 9 - MPEG Audio» . Архивировано 07 августа 2011 года . Проверено 11 ноября 2016 .CS1 maint: multiple names: authors list (link)
  73. ^ MPEG.ORG. «ААС» . Архивировано из оригинала на 2007-08-31 . Проверено 28 октября 2009 .
  74. ^ ISO (2006-01-15), ISO / IEC 13818-7, Четвертое издание, Часть 7 - Advanced Audio Coding (AAC) (PDF) , заархивировано (PDF) из оригинала на 2009-03-06 , извлечено 2016- 11-11
  75. ^ Chiariglione, Леонардо (11 ноября 1994), Пресс - релиз , ISO / IEC , архивируются с оригинала на 8 августа 2010 года , восстановлена 2008-04-09

Внешние ссылки [ править ]

  • Официальная веб-страница группы экспертов по движущемуся изображению (MPEG), рабочей группы ISO / IEC
  • Организация отраслевого форума MPEG
  • Исходный код для реализации MPEG-1
  • Простое и лаконичное объяснение от Центра мультимедийных исследований Беркли.