Формат кодирования аудио

Сравнение эффективности кодирования между популярными аудиоформатами

Аудио формат кодирования ^[1] (или иногда формат сжатия звука ) представляет собой содержание формат представления для хранения или передачи цифрового аудиосигнала (например, в цифровое телевидение , цифровое радио и аудио и видео файлов). Примеры форматов кодирования аудио включают MP3 , AAC , Vorbis , FLAC и Opus . Конкретная программная или аппаратная реализация, способная выполнять сжатие и декомпрессию звука в / из определенного формата кодирования звука, называется аудиокодеком ; пример аудиокодекаLAME , который является одним из нескольких различных кодеков, которые программно реализуют кодирование и декодирование звука в формате аудиокодирования MP3 .

Некоторые форматы кодирования звука задокументированы подробным документом технических спецификаций, известным как спецификация кодирования звука . Некоторые из таких спецификаций написаны и утверждены организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт аудиокодирования . Термин «стандарт» также иногда используется для де - факто стандартами , а также формальных стандартов.

Аудиоконтент, закодированный в определенном формате аудиокодирования, обычно инкапсулируется в контейнерный формат . Таким образом, пользователь обычно не имеет необработанного файла AAC , но вместо этого имеет аудиофайл .m4a , который представляет собой контейнер MPEG-4 Part 14, содержащий аудио в кодировке AAC. Контейнер также содержит метаданные, такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. ^[2] Заметным исключением являются файлы MP3 , которые являются необработанными аудиофайлами без контейнерного формата. Де-факто стандарты добавления тегов метаданных, таких как название и исполнитель, в файлы MP3, такие как ID3 , являются взломами.которые работают, добавляя теги к MP3, а затем полагаясь на MP3-плеер, чтобы распознать фрагмент как искаженное звуковое кодирование и, следовательно, пропустить его. В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате кодирования видео ) внутри формата мультимедийного контейнера .

Формат аудиокодирования не диктует все алгоритмы, используемые кодеком, реализующим формат. Согласно психоакустической модели, важной частью того, как работает сжатие звука с потерями, является удаление данных способами, которые люди не могут слышать ; разработчик кодировщика имеет некоторую свободу выбора данных для удаления (в соответствии с их психоакустической моделью).

Форматы кодирования аудио без потерь, с потерями и без сжатия [ править ]

Без потерь формата кодирования звука уменьшает общее количество данных , необходимых для представления звука , но может быть де-кодированным к своей первоначальной форме, несжатой. Потерями формат кодирования звука дополнительно уменьшает битное разрешение звука в верхней части сжатия, что приводит к гораздо меньше данных на стоимости безвозвратно потерянной информации.

Потребительский звук чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер намного удобнее для распространения. Наиболее широко используемыми форматами кодирования звука являются MP3 и Advanced Audio Coding (AAC), оба из которых являются форматами с потерями, основанными на модифицированном дискретном косинусном преобразовании (MDCT) и алгоритмах перцепционного кодирования .

Форматы кодирования звука без потерь, такие как FLAC и Apple Lossless , иногда доступны, хотя и за счет более крупных файлов.

Также иногда используются несжатые аудиоформаты , такие как импульсно-кодовая модуляция (PCM или .wav). PCM был стандартным форматом для компакт-дисков Digital Audio (CDDA) до того, как сжатие с потерями в конечном итоге стало стандартом после появления MP3.

История [ править ]

Solidyne 922: первая в мире коммерческая звуковая карта с битовым сжатием звука для ПК, 1990 г.

В 1950 году Bell Labs подала патент на дифференциальную импульсно-кодовую модуляцию (DPCM). ^[3] Адаптивный DPCM (ADPCM) был представлен П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. ^[4]^[5]

Перцепционное кодирование было впервые использовано для сжатия кодирования речи с кодированием с линейным предсказанием (LPC). ^[6] Первоначальные концепции LPC восходят к работе Фумитада Итакура ( Университет Нагоя ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году. ^[7] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер из Bell Labs разработал форму LPC, называемую адаптивным прогнозирующим кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х гг.алгоритм линейного предсказания с кодовым возбуждением (CELP), который достиг значительной степени сжатия для своего времени. ^[6] Перцепционное кодирование используется современными форматами сжатия звука, такими как MP3 ^[6] и AAC .

Дискретное косинусное преобразование (DCT), разработанное Насиром Ахмедом , Т. Натараджаном и К.Р. Рао в 1974 г. ^[8], послужило основой для модифицированного дискретного косинусного преобразования (MDCT), используемого современными форматами сжатия звука, такими как MP3 ^[9] и AAC. . MDCT был предложен JP Princen, AW Johnson и AB Bradley в 1987 году ^[10] после более ранней работы Princen и Bradley в 1986 году. ^[11] MDCT используется современными форматами сжатия звука, такими как Dolby Digital , ^[12]^[13 ^]^] MP3 , ^[9] и Advanced Audio Coding (AAC). ^[14]

Список форматов с потерями [ править ]

Общие [ править ]

Базовый алгоритм сжатия	Стандарт кодирования звука	Сокращение	Вступление	Доля рынка (2019 г.) ^[15]	Ссылка
Модифицированное дискретное косинусное преобразование (MDCT)	Dolby Digital (AC-3)	AC3	1991 г.	58%	^[12]^[16]
	Акустическое кодирование с адаптивным преобразованием	ATRAC	1992 г.	Неизвестный	^[12]
	MPEG Layer III	MP3	1993 г.	49%	^[9]^[17]
	Расширенное кодирование звука ( MPEG-2 / MPEG-4 )	AAC	1997 г.	88%	^[14]^[12]
	Windows Media Audio	WMA	1999 г.	Неизвестный	^[12]
	Ogg Vorbis	Ogg	2000 г.	7%	^[18]^[12]
	Преобразование с ограничением энергии с перекрытием	CELT	2011 г.	N / A	^[19]
	Opus	Opus	2012 г.	8%	^[20]
	LDAC	LDAC	2015 г.	Неизвестный	^[21]^[22]
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)	aptX / aptX-HD	aptX	1989 г.	Неизвестный	^[23]
	Системы цифрового театра	DTS	1990 г.	14%	^[24]^[25]
	Мастер качества аутентифицирован	MQA	2014 г.	Неизвестный
Поддиапазонное кодирование (SBC)	MPEG-1 Audio Layer II	MP2	1993 г.	Неизвестный
Поддиапазонное кодирование (SBC)	Musepack	ПДК	1997 г.	Неизвестный

Речь [ править ]

Кодирование с линейным предсказанием (LPC)
- Адаптивное предиктивное кодирование (APC)
- Линейное предсказание с кодовым возбуждением (CELP)
- Линейное предсказание с алгебраическим кодом (ACELP)
- Расслабленное линейное предсказание с кодовым возбуждением (RCELP)
- CELP с малой задержкой (LD-CELP)
- Адаптивная мультискорость (используется в GSM и 3GPP )
- Codec2 (отмечен отсутствием патентных ограничений)
- Speex (отмечен отсутствием патентных ограничений)
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD
- Преобразование с перекрытием с ограничением энергии (CELT)
- Opus (в основном для приложений реального времени)

Список форматов без потерь [ править ]

Apple Lossless (ALAC - аудиокодек Apple без потерь)
Акустическое кодирование с адаптивным преобразованием (ATRAC)
Кодирование без потерь звука (также известное как MPEG-4 ALS)
Прямая потоковая передача (DST)
Dolby TrueHD
DTS-HD Master Audio
Бесплатный аудиокодек без потерь (FLAC)
Дискретное косинусное преобразование без потерь (LDCT)
Упаковка без потерь Meridian (MLP)
Аудио Обезьяны (Monkey's Audio APE)
MPEG-4 SLS (также известный как HD-AAC)
OptimFROG
Исходное качество звука (OSQ)
RealPlayer (RealAudio без потерь)
Сократить (ШН)
TTA (True Audio Lossless)
WavPack (WavPack без потерь)
WMA без потерь (Windows Media без потерь)

См. Также [ править ]

Сравнение форматов кодирования аудио
Сжатие данных # Аудио
Формат аудиофайла
Список форматов сжатия аудио

Ссылки [ править ]

^ Термин «кодирование звука» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину кодирование видео.
^ "Видео - Где хранится информация о синхронизации в форматах контейнеров?" .
^ Патент США 2605361 , C. Чэпин Катлер, «Дифференциальная Квантование сигналов связи», выданный 1952-07-29
^ П. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, «Адаптивное квантование в дифференциальном кодировании речи с ИКМ», Bell Syst. Tech. J. , т. 52, стр. 1105–1118, сентябрь 1973 г.
^ Cummiskey, P .; Джаянт, Никил С .; Фланаган, JL (1973). «Адаптивное квантование в дифференциальном кодировании речи с ИКМ». Технический журнал Bell System . 52 (7): 1105–1118. DOI : 10.1002 / j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .
^ a b c Шредер, Манфред Р. (2014). "Bell Laboratories" . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. п. 388. ISBN. 9783319056609.
^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .
^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. DOI : 10.1109 / TC.1974.223784 .
^ a b c Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 .
^ JP Princen, AW Johnson и AB Bradley: Кодирование поддиапазонов / преобразований с использованием схем банка фильтров, основанных на отмене наложения спектров во временной области , IEEE Proc. Intl. Конференция по акустике, речи и обработке сигналов (ICASSP), 2161–2164, 1987.
^ Джон П. Принсен, Алан Б. Брэдли: Дизайн банка фильтров анализа / синтеза, основанный на отмене наложения спектров во временной области , IEEE Trans. Акуст. Обработка речевых сигналов, ASSP-34 (5), 1153–1161, 1986.
^ Б с д е е Л, Fa-Long (2008). Стандарты мобильного мультимедийного вещания: технологии и практика . Springer Science & Business Media . п. 590. ISBN 9780387782638.
^ Britanak, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. DOI : 10,1109 / TASL.2010.2087755 .
^ a b Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 года.
^ "Отчет разработчика видео 2019" (PDF) . Битмовин . 2019 . Дата обращения 5 ноября 2019 .
^ Britanak, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. DOI : 10,1109 / TASL.2010.2087755 .
^ Станкович, Радомир С .; Астола, Яакко Т. (2012). "Воспоминания о ранних работах в DCT: Интервью с К.Р. Рао" (PDF) . Отпечатки с первых дней информационных наук . 60 . Проверено 13 октября 2019 .
^ Фонд Xiph.Org (2009-06-02). «Спецификация Vorbis I - 1.1.2 Классификация» . Фонд Xiph.Org . Проверено 22 сентября 2009 .
^ Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. Также слайды презентации в PDF)
^ Валин, Жан-Марк; Максвелл, Грегори; Террибери, Тимоти Б .; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я Конвенция AES. Аудио инженерное общество . arXiv : 1602.04845 .
^ Дарко, Джон Х. (2017-03-29). «Неудобная правда о Bluetooth-аудио» . ДАР__КО . Архивировано из оригинала на 2018-01-14 . Проверено 13 января 2018 .
^ Форд, Джез (2015-08-24). "Что такое Sony LDAC и как он это делает?" . AVHub . Проверено 13 января 2018 .
^ Форд, Еж (2016-11-22). "aptX HD - без потерь или с потерями?" . AVHub . Проверено 13 января 2018 .
^ "Аудио форматы систем цифрового театра" . Библиотека Конгресса . 27 декабря 2011 . Проверено 10 ноября 2019 .
^ Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов . Джон Вили и сыновья . п. 338. ISBN 9780470041963.

[1] Термин «кодирование звука» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину кодирование видео.

[2] "Видео - Где хранится информация о синхронизации в форматах контейнеров?" .

[DPCM-3] Патент США 2605361 , C. Чэпин Катлер, «Дифференциальная Квантование сигналов связи», выданный 1952-07-29

[4] П. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, «Адаптивное квантование в дифференциальном кодировании речи с ИКМ», Bell Syst. Tech. J. , т. 52, стр. 1105–1118, сентябрь 1973 г.

[5] Cummiskey, P .; Джаянт, Никил С .; Фланаган, JL (1973). «Адаптивное квантование в дифференциальном кодировании речи с ИКМ». Технический журнал Bell System . 52 (7): 1105–1118. DOI : 10.1002 / j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .

[Schroeder2014-6] Шредер, Манфред Р. (2014). "Bell Laboratories" . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. п. 388. ISBN. 9783319056609.

[7] Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .

[DCT-8] Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. DOI : 10.1109 / TC.1974.223784 .

[Guckert-9] Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 .

[10] JP Princen, AW Johnson и AB Bradley: Кодирование поддиапазонов / преобразований с использованием схем банка фильтров, основанных на отмене наложения спектров во временной области , IEEE Proc. Intl. Конференция по акустике, речи и обработке сигналов (ICASSP), 2161–2164, 1987.

[11] Джон П. Принсен, Алан Б. Брэдли: Дизайн банка фильтров анализа / синтеза, основанный на отмене наложения спектров во временной области , IEEE Trans. Акуст. Обработка речевых сигналов, ASSP-34 (5), 1153–1161, 1986.

[Luo-12] Б с д е е Л, Fa-Long (2008). Стандарты мобильного мультимедийного вещания: технологии и практика . Springer Science & Business Media . п. 590. ISBN 9780387782638.

[13] Britanak, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. DOI : 10,1109 / TASL.2010.2087755 .

[brandenburg-14] Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 года.

[Bitmovin-15] "Отчет разработчика видео 2019" (PDF) . Битмовин . 2019 . Дата обращения 5 ноября 2019 .

[Britanak2011-16] Britanak, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. DOI : 10,1109 / TASL.2010.2087755 .

[Stankovic-17] Станкович, Радомир С .; Астола, Яакко Т. (2012). "Воспоминания о ранних работах в DCT: Интервью с К.Р. Рао" (PDF) . Отпечатки с первых дней информационных наук . 60 . Проверено 13 октября 2019 .

[vorbis-mdct-18] Фонд Xiph.Org (2009-06-02). «Спецификация Vorbis I - 1.1.2 Классификация» . Фонд Xiph.Org . Проверено 22 сентября 2009 .

[presentation-19] Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. Также слайды презентации в PDF)

[20] Валин, Жан-Марк; Максвелл, Грегори; Террибери, Тимоти Б .; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я Конвенция AES. Аудио инженерное общество . arXiv : 1602.04845 .

[Darko_2017-21] Дарко, Джон Х. (2017-03-29). «Неудобная правда о Bluetooth-аудио» . ДАР__КО . Архивировано из оригинала на 2018-01-14 . Проверено 13 января 2018 .

[AVHub_2015-22] Форд, Джез (2015-08-24). "Что такое Sony LDAC и как он это делает?" . AVHub . Проверено 13 января 2018 .

[AVHub_2016-23] Форд, Еж (2016-11-22). "aptX HD - без потерь или с потерями?" . AVHub . Проверено 13 января 2018 .

[24] "Аудио форматы систем цифрового театра" . Библиотека Конгресса . 27 декабря 2011 . Проверено 10 ноября 2019 .

[25] Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов . Джон Вили и сыновья . п. 338. ISBN 9780470041963.

[1]