Кодирование речи

Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: «Кодирование речи» - новости · газеты · книги · ученый · JSTOR ( январь 2013 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Эта статья написана как личное размышление, личное эссе или аргументированное эссе , в котором излагаются личные чувства редактора Википедии или представлены оригинальные аргументы по теме. Пожалуйста, помогите улучшить его , переписав в энциклопедическом стиле . ( Ноябрь 2011 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

( Узнайте, как и когда удалить этот шаблон сообщения )

Кодирование речи - это приложение для сжатия данных цифровых аудиосигналов , содержащих речь . При кодировании речи используется оценка параметров речи с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов. ^[1]

Некоторыми приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). ^[2] Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). ^{[ необходима цитата ]}

Методы , используемые при кодировании речи аналогичны тем , которые используются в аудио сжатия данных и кодированием звука , где знание в психоакустике используются для передачи только данных, имеющие отношение к человеческой слуховой системе. Например, при кодировании речи в голосовом диапазоне передается только информация в полосе частот от 400 Гц до 3500 Гц, но восстановленный сигнал все еще является адекватным для разборчивости .

Кодирование речи отличается от других форм кодирования звука тем, что речь является более простым сигналом, чем большинство других звуковых сигналов, и имеется гораздо больше статистической информации о свойствах речи. В результате некоторая слуховая информация, имеющая отношение к кодированию звука, может быть ненужной в контексте кодирования речи. При кодировании речи наиболее важным критерием является сохранение разборчивости и «приятности» речи при ограниченном количестве передаваемых данных. ^[3]

Кроме того, для большинства речевых приложений требуется небольшая задержка при кодировании, поскольку большие задержки при кодировании мешают речевому взаимодействию. ^[4]

Категории

Речевые кодеры бывают двух типов: ^[5]

Кодеры формы волны
- Во временной области: PCM , ADPCM
- Частотная область: кодирование поддиапазонов , ATRAC
Вокодеры
- Кодирование с линейным предсказанием (LPC)
- Формантное кодирование

Компандирование сэмплов рассматривается как форма кодирования речи

С этой точки зрения алгоритмы A-закона и μ-закона ( G.711 ), используемые в традиционной цифровой телефонии с ИКМ, можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит. . ^[6] Законы логарифмического компандирования согласуются с человеческим слуховым восприятием в том смысле, что шум малой амплитуды слышен вдоль речевого сигнала низкой амплитуды, но маскируется шумом высокой амплитуды. Хотя это привело бы к недопустимым искажениям в музыкальном сигнале, пиковый характер речевых сигналов в сочетании с простой частотной структурой речи в виде периодической формы волны, имеющей единственную основную частоту. со случайными добавками шума, делают эти очень простые алгоритмы мгновенного сжатия приемлемыми для речи.

В то время было испробовано множество других алгоритмов, в основном с вариантами дельта-модуляции , но после тщательного рассмотрения разработчики первых систем цифровой телефонии выбрали алгоритмы A-law / μ-law. На момент разработки их снижение пропускной способности на 33% при очень низкой сложности стало отличным инженерным компромиссом. Их звуковые характеристики остаются приемлемыми, и не было необходимости заменять их в стационарной телефонной сети.

В 2008 году кодек G.711.1 с масштабируемой структурой был стандартизирован ITU-T. Частота дискретизации входа составляет 16 кГц.

Современное сжатие речи

Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где требовались очень низкие скорости передачи данных для обеспечения эффективной работы во враждебной радиосреде. В то же время было доступно гораздо больше вычислительной мощности в виде схем СБИС , чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем были доступны в 1960-х годах, для достижения гораздо более высоких степеней сжатия.

Эти методы были доступны в открытой исследовательской литературе для использования в гражданских приложениях, что позволило создавать цифровые сети мобильных телефонов с существенно большей пропускной способностью каналов, чем аналоговые системы, которые им предшествовали. ^{[ необходима цитата ]}

Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). ^[7] В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением ( CELP ) на основе LPC , которое используется, например, в стандарте GSM . В CELP моделирование делится на два этапа: этап линейного прогнозирования, который моделирует спектральную огибающую, и модель остатка на основе кодовой книги модели линейного прогнозирования. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно в виде линейных спектральных пар (LSP). В дополнение к собственно речевому кодированию сигнала часто необходимо использоватьканальное кодирование для передачи, чтобы избежать потерь из-за ошибок передачи. Обычно методы кодирования речи и кодирования каналов должны выбираться попарно, причем наиболее важные биты в потоке речевых данных защищены более надежным канальным кодированием, чтобы получить наилучшие общие результаты кодирования.

Модифицированный дискретные косинусное преобразование (МДКП), тип дискретных косинусного преобразования алгоритма (ДКП), был адаптирован в речь алгоритм кодирования называется LD-MDCT, используемой для AAC-LD формата , введенного в 1999. ^[8] МДКП с тех пор широко принятые в голоса по IP (VoIP) приложений, таких как G.729.1 широкополосного аудио кодека , введенного в 2006 году ^[9] Яблоко «s Facetime ( с использованием AAC-LD) , введенный в 2010 году, ^[10] и CELT кодека введен в 2011 году. ^[11]

Opus - это бесплатное программное обеспечение для кодирования речи. Он сочетает в себе алгоритмы сжатия звука MDCT и LPC . ^[12] Он широко используется для вызовов VoIP в WhatsApp . ^[13]^[14]^[15] PlayStation 4 видео игровая консоль также использует CELT / Opus кодек для своей PlayStation Network Партийной системы чата. ^[16]

Codec2 - это еще один бесплатный программный кодировщик речи, который обеспечивает очень хорошее сжатие до 700 бит / с. ^[17]

Подполя

Кодирование широкополосного звука

Кодирование с линейным предсказанием (LPC)
- AMR-WB для сетей WCDMA
- VMR-WB для сетей CDMA2000
- Speex , IP-MR, SILK и Opus для передачи голоса по IP (VoIP) и видеоконференцсвязи
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD , G.722.1 , G.729.1 , CELT и Opus для VoIP и видеоконференцсвязи
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)
- G.722 для VoIP

Узкополосное кодирование звука

LPC
- FNBDT для военных приложений
- SMV для сетей CDMA
- Полная скорость , половина скорости , EFR и AMR для сетей GSM
- G.723.1 , G.728 , G.729 , G.729.1 и iLBC для VoIP или видеоконференцсвязи
ADPCM
- G.726 для VoIP

Смотрите также

Сжатие аудиоданных
Обработка аудиосигнала
Сжатие данных
Цифровая обработка сигналов
Линейное предсказание
Мобильный телефон
Импульсно-кодовая модуляция
Психоакустическая модель
Рекомендации по речевому интерфейсу
Обработка речи
Синтез речи
Телекоммуникации
Векторное квантование
Вокодер

использованная литература

↑ М. Арджона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, изд. JG Proakis, New York: Wiley, 2003, vol. 3. С. 1299–1308.
↑ M. Arjona Ramírez и M. Minami, «Технология и стандарты для методов низкоскоростного вокодирования», в Справочнике компьютерных сетей, изд. H. Bidgoli, New York: Wiley, 2011, vol. 2. С. 447–467.
^ П. Крун, «Оценка речевых кодировщиков», в книге «Кодирование и синтез речи», под ред. W. Bastiaan Kleijn и KK Paliwal, Amsterdam: Elsevier Science, 1995, стр. 467-494.
^ JH Чен, Р. Кокс, Y.-C. Лин, NS Jayant и MJ Melchner, Кодер CELP с малой задержкой для стандарта кодирования речи CCITT 16 кбит / с. IEEE J. Select. Области Коммуна. 10 (5): 830-849, июнь 1992 г.
^ Су Хён Бэ, ECE 8873 Сжатие данных и моделирование, Технологический институт Джорджии, 2004
^ NS Jayant и P. Noll, Цифровое кодирование сигналов. Энглвудские скалы: Прентис-Холл, 1984.
↑ Гупта, Шипра (май 2016 г.). «Применение MFCC в распознавании говорящих независимо от текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и программной инженерии . 6 (5): 805-810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано из оригинального (PDF) 18.10.2019 . Дата обращения 18 октября 2019 .
^ Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC - новый стандарт для высококачественной связи (PDF) . 125-я Конвенция AES. Фраунгофера IIS . Аудио инженерное общество . Проверено 20 октября 2019 года .
^ Нагиредди, Шиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Вили и сыновья . п. 69. ISBN. 9780470377864.
↑ Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 года .
^ Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. Также слайды презентации в PDF)
^ Валин, Жан-Марк; Максвелл, Грегори; Террибери, Тимоти Б .; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я Конвенция AES. Аудио инженерное общество . arXiv : 1602.04845 .
↑ Лейден, Джон (27 октября 2015 г.). «WhatsApp обнажился: исследованы внутренности информативного приложения» . Реестр . Проверено 19 октября 2019 .
^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . In Thampi, Sabu M .; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Fan, Chun I .; Mármol, Феликс Гомес (ред.). Безопасность в вычислениях и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Springer. С. 286–299 (290). DOI : 10.1007 / 978-981-10-6898-0_24 . ISBN 9789811068980.
^ Шривастава, Саураб Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, инициируемые смартфонами: проблемы, примеры из практики и профилактика» . В Ле, Дак-Нхуонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джйотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и примеры из практики . Кибербезопасность в параллельных и распределенных вычислениях . Джон Вили и сыновья. С. 187–206 (200). DOI : 10.1002 / 9781119488330.ch12 . ISBN 9781119488057.
^ «Программное обеспечение с открытым исходным кодом, используемое в PlayStation4» . Sony Interactive Entertainment Inc . Проверено 11 декабря 2017 .
^ "GitHub - Codec2" . Ноябрь 2019.

внешняя ссылка

Различные ссылки для кодирования речи
Тестовые сигналы ITU-T для тестовых образцов телекоммуникационных систем
Инструмент для перцепционной оценки качества речи (PESQ) МСЭ-Т Источники

[1] М. Арджона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, изд. JG Proakis, New York: Wiley, 2003, vol. 3. С. 1299–1308.

[2] M. Arjona Ramírez и M. Minami, «Технология и стандарты для методов низкоскоростного вокодирования», в Справочнике компьютерных сетей, изд. H. Bidgoli, New York: Wiley, 2011, vol. 2. С. 447–467.

[3] П. Крун, «Оценка речевых кодировщиков», в книге «Кодирование и синтез речи», под ред. W. Bastiaan Kleijn и KK Paliwal, Amsterdam: Elsevier Science, 1995, стр. 467-494.

[4] JH Чен, Р. Кокс, Y.-C. Лин, NS Jayant и MJ Melchner, Кодер CELP с малой задержкой для стандарта кодирования речи CCITT 16 кбит / с. IEEE J. Select. Области Коммуна. 10 (5): 830-849, июнь 1992 г.

[5] Су Хён Бэ, ECE 8873 Сжатие данных и моделирование, Технологический институт Джорджии, 2004

[6] NS Jayant и P. Noll, Цифровое кодирование сигналов. Энглвудские скалы: Прентис-Холл, 1984.

[7] Гупта, Шипра (май 2016 г.). «Применение MFCC в распознавании говорящих независимо от текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и программной инженерии . 6 (5): 805-810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано из оригинального (PDF) 18.10.2019 . Дата обращения 18 октября 2019 .

[Schnell-8] Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC - новый стандарт для высококачественной связи (PDF) . 125-я Конвенция AES. Фраунгофера IIS . Аудио инженерное общество . Проверено 20 октября 2019 года .

[Nagireddi-9] Нагиредди, Шиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Вили и сыновья . п. 69. ISBN. 9780470377864.

[AppleInsider_standards_1-10] Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 года .

[presentation-11] Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. Также слайды презентации в PDF)

[12] Валин, Жан-Марк; Максвелл, Грегори; Террибери, Тимоти Б .; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я Конвенция AES. Аудио инженерное общество . arXiv : 1602.04845 .

[Register-13] Лейден, Джон (27 октября 2015 г.). «WhatsApp обнажился: исследованы внутренности информативного приложения» . Реестр . Проверено 19 октября 2019 .

[Hazra-14] Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . In Thampi, Sabu M .; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Fan, Chun I .; Mármol, Феликс Гомес (ред.). Безопасность в вычислениях и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Springer. С. 286–299 (290). DOI : 10.1007 / 978-981-10-6898-0_24 . ISBN 9789811068980.

[Srivastava-15] Шривастава, Саураб Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, инициируемые смартфонами: проблемы, примеры из практики и профилактика» . В Ле, Дак-Нхуонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джйотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и примеры из практики . Кибербезопасность в параллельных и распределенных вычислениях . Джон Вили и сыновья. С. 187–206 (200). DOI : 10.1002 / 9781119488330.ch12 . ISBN 9781119488057.

[playstation-16] «Программное обеспечение с открытым исходным кодом, используемое в PlayStation4» . Sony Interactive Entertainment Inc . Проверено 11 декабря 2017 .

[17] "GitHub - Codec2" . Ноябрь 2019.

[1]