Линейное предсказание со смешанным возбуждением

Эта статья нуждается в дополнительных ссылках для проверки . Пожалуйста, помогите улучшить эту статью , добавив ссылки на надежные источники . Неисходный материал может быть оспорен и удален.
Найдите источники: «Линейное предсказание со смешанным возбуждением» — новости · газеты · книги · ученый · JSTOR ( февраль 2018 г. ) ( узнайте, как и когда удалить это шаблонное сообщение )

Линейное предсказание со смешанным возбуждением ( MELP ) — это стандарт кодирования речи Министерства обороны США , используемый в основном в военных приложениях и спутниковой связи , защищенной передаче голоса и защищенных радиоустройствах. Его стандартизацию и последующую разработку возглавляли и поддерживали АНБ и НАТО.

История

Первоначальный MELP был изобретен Аланом Маккри примерно в 1995 году ^[1] , когда он был аспирантом Центра обработки сигналов и изображений (CSIP) в Технологическом институте Джорджии, и срок действия исходных патентов, связанных с MELP, к настоящему времени истек. Этот первоначальный речевой кодер был стандартизирован в 1997 году и был известен как MIL-STD-3005. ^[2] Он превзошел другие вокодеры-кандидаты в конкурсе Министерства обороны США, в том числе: (a) Частотно-избирательный гармонический кодер (FSHC), (b) Расширенное многополосное возбуждение (AMBE), (c) Расширенное многополосное возбуждение (EMBE), ( d) кодер синусоидального преобразования (STC) и (e) кодер поддиапазона LPC (SBC). ^[3]Из-за меньшей сложности, чем кодер Waveform Interpolative (WI), вокодер MELP выиграл конкурс Министерства обороны США и был выбран для MIL-STD- 3005. ^[4]

МИЛ-СТД-3005

В период с 1998 по 2001 год был создан новый вокодер на основе MELP с половинной скоростью (т. е. 1200 бит/с), а существенные усовершенствования MIL-STD-3005 были внесены компаниями SignalCom (позже приобретенными Microsoft ), Compandent и AT&T . Корпорация, который включал (а) дополнительный новый вокодер с половинной скоростью (т. е. 1200 бит/с), (б) существенно улучшенное кодирование (анализ), (в) существенно улучшенное декодирование (синтез), (г) предварительную обработку шума для удаления фона шум, (e) транскодирование между битовыми потоками 2400 бит/с и 1200 бит/с и (f) новый постфильтр. Эта довольно значительная разработка была направлена на создание нового кодера с вдвое меньшей скоростью и обеспечение его взаимодействия со старым стандартом MELP. Этот улучшенный MELP (также известный как MELPe) был принят как новый MIL-STD-3005 в 2001 году в виде приложений и дополнений, сделанных к исходному MIL-STD-3005, что обеспечивает то же качество, что и старые MELP 2400 бит / с. по половинной ставке. Одним из самых больших преимуществ нового MELPe со скоростью передачи 2400 бит/с является то, что он использует тот же битовый формат, что и MELP, и, следовательно, может взаимодействовать с устаревшими системами MELP.но обеспечит лучшее качество на обоих концах. MELPe обеспечивает гораздо лучшее качество, чем все старые военные стандарты, особенно в шумных условиях, таких как поле боя, транспортные средства и самолеты.

STANAG-4591 (НАТО)

В 2002 году, после интенсивной конкуренции и испытаний, 2400 и 1200 бит / с MELPe Министерства обороны США был принят также в качестве стандарта НАТО , известного как STANAG -4591. ^[5] Измерения эффективности тестирования НАТО включали разборчивость голоса, качество голоса, распознавание говорящего, языковую зависимость, зависимость от говорящего, 10 акустических шумовых сред, канал передачи с BER менее 1%, тандемное использование вокодера CVSD 16 кбит/с, шепот речи и в реальном времени. выполнение. Данные тестирования включали более 36 000 файлов или 500 часов речи в различных условиях и на разных языках. В рамках тестирования НАТО для нового стандарта НАТО, MELPe был протестирован против других кандидатов, таких как французский HSX (Harmonic Stochastic eXcitation) и Турция .SB-LPC (Split-Band Linear Predictive Coding), а также старые стандарты безопасной передачи голоса, такие как FS1015 LPC-10e (2,4 кбит/с), FS1016 CELP (4,8 кбит/с) и CVSD (16 кбит/с ). ). Впоследствии MELPe выиграл также конкурс НАТО, превзойдя качество всех других кандидатов, а также качество всех старых стандартов защищенной голосовой связи (CVSD, CELP и LPC-10e ). НАТО _конкуренты пришли к выводу, что MELPe значительно улучшил производительность (с точки зрения качества речи, разборчивости и помехоустойчивости) при одновременном снижении требований к пропускной способности. Тестирование НАТО также включало тесты на совместимость, использовало более 200 часов речевых данных и проводилось 3 испытательными лабораториями по всему миру. Compandent Inc, в рамках проектов на основе MELPe, выполненных для АНБ и НАТО , предоставила АНБ и НАТО специальную испытательную платформу, известную как устройство MELCODER , которая обеспечила золотой эталон для внедрения MELPe в реальном времени. Недорогое терминальное оборудование данных FLEXI-232 (DTE) производства Compandent , основанное на MELCODER. золотой эталон, очень популярны и широко используются для оценки и тестирования MELPe в режиме реального времени, различных каналов и сетей, а также в полевых условиях.

В 2005 году в стандарт НАТО STANAG-4591 был добавлен новый вариант MELPe со скоростью 600 бит/с от Thales Group ( Франция ) (без широкой конкуренции и испытаний, как это было сделано для MELPe со скоростью 2400/1200 бит/с). ^[6]

300 бит/с MELP

В 2010 году MIT Lincoln Labs, Compandent , BBN и General Dynamics также разработали для DARPA устройство MELP со скоростью 300 бит/с. ^[7] Его качество было лучше, чем у MELPe со скоростью 600 бит/с, но его алгоритмическая задержка была больше.

Реализации

MELPe был реализован во многих приложениях, включая безопасные радиоустройства, спутниковую связь, VoIP и приложения для мобильных телефонов. В таких приложениях требуется дополнительный опыт для борьбы с ошибками канала, потерей пакетов и потерей синхронизации. Такой опыт требует понимания чувствительности битов MELPe к ошибкам. MELPe на 2400 бит/с и 1200 бит/с включает бит синхронизации, который полезен при последовательной связи.

Уровень сжатия

MELPe предназначен для сжатия речи. Учитывая аудиовход, дискретизированный с частотой 8 кГц, кодек MELPe дает следующие коэффициенты сжатия для потока данных μ-Law G.711 со скоростью 64 кбит / с, не учитывая влияние служебных данных протокола:

Битрейт	Коэффициент сжатия по G.711	Размер полезной нагрузки	Интервал полезной нагрузки
2400 бит/с	26,7 х	54 бита	22,5 мс
1200 бит/с	53,3 х	81 бит	67,5 мс
600 бит/с	106,7 х	54 бита	90 мс

Как правило, кодирование речи включает в себя компромисс различных аспектов, включая скорость передачи данных, качество речи, задержку (размер кадра и просмотр вперед), вычислительную сложность, устойчивость к разным говорящим и языкам, устойчивость к различным фоновым шумам, устойчивость к ошибкам канала, а также восстановление состояния кодека в случае потери пакетов. Поскольку более низкие скорости MELPe (600 и 1200 бит/с) являются надмножествами скорости 2400 бит/с, сложность алгоритма (например, в MIPS) примерно одинакова для всех скоростей. Более низкие скорости используют увеличенные кадры и просмотр вперед, а также размер кодовой книги, поэтому им требуется больше памяти.

Права интеллектуальной собственности

MELPe (и/или его производные) подлежит лицензированию IPR следующих компаний: Texas Instruments (алгоритм/исходный код MELP 2400 бит/с), Microsoft (транскодер 1200 бит/с), Thales Group (скорость 600 бит/с) , Compandent и AT&T (Noise Pre-Processor NPP).

Смотрите также

ССЗ
ЛПК-10э
ФС-1015
ФС-1016
Безопасный голос
Вокодер

использованная литература

^ Модель вокодера LPC со смешанным возбуждением для кодирования речи с низкой скоростью передачи, Алан В. МакКри, Томас П. Барнвелл, 1995 в IEEE Trans. Обработка речи и звука (исходный MELP)
^ Аналого-цифровое преобразование голоса с помощью линейного предсказания со смешанным возбуждением (MELP) со скоростью 2400 бит / секунду, Министерство обороны США (MIL_STD-3005, исходный MELP)
^ М. Р. Билефельд, Л. М. Саппли, «Разработка тестовой программы для процесса выбора вокодера Министерства обороны США со скоростью 2400 бит / с», Acoustics Speech and Signal Processing, 1996. ICASSP-96. Материалы конференций. Международная конференция IEEE 1996 г., том. 2, стр. 1141-1144 т. 2, 1996.
^ LM Supplee, RP Cohn, JS Collura, AV McCree, «MELP: новый федеральный стандарт на скорости 2400 бит/с», Acoustics Speech and Signal Processing 1997. ICASSP-97. Международная конференция IEEE 1997 г., том. 2, стр. 1591-1594 т.2, 1997.
^ 1200 И 2400 БИТ/С УЗКОПОЛОСНЫЙ РЕЧЕВОЙ КОДЕР НАТО, STANAG-4591, НАТО
^ ВАРИАНТ MELPe ДЛЯ УЗКОПОЛОСНОГО ГОЛОСОВОГО КОДЕРА НАТО 600 БИТ / С, STANAG-4591, НАТО
^ Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. Международный IEEE. конф. Acoust., Speech, Signal Processing, 2006, стр. I 705–708, Тулуза, Франция.

[1] Модель вокодера LPC со смешанным возбуждением для кодирования речи с низкой скоростью передачи, Алан В. МакКри, Томас П. Барнвелл, 1995 в IEEE Trans. Обработка речи и звука (исходный MELP)

[2] Аналого-цифровое преобразование голоса с помощью линейного предсказания со смешанным возбуждением (MELP) со скоростью 2400 бит / секунду, Министерство обороны США (MIL_STD-3005, исходный MELP)

[3] М. Р. Билефельд, Л. М. Саппли, «Разработка тестовой программы для процесса выбора вокодера Министерства обороны США со скоростью 2400 бит / с», Acoustics Speech and Signal Processing, 1996. ICASSP-96. Материалы конференций. Международная конференция IEEE 1996 г., том. 2, стр. 1141-1144 т. 2, 1996.

[4] LM Supplee, RP Cohn, JS Collura, AV McCree, «MELP: новый федеральный стандарт на скорости 2400 бит/с», Acoustics Speech and Signal Processing 1997. ICASSP-97. Международная конференция IEEE 1997 г., том. 2, стр. 1591-1594 т.2, 1997.

[5] 1200 И 2400 БИТ/С УЗКОПОЛОСНЫЙ РЕЧЕВОЙ КОДЕР НАТО, STANAG-4591, НАТО

[6] ВАРИАНТ MELPe ДЛЯ УЗКОПОЛОСНОГО ГОЛОСОВОГО КОДЕРА НАТО 600 БИТ / С, STANAG-4591, НАТО

[7] Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. Международный IEEE. конф. Acoust., Speech, Signal Processing, 2006, стр. I 705–708, Тулуза, Франция.

[1]