Линейное предсказание со смешанным возбуждением ( MELP ) - это стандарт кодирования речи Министерства обороны США, используемый в основном в военных приложениях и спутниковой связи , защищенной речи и защищенных радиоустройствах. Его стандартизация и последующие разработки проводились и поддерживались АНБ и НАТО.
История
Первоначальный MELP был изобретен Аланом МакКри примерно в 1995 году [1], когда он был аспирантом Центра обработки сигналов и изображений (CSIP) Технологического института Джорджии, и к настоящему времени истек срок действия оригинальных патентов, связанных с MELP. Этот первоначальный речевой кодер был стандартизирован в 1997 году и был известен как MIL-STD-3005. [2] Он превзошел других кандидатов-вокодеров в конкурсе Министерства обороны США, в том числе: (а) частотно-селективный гармонический кодер (FSHC), (b) усовершенствованное многополосное возбуждение (AMBE), (c) усовершенствованное многополосное возбуждение (EMBE), ( d) кодер с синусоидальным преобразованием (STC) и (e) кодер LPC поддиапазона (SBC). [3] Из-за своей меньшей сложности, чем кодер с интерполяцией формы волны (WI), вокодер MELP выиграл конкурс Министерства обороны США и был выбран для стандарта MIL-STD- 3005. [4]
MIL-STD-3005
В период с 1998 по 2001 год новый вокодер на основе MELP был создан с половинной скоростью (т.е. 1200 бит / с), а в MIL-STD-3005 были внесены существенные улучшения SignalCom (позже приобретенный Microsoft ), Compandent и AT&T. Corporation , которая включила (а) дополнительный новый вокодер с половинной скоростью (т.е. 1200 бит / с), (б) существенно улучшенное кодирование (анализ), (в) существенно улучшенное декодирование (синтез), (г) предварительную обработку шума для удаления фоновый шум, (e) перекодирование между потоками битов с 2400 бит / с и 1200 бит / с, и (f) новый постфильтр. Эта довольно значительная разработка была направлена на создание нового кодировщика с половинной скоростью и совместимость со старым стандартом MELP. Этот расширенный MELP (также известный как MELPe) был принят как новый MIL-STD-3005 в 2001 году в виде приложений и дополнений к исходному MIL-STD-3005, обеспечивая то же качество, что и старые MELP со скоростью 2400 бит / с. в два раза меньше. Одно из самых больших преимуществ нового MELPe со скоростью 2400 бит / с заключается в том, что он использует тот же битовый формат, что и MELP, и, следовательно, может взаимодействовать с устаревшими системами MELP, но будет обеспечивать лучшее качество на обоих концах. MELPe обеспечивает гораздо лучшее качество, чем все старые военные стандарты, особенно в шумных средах, таких как поле боя, транспортные средства и самолеты.
STANAG-4591 (НАТО)
В 2002 году, после обширных соревнований и испытаний, US DoD MELPe со скоростью 2400 и 1200 бит / с был принят также в качестве стандарта НАТО , известного как STANAG -4591. [5] Измерения производительности тестирования НАТО включали разборчивость речи, качество голоса, распознавание говорящего, языковую зависимость, зависимость говорящего, 10 акустических шумовых сред, канал передачи с BER ниже 1%, тандемное использование вокодера CVSD 16 кбит / с, шепотную речь и реальное время. выполнение. Данные тестирования включали более 36 000 файлов или 500 часов речи в различных условиях и на разных языках. В рамках тестирования НАТО нового стандарта НАТО, MELPe был испытан против других кандидатов , таких как Франция «s HSX (Harmonic Стохастического ВОЗБУЖДЕНИЯ) и Турции » s SB-LPC (Split-Band Linear Predictive Coding), а также старого безопасного голос такие стандарты, как FS1015 LPC-10e (2,4 кбит / с), FS1016 CELP (4,8 кбит / с) и CVSD (16 кбит / с). Впоследствии MELPe выиграл также конкурс НАТО, превзойдя по качеству всех других кандидатов, а также по качеству всех старых стандартов защищенной голосовой связи (CVSD, CELP и LPC-10e ). Соревнование НАТО пришло к выводу, что MELPe значительно улучшил производительность (с точки зрения качества речи, разборчивости и помехоустойчивости), одновременно снизив требования к пропускной способности. Тестирование НАТО также включало тесты на совместимость, использовало более 200 часов речевых данных и проводилось в 3 испытательных лабораториях по всему миру. Compandent Inc, в рамках проектов на базе MELPe, выполняемых для АНБ и НАТО , предоставила АНБ и НАТО специальную испытательную платформу, известную как устройство MELCODER, которая стала прекрасным эталоном для реализации MELPe в реальном времени. Недорогое оконечное оборудование данных (DTE) FLEXI-232 от Compandent , основанное на золотой справке MELCODER , очень популярно и широко используется для оценки и тестирования MELPe в реальном времени, в различных каналах и сетях, а также в полевых условиях. .
В 2005 г. к стандарту НАТО STANAG-4591 была добавлена новая вариация MELPe со скоростью 600 бит / с, разработанная Thales Group ( Франция ) (без обширных конкурсов и испытаний, которые проводились для MELPe 2400/1200 бит / с). [6]
300 бит / с MELP
В 2010 году MIT Lincoln Labs, Compandent , BBN и General Dynamics также разработали для DARPA устройство MELP со скоростью 300 бит / с. [7] Его качество было лучше, чем у MELPe 600 бит / с, но его алгоритмическая задержка была больше.
Реализации
MELPe реализован во многих приложениях, включая защищенные радиоустройства, спутниковую связь, VoIP и приложения для мобильных телефонов. В таких приложениях требуется дополнительный опыт для борьбы с ошибками канала, потерей пакетов и синхронизацией. Такой опыт требует понимания чувствительности битов MELPe к ошибкам. MELPe 2400 бит / с и 1200 бит / с включает бит синхронизации, который полезен при последовательной связи.
Уровень сжатия
MELPe предназначен для сжатия речи. Для аудиовхода, дискретизированного с частотой 8 кГц, кодек MELPe обеспечивает следующие коэффициенты сжатия в потоке данных G.711 по μ-закону 64 кбит / с, не считая влияния служебных данных протокола:
Битрейт | Степень сжатия по G.711 | Размер полезной нагрузки | Интервал полезной нагрузки |
---|---|---|---|
2400 бит / с | 26,7 х | 54 бит | 22,5 мс |
1200 бит / с | 53,3 Х | 81 бит | 67,5 мс |
600 бит / с | 106,7 х | 54 бит | 90 мс |
Как правило, кодирование речи включает в себя компромисс между различными аспектами, включая скорость передачи данных, качество речи, задержку (размер кадра и опережающий просмотр), вычислительную сложность, надежность для разных говорящих и языков, устойчивость к различным фоновым шумам, устойчивость к ошибкам канала, а также восстановление состояния кодека при потере пакетов. Поскольку более низкие скорости MELPe (600 и 1200 бит / с) являются надмножествами скорости 2400 бит / с, сложность алгоритма (например, в MIPS) примерно одинакова для всех скоростей. Более низкие скорости используют увеличенные кадры и опережающий просмотр, а также размер кодовой книги, поэтому они требуют больше памяти.
Права интеллектуальной собственности
MELPe (и / или его производные) подлежат лицензированию IPR от следующих компаний, Texas Instruments (алгоритм / исходный код MELP 2400 бит / с), Microsoft (транскодер 1200 бит / с), Thales Group (скорость 600 бит / с) , Compandent и AT&T (Noise Pre-Processor NPP).
Смотрите также
Рекомендации
- ^ Модель вокодера LPC со смешанным возбуждением для кодирования речи с низкой скоростью передачи, Алан В. МакКри, Томас П. Барнвелл, 1995 в IEEE Trans. Обработка речи и звука (исходный MELP)
- ^ Аналого-цифровое преобразование голоса с помощью линейного предсказания смешанного возбуждения (MELP) со смешанным возбуждением 2400 бит / с, Министерство обороны США (MIL_STD-3005, оригинальный MELP)
- ^ MR Bielefeld, LM Supplee, «Разработка тестовой программы для процесса выбора вокодера DoD 2400 бит / с», Acoustics Speech and Signal Processing, 1996. ICASSP-96. Материалы конференций. 1996 Международная конференция IEEE, т. 2. С. 1141-1144 т. 2, 1996.
- ^ LM Supplee, RP Cohn, JS Collura, AV McCree, «MELP: новый федеральный стандарт на скорости 2400 бит / с», Acoustics Speech and Signal Processing, 1997. ICASSP-97. 1997 Международная конференция IEEE, т. 2, стр. 1591-1594, т. 2, 1997.
- ^ ВЗАИМОДЕЙСТВУЮЩИЙ ГОЛОСОВЫЙ КОДЕР НАТО 1200 И 2400 БИТ / С, STANAG-4591, НАТО
- ^ ВАРИАЦИЯ MELPe ДЛЯ УЗКОПОЛОСНОГО ГОЛОСОВОГО КОДЕРА НАТО 600 БИТ / С, STANAG-4591, НАТО
- ^ Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. IEEE Int. Конф. Acoust., Speech, Signal Processing, 2006, стр. I 705–708, Тулуза, Франция