Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Линейные спектральные пары ( LSP ) или линейные спектральные частоты ( LSF ) используются для представления коэффициентов линейного предсказания (LPC) для передачи по каналу. [1] LSP имеют несколько свойств (например, меньшую чувствительность к шуму квантования), которые делают их лучше, чем прямое квантование LPC. По этой причине LSP очень полезны при кодировании речи .

Представление LSP был разработан Фумитада Итакура , [2] в Nippon Telegraph и Telephone (NTT) в 1975 г. [3] С 1975 по 1981 год, он изучал проблемы в области анализа и синтеза речи на основе метода LSP. [4] В 1980 году его команда разработала микросхему синтезатора речи на основе LSP . LSP - важная технология для синтеза и кодирования речи, и в 1990-х годах была принята почти всеми международными стандартами кодирования речи в качестве важного компонента, способствовавшего совершенствованию цифровой речевой связи по мобильным каналам и Интернету во всем мире. [5] LSP используются в линейном предсказании с кодовым возбуждением.(CELP) алгоритм, разработанный Бишну С. Аталом и Манфредом Р. Шредером в 1985 году.

Математическая основа [ править ]

Полином LP может быть выражен как , где:

По построению P - палиндромный многочлен, а Q - антипалиндромный многочлен ; физически P ( z ) соответствует речевому тракту с закрытой голосовой щелью, а Q ( z ) - с открытой голосовой щелью . [6] Можно показать, что:

Представление линейной спектральной пары полинома LP состоит просто из расположения корней P и Q (т. Е. Таких, что ). Поскольку они встречаются парами, необходимо передавать только половину фактических корней (обычно от 0 до ). Таким образом, общее количество коэффициентов для P и Q равно p , количеству исходных коэффициентов LP (не считая ).

Обычный алгоритм для их поиска [7] состоит в том, чтобы оценить полином в последовательности близко расположенных точек вокруг единичного круга, наблюдая, когда результат меняет знак; когда это происходит, корень должен лежать между проверяемыми точками. Поскольку корни P перемежаются с корнями Q, достаточно одного прохода, чтобы найти корни обоих многочленов.

Чтобы преобразовать обратно в LPC, нам нужно оценить , "синхронизируя" импульс, проходящий через него N раз (порядок фильтра), что дает исходный фильтр  A ( z ).

Свойства [ править ]

Спектральные пары линий обладают несколькими интересными и полезными свойствами. Когда корни P ( z ) и Q ( z ) чередуются, стабильность фильтра обеспечивается тогда и только тогда, когда корни монотонно возрастают. Более того, чем ближе два корня, тем более резонансным является фильтр на соответствующей частоте. Поскольку LSP не слишком чувствительны к шуму квантования и стабильность легко обеспечивается, LSP широко используются для квантования фильтров LPC. Частоты спектральных линий можно интерполировать.

См. Также [ править ]

Источники [ править ]

Включает обзор LPC.

Ссылки [ править ]

  1. ^ Sahidullah, Md .; Чакроборты, Сандипан; Саха, Гаутам (январь 2010 г.). «Об использовании перцептивных спектральных пар линий, частот и остаточных моментов более высокого порядка для идентификации говорящего» . Международный журнал биометрии . 2 (4): 358–378. DOI : 10.1504 / ijbm.2010.035450 .
  2. ^ Чжэн, Ф .; Песня, З .; Li, L .; Ю. В. (1998). «Измерение расстояния для пар линейного спектра, применяемое для распознавания речи» (PDF) . Труды 5-й Международной конференции по обработке разговорной речи (ICSLP'98) (3): 1123–6.
  3. ^ «Список этапов развития IEEE» . IEEE . Проверено 15 июля 2019 .
  4. ^ "Устная история Фумитада Итакура" . Сеть глобальной истории IEEE. 20 мая 2009 . Проверено 21 июля 2009 .
  5. ^ «Список этапов развития IEEE» . IEEE . Проверено 15 июля 2019 .
  6. ^ http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/node51.html#SECTION000713000000000000000 Тони Робинсон: Анализ речи
  7. ^ например, lsf.c в http://www.ietf.org/rfc/rfc3951.txt