Линейные спектральные пары

Линейные спектральные пары ( LSP ) или линейные спектральные частоты ( LSF ) используются для представления коэффициентов линейного предсказания (LPC) для передачи по каналу. ^[1] LSP имеют несколько свойств (например, меньшую чувствительность к шуму квантования), которые делают их лучше, чем прямое квантование LPC. По этой причине LSP очень полезны при кодировании речи .

Представление LSP был разработан Фумитада Итакура , ^[2] в Nippon Telegraph и Telephone (NTT) в 1975 г. ^[3] С 1975 по 1981 год, он изучал проблемы в области анализа и синтеза речи на основе метода LSP. ^[4] В 1980 году его команда разработала микросхему синтезатора речи на основе LSP . LSP - важная технология для синтеза и кодирования речи, и в 1990-х годах была принята почти всеми международными стандартами кодирования речи в качестве важного компонента, способствовавшего совершенствованию цифровой речевой связи по мобильным каналам и Интернету во всем мире. ^[5] LSP используются в линейном предсказании с кодовым возбуждением.(CELP) алгоритм, разработанный Бишну С. Аталом и Манфредом Р. Шредером в 1985 году.

Математическая основа [ править ]

Полином LP может быть выражен как , где: $A(z)=1-\sum _{k=1}^{p}a_{k}z^{-k}$ $A(z)=0.5[P(z)+Q(z)]$

$P(z)=A(z)+z^{-(p+1)}A(z^{-1})$
$Q(z)=A(z)-z^{-(p+1)}A(z^{-1})$

По построению P - палиндромный многочлен, а Q - антипалиндромный многочлен ; физически P ( z ) соответствует речевому тракту с закрытой голосовой щелью, а Q ( z ) - с открытой голосовой щелью . ^[6] Можно показать, что:

В корнях из P и Q лежат на единичной окружности в комплексной плоскости.
Корни P чередуются с корнями Q, когда мы путешествуем по кругу.
Поскольку коэффициенты P и Q действительны, корни встречаются в сопряженных парах

Представление линейной спектральной пары полинома LP состоит просто из расположения корней P и Q (т. Е. Таких, что ). Поскольку они встречаются парами, необходимо передавать только половину фактических корней (обычно от 0 до ). Таким образом, общее количество коэффициентов для P и Q равно p , количеству исходных коэффициентов LP (не считая ). $\omega$ $z=e^{i\omega },P(z)=0$ $\pi$ $a_{0}=1$

Обычный алгоритм для их поиска ^[7] состоит в том, чтобы оценить полином в последовательности близко расположенных точек вокруг единичного круга, наблюдая, когда результат меняет знак; когда это происходит, корень должен лежать между проверяемыми точками. Поскольку корни P перемежаются с корнями Q, достаточно одного прохода, чтобы найти корни обоих многочленов.

Чтобы преобразовать обратно в LPC, нам нужно оценить , "синхронизируя" импульс, проходящий через него N раз (порядок фильтра), что дает исходный фильтр A ( z ). $A(z)=0.5[P(z)+Q(z)]$

Свойства [ править ]

Спектральные пары линий обладают несколькими интересными и полезными свойствами. Когда корни P ( z ) и Q ( z ) чередуются, стабильность фильтра обеспечивается тогда и только тогда, когда корни монотонно возрастают. Более того, чем ближе два корня, тем более резонансным является фильтр на соответствующей частоте. Поскольку LSP не слишком чувствительны к шуму квантования и стабильность легко обеспечивается, LSP широко используются для квантования фильтров LPC. Частоты спектральных линий можно интерполировать.

См. Также [ править ]

Соотношение площадей бревен

Источники [ править ]

Руководство Speex и исходный код (lsp.c)
«Вычисление спектральных частот линий с помощью полиномов Чебышева» / П. Кабал и Р.П. Рамачандран. IEEE Trans. Акустика, речь, обработка сигналов, т. 34, нет. 6. С. 1419–1426, декабрь 1986 г.

Включает обзор LPC.

Глава «Линейные спектральные пары» в виде онлайн-отрывка (pdf) / «Цифровая обработка сигналов - перспектива компьютерных наук» ( ISBN 0-471-29546-9 ) Джонатан Штайн .

Ссылки [ править ]

^ Sahidullah, Md .; Чакроборты, Сандипан; Саха, Гаутам (январь 2010 г.). «Об использовании перцептивных спектральных пар линий, частот и остаточных моментов более высокого порядка для идентификации говорящего» . Международный журнал биометрии . 2 (4): 358–378. DOI : 10.1504 / ijbm.2010.035450 .
^ Чжэн, Ф .; Песня, З .; Li, L .; Ю. В. (1998). «Измерение расстояния для пар линейного спектра, применяемое для распознавания речи» (PDF) . Труды 5-й Международной конференции по обработке разговорной речи (ICSLP'98) (3): 1123–6.
^ «Список этапов развития IEEE» . IEEE . Проверено 15 июля 2019 .
^ "Устная история Фумитада Итакура" . Сеть глобальной истории IEEE. 20 мая 2009 . Проверено 21 июля 2009 .
^ «Список этапов развития IEEE» . IEEE . Проверено 15 июля 2019 .
^ http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/node51.html#SECTION000713000000000000000 Тони Робинсон: Анализ речи
^ например, lsf.c в http://www.ietf.org/rfc/rfc3951.txt

[1] Sahidullah, Md .; Чакроборты, Сандипан; Саха, Гаутам (январь 2010 г.). «Об использовании перцептивных спектральных пар линий, частот и остаточных моментов более высокого порядка для идентификации говорящего» . Международный журнал биометрии . 2 (4): 358–378. DOI : 10.1504 / ijbm.2010.035450 .

[2] Чжэн, Ф .; Песня, З .; Li, L .; Ю. В. (1998). «Измерение расстояния для пар линейного спектра, применяемое для распознавания речи» (PDF) . Труды 5-й Международной конференции по обработке разговорной речи (ICSLP'98) (3): 1123–6.

[3] «Список этапов развития IEEE» . IEEE . Проверено 15 июля 2019 .

[ItakuraHistory-4] "Устная история Фумитада Итакура" . Сеть глобальной истории IEEE. 20 мая 2009 . Проверено 21 июля 2009 .

[ieee-5] «Список этапов развития IEEE» . IEEE . Проверено 15 июля 2019 .

[6] ttp://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/node51.html#SECTION000713000000000000000 Тони Робинсон: Анализ речи

[7] например, lsf.c в http://www.ietf.org/rfc/rfc3951.txt

[1]