Линейное предиктивное кодирование

Кодирование с линейным предсказанием ( LPC ) — это метод, используемый в основном при обработке звуковых сигналов и обработке речи для представления спектральной огибающей цифрового сигнала речи в сжатой форме с использованием информации модели линейного предсказания . ^[1]^[2]

LPC является наиболее широко используемым методом кодирования и синтеза речи . Это мощный метод анализа речи и полезный метод для кодирования речи хорошего качества с низкой скоростью передачи данных.

LPC начинается с предположения, что речевой сигнал воспроизводится зуммером на конце трубки (для звонких звуков), с добавлением случайных шипящих и хлопающих звуков (для глухих звуков, таких как шипящие и взрывные звуки ). Несмотря на кажущуюся грубость, эта модель «Источник-фильтр» на самом деле является близким приближением к реальности воспроизведения речи. Голосовая щель (пространство между голосовыми связками) производит гудение, которое характеризуется интенсивностью ( громкостью ) и частотой (высотой). Речевой тракт (горло и рот) образует трубку, для которой характерны его резонансы; эти резонансы вызываютформанты или расширенные полосы частот воспроизводимого звука. Шипение и хлопки генерируются действием языка, губ и горла во время шипящих и взрывных звуков.

LPC анализирует речевой сигнал, оценивая форманты, удаляя их влияние из речевого сигнала и оценивая интенсивность и частоту оставшегося гудения. Процесс удаления формант называется обратной фильтрацией, а оставшийся сигнал после вычитания отфильтрованного смоделированного сигнала называется остатком.

Числа, описывающие интенсивность и частоту гудения, форманты и остаточный сигнал, могут храниться или передаваться куда-то еще. LPC синтезирует речевой сигнал, обращая процесс: используйте параметры гудения и остаток для создания исходного сигнала, используйте форманты для создания фильтра (который представляет собой трубку) и пропускайте источник через фильтр, в результате чего получается речь.

Поскольку речевые сигналы меняются со временем, этот процесс выполняется на коротких фрагментах речевого сигнала, которые называются кадрами; как правило, от 30 до 50 кадров в секунду дают разборчивую речь с хорошим сжатием.