Кодирование речи


Кодирование речи представляет собой применение сжатия данных цифровых аудиосигналов , содержащих речь . При кодировании речи используется оценка параметров речи с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном битовом потоке. [1]

Некоторыми приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). [2] Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). [ нужна ссылка ]

Методы, используемые при кодировании речи, аналогичны тем, которые используются при сжатии аудиоданных и аудиокодировании , где знания в области психоакустики используются для передачи только данных, которые имеют отношение к слуховой системе человека. Например, при кодировании речи в голосовой полосе передается только информация в полосе частот от 400 до 3500 Гц, но реконструированный сигнал по-прежнему достаточен для разборчивости .

Кодирование речи отличается от других форм кодирования звука тем, что речь является более простым сигналом, чем большинство других звуковых сигналов, и доступно гораздо больше статистической информации о свойствах речи. В результате некоторая слуховая информация, имеющая отношение к кодированию звука, может оказаться ненужной в контексте кодирования речи. При кодировании речи важнейшим критерием является сохранение разборчивости и «приятности» речи при ограниченном объеме передаваемых данных. [3]

Кроме того, для большинства речевых приложений требуется малая задержка кодирования, поскольку длительные задержки кодирования мешают речевому взаимодействию. [4]

С этой точки зрения алгоритмы A-закона и μ-закона ( G.711 ), используемые в традиционной цифровой телефонии с ИКМ , можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит. . [6] Законы логарифмического компандирования согласуются с восприятием человеческого слуха в том смысле, что низкоамплитудный шум слышен вместе с низкоамплитудным речевым сигналом, но маскируется высокоамплитудным шумом. Хотя это привело бы к неприемлемым искажениям в музыкальном сигнале, пиковый характер речевых волн в сочетании с простой частотной структурой речи как периодической формы волны , имеющей одну основную частоту .со случайными добавленными всплесками шума, делают эти очень простые алгоритмы мгновенного сжатия приемлемыми для речи.