Кодирование с линейным прогнозированием

Кодирования с линейным предсказанием ( LPC ) представляет собой метод , используемый в основном в аудио обработки сигналов и речевой обработки для представления спектральной огибающей в виде цифрового сигнала из речи в сжатом виде, с использованием информации о виде линейной модели прогнозирования . ^[1]^[2] Это один из самых мощных методов анализа речи и один из наиболее полезных методов кодирования речи хорошего качества с низкой скоростью передачи данных, обеспечивающий высокоточные оценки параметров речи. LPC - наиболее широко используемый метод кодирования речи исинтез речи .

Обзор [ править ]

LPC исходит из предположения, что речевой сигнал генерируется зуммером на конце трубки (для озвученных звуков), со случайным добавлением шипящих и хлопающих звуков (для глухих звуков, таких как свистящие и взрывные звуки ). Несмотря на кажущуюся грубость, эта модель на самом деле является близким приближением к реальности производства речи. Голосовая щель (пространство между голосовыми складками) производит шум, который характеризуется своей интенсивностью ( громкость ) и частота ( основной тон). Голосовой тракт (горло и рот) образует трубку, которая характеризуется ее резонансов; эти резонансы порождают форманты, или расширенные полосы частот производимого звука. Шипение и хлопки производятся языком, губами и горлом во время свистящих и взрывных звуков.

LPC анализирует речевой сигнал, оценивая форманты, удаляя их эффекты из речевого сигнала и оценивая интенсивность и частоту оставшегося шума. Процесс удаления формант называется обратной фильтрацией, а оставшийся сигнал после вычитания отфильтрованного смоделированного сигнала называется остатком.

Числа, которые описывают интенсивность и частоту гудения, формант и остаточного сигнала, могут быть сохранены или переданы в другое место. LPC синтезирует речевой сигнал, обращая процесс: используйте параметры гудка и остаток для создания исходного сигнала, используйте форманты для создания фильтра (который представляет трубку) и пропустите источник через фильтр, в результате чего получится речь.

Поскольку речевые сигналы меняются со временем, этот процесс выполняется на коротких фрагментах речевого сигнала, которые называются кадрами; обычно от 30 до 50 кадров в секунду дают разборчивую речь с хорошим сжатием.

Ранняя история [ править ]

Линейное прогнозирование (оценка сигнала) восходит как минимум к 1940-м годам, когда Норберт Винер разработал математическую теорию для расчета лучших фильтров и предикторов для обнаружения сигналов, скрытых в шуме. ^[3]^[4] Вскоре после Клод Шеннон создал общую теорию кодирования работы по предиктивному кодированию было сделано C. Chapin Катлер , ^[5] Бернард М. Оливер ^[6] и Генри С. Харрисон. ^[7] Питер Элиас в 1955 году опубликовал две статьи о кодировании сигналов с предсказанием. ^[8]^[9]

Линейные предикторы применялись к анализу речи независимо Фумитадой Итакурой из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone в 1966 году и в 1967 году Бишну С. Аталом , Манфредом Р. Шредером и Джоном Бургом. Итакура и Сайто описали статистический подход, основанный на оценке максимального правдоподобия ; Атал и Шредер описали подход адаптивного линейного предсказателя ; Бург изложил подход, основанный на принципе максимальной энтропии . ^[4]^[10]^[11]^[12]

В 1969 году Итакура и Сайто представили метод, основанный на частичной корреляции (PARCOR), Глен Каллер предложил кодирование речи в реальном времени, а Бишну С. Атал представил речевой кодер LPC на Ежегодном собрании Акустического общества Америки . В 1971 году компания Philco-Ford продемонстрировала LPC в реальном времени с использованием 16-битного оборудования LPC ; было продано четыре единицы. ^[13] Технология LPC была разработана Бишну Аталом и Манфредом Шредером в 1970–1980-х годах. ^[13] В 1978 году Атал и Вишванат и др. BBN разработала первый алгоритм LPC с переменной скоростью . ^[13] В том же году Атал иМанфред Р. Шредер из Bell Labs предложил речевой кодек LPC, называемый адаптивным предсказательным кодированием , в котором использовался алгоритм психоакустического кодирования, использующий маскирующие свойства человеческого уха. ^[14]^[15] Позже это стало основой для техники перцептивного кодирования , используемой форматом сжатия звука MP3 , введенным в 1993 году. ^[14] Линейное предсказание с кодовым возбуждением (CELP) было разработано Шредером и Аталом в 1985 году ^{[16]. ]}

LPC является основой для технологии передачи голоса по IP (VoIP). ^[13] В 1972 году Боб Кан из ARPA вместе с Джимом Форги ( Lincoln Laboratory , LL) и Дэйвом Уолденом ( BBN Technologies ) начали первые разработки пакетной речи, которые в конечном итоге привели к технологии передачи голоса по IP. Согласно неофициальной истории Лаборатории Линкольна, в 1973 году Эд Хофстеттер реализовал первый LPC в реальном времени со скоростью 2400 бит / с. В 1974 году была осуществлена первая двусторонняя пакетная речевая связь LPC в реальном времени через ARPANET со скоростью 3500 бит / с между Каллер-Харрисоном и лабораторией Линкольна. В 1976 году была проведена первая конференция LPC по ARPANET с использованиемСетевой голосовой протокол между Каллером-Харрисоном, ISI, SRI и LL со скоростью 3500 бит / с. ^{[ необходима цитата ]}

Представления коэффициентов LPC [ править ]

LPC часто используется для передачи информации о спектральной огибающей, и поэтому он должен быть устойчивым к ошибкам передачи. Прямая передача коэффициентов фильтра ( определение коэффициентов см. В линейном прогнозировании ) нежелательна, поскольку они очень чувствительны к ошибкам. Другими словами, очень маленькая ошибка может исказить весь спектр или, что еще хуже, небольшая ошибка может сделать фильтр предсказания нестабильным.

Существуют более сложные представления, такие как логарифмические отношения площадей (LAR), разложение по парам спектральных линий (LSP) и коэффициенты отражения . Среди них особенно популярно разложение LSP, поскольку оно обеспечивает стабильность предсказателя, а спектральные ошибки являются локальными для малых отклонений коэффициентов.

Приложения [ править ]

КЛП является наиболее широко используемым методом в кодировании речи и синтеза речи . ^[17] Обычно он используется для анализа речи и ресинтеза. Телефонные компании используют его как форму сжатия голоса, например, в стандарте GSM . Он также используется для безопасной беспроводной связи, где голос должен быть оцифрован , зашифрован и отправлен по узкому голосовому каналу; ранний пример этого является правительство США Навахо я .

Синтез LPC может использоваться для создания вокодеров, в которых музыкальные инструменты используются в качестве сигнала возбуждения для изменяющегося во времени фильтра, оцениваемого по речи певца. Это довольно популярно в электронной музыке . Пол Лански сделал известное компьютерное музыкальное произведение без всякой путаницы, используя кодирование с линейным предсказанием. [1] LPC 10-го порядка использовался в популярной обучающей игрушке Speak & Spell 1980-х годов .

LPC предикторы используются в Сокращенно , MPEG-4 ALS , FLAC , ШЕЛКОВОМ аудиокодека и других без потерь аудио кодеков.

LPC уделяется некоторое внимание как инструменту для тонального анализа скрипок и других струнных музыкальных инструментов. ^[18]

См. Также [ править ]

Кодирование с искаженным линейным предсказанием
Информационный критерий Акаике
Аудио сжатие
Оценка высоты тона
ПС-1015
ПС-1016
Обобщенная фильтрация
Линейное предсказание
Линейный прогнозный анализ
Линейное предсказание с кодовым возбуждением (CELP)

Ссылки [ править ]

^ Дэн, Ли; Дуглас О'Шонесси (2003). Обработка речи: динамический подход, ориентированный на оптимизацию . Марсель Деккер . С. 41–48. ISBN 978-0-8247-4040-5.
^ Beigi, Homayoon (2011). Основы распознавания говорящего . Берлин: Springer-Verlag. ISBN 978-0-387-77591-3.
^ BS Атал (2006). «История линейного предсказания» . 23 (2). Журнал обработки сигналов IEEE: 154–161. Цитировать журнал требует |journal=( помощь )
^ а б Я. Сашахира; С. Хашимото (1995). «Изменение высоты голоса с помощью метода линейного прогнозирования для сохранения личного тембра певца» (PDF) . Цитировать журнал требует |journal=( помощь )CS1 maint: использует параметр авторов ( ссылка )
^ US2605361A , CC Cutler, "Дифференциальное квантование сигналов связи"
↑ BM Оливер (1952). «Эффективное кодирование». 31 (4). Nokia Bell Labs: 724–750. Цитировать журнал требует |journal=( помощь )
^ ХК Харрисон (1952). «Эксперименты с линейным предсказанием на телевидении». 31 . Технический журнал Bell System: 764–783. Цитировать журнал требует |journal=( помощь )
^ П. Элиас (1955). «Предиктивное кодирование I». ИТ-1 № 1. IRE Trans. Информ.теория: 16–24. Цитировать журнал требует |journal=( помощь )
^ П. Элиас (1955). «Предиктивное кодирование II». ИТ-1 № 1. IRE Trans. Поставить в известность. Теория: 24–33. Цитировать журнал требует |journal=( помощь )
^ С. Сайто; Ф. Итакура (январь 1967 г.). «Теоретическое рассмотрение статистического оптимального распознавания спектральной плотности речи». J. Acoust. Soc.Japan. Цитировать журнал требует |journal=( помощь )CS1 maint: использует параметр авторов ( ссылка )
^ BS Атал; MR Шредер (1967). «Предиктивное кодирование речи». Конф. Коммуникации и Proc. Цитировать журнал требует |journal=( помощь )CS1 maint: использует параметр авторов ( ссылка )
^ JP Burg (1967). «Спектральный анализ максимальной энтропии». Труды 37-го заседания Общества разведочной геофизики, Оклахома-Сити. Цитировать журнал требует |journal=( помощь )
^ a b c d Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .
^ a b Шредер, Манфред Р. (2014). "Bell Laboratories" . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. п. 388. ISBN. 9783319056609.
^ Атал, B .; Шредер, М. (1978). «Предиктивное кодирование речевых сигналов и критерии субъективной ошибки». ICASSP '78. Международная конференция IEEE по акустике, речи и обработке сигналов . 3 : 573–576. DOI : 10.1109 / ICASSP.1978.1170564 .
^ Шредер, Манфред Р .; Атал, Бишну С. (1985). «Линейное предсказание с кодовым возбуждением (CELP): высококачественная речь при очень низких скоростях передачи данных». ICASSP '85. Международная конференция IEEE по акустике, речи и обработке сигналов . 10 : 937–940. DOI : 10.1109 / ICASSP.1985.1168147 . S2CID 14803427 .
↑ Гупта, Шипра (май 2016 г.). «Применение MFCC в распознавании говорящих независимо от текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и программной инженерии . 6 (5): 805-810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано 18.10.2019 из оригинального (PDF) . Проверено 18 октября 2019 .
^ Тай, Хван-Цзин; Чунг, Дай-Тин (14 июня 2012 г.). "Скрипки Страдивари демонстрируют формантные частоты, напоминающие гласные, производимые женщинами" . Savart Journal . 1 (2).

Роберт М. Грей, Общество обработки сигналов IEEE, Программа выдающихся лекторов

Дальнейшее чтение [ править ]

О'Шонесси, Д. (1988). «Линейное предсказательное кодирование». Возможности IEEE . 7 (1): 29–32. DOI : 10.1109 / 45.1890 . S2CID 12786562 .
Банди, Алан ; Валлен, Линкольн (1984). Обобщение теоремы Гливенко-Кантелли . Символическое вычисление . п. 61. DOI : 10.1007 / 978-3-642-96868-6_123 . ISBN 978-3-540-13938-6.
Эль-Джаруди, Амро (2003). «Линейное прогнозирующее кодирование». Энциклопедия телекоммуникаций Wiley . Энциклопедия телекоммуникаций . DOI : 10.1002 / 0471219282.eot155 . ISBN 978-0471219286.

Внешние ссылки [ править ]

программное обеспечение для обучения LPC-анализу / синтезу в реальном времени
30 лет спустя Dr Richard Wiggins Talks Speak & Spell development

[1] Дэн, Ли; Дуглас О'Шонесси (2003). Обработка речи: динамический подход, ориентированный на оптимизацию . Марсель Деккер . С. 41–48. ISBN 978-0-8247-4040-5.

[2] Beigi, Homayoon (2011). Основы распознавания говорящего . Берлин: Springer-Verlag. ISBN 978-0-387-77591-3.

[3] BS Атал (2006). «История линейного предсказания» . 23 (2). Журнал обработки сигналов IEEE: 154–161. Цитировать журнал требует |journal=( помощь )

[Sasahira-4] а б Я. Сашахира; С. Хашимото (1995). «Изменение высоты голоса с помощью метода линейного прогнозирования для сохранения личного тембра певца» (PDF) . Цитировать журнал требует |journal=( помощь )CS1 maint: использует параметр авторов ( ссылка )

[5] US2605361A , CC Cutler, "Дифференциальное квантование сигналов связи"

[6] BM Оливер (1952). «Эффективное кодирование». 31 (4). Nokia Bell Labs: 724–750. Цитировать журнал требует |journal=( помощь )

[7] ХК Харрисон (1952). «Эксперименты с линейным предсказанием на телевидении». 31 . Технический журнал Bell System: 764–783. Цитировать журнал требует |journal=( помощь )

[8] П. Элиас (1955). «Предиктивное кодирование I». ИТ-1 № 1. IRE Trans. Информ.теория: 16–24. Цитировать журнал требует |journal=( помощь )

[9] П. Элиас (1955). «Предиктивное кодирование II». ИТ-1 № 1. IRE Trans. Поставить в известность. Теория: 24–33. Цитировать журнал требует |journal=( помощь )

[10] С. Сайто; Ф. Итакура (январь 1967 г.). «Теоретическое рассмотрение статистического оптимального распознавания спектральной плотности речи». J. Acoust. Soc.Japan. Цитировать журнал требует |journal=( помощь )CS1 maint: использует параметр авторов ( ссылка )

[11] BS Атал; MR Шредер (1967). «Предиктивное кодирование речи». Конф. Коммуникации и Proc. Цитировать журнал требует |journal=( помощь )CS1 maint: использует параметр авторов ( ссылка )

[12] JP Burg (1967). «Спектральный анализ максимальной энтропии». Труды 37-го заседания Общества разведочной геофизики, Оклахома-Сити. Цитировать журнал требует |journal=( помощь )

[Gray-13] Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .

[Schroeder2014-14] Шредер, Манфред Р. (2014). "Bell Laboratories" . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. п. 388. ISBN. 9783319056609.

[15] Атал, B .; Шредер, М. (1978). «Предиктивное кодирование речевых сигналов и критерии субъективной ошибки». ICASSP '78. Международная конференция IEEE по акустике, речи и обработке сигналов . 3 : 573–576. DOI : 10.1109 / ICASSP.1978.1170564 .

[16] Шредер, Манфред Р .; Атал, Бишну С. (1985). «Линейное предсказание с кодовым возбуждением (CELP): высококачественная речь при очень низких скоростях передачи данных». ICASSP '85. Международная конференция IEEE по акустике, речи и обработке сигналов . 10 : 937–940. DOI : 10.1109 / ICASSP.1985.1168147 . S2CID 14803427 .

[17] Гупта, Шипра (май 2016 г.). «Применение MFCC в распознавании говорящих независимо от текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и программной инженерии . 6 (5): 805-810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано 18.10.2019 из оригинального (PDF) . Проверено 18 октября 2019 .

[tai-18] Тай, Хван-Цзин; Чунг, Дай-Тин (14 июня 2012 г.). "Скрипки Страдивари демонстрируют формантные частоты, напоминающие гласные, производимые женщинами" . Savart Journal . 1 (2).

[1]