Обработка речи

Обработка речи - это исследование речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают в себя сбор, обработку, хранение, передачу и вывод речевых сигналов. Входной сигнал называется распознаванием речи, а выходной - синтезом речи .

История

Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году трое исследователей из Bell Labs, Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произносимые одним говорящим. ^[1] Пионерские работы в области распознавания речи с использованием анализа ее спектра были опубликованы в 1940-х годах. ^[2]

Алгоритм обработки речи с линейным предсказанием (LPC) был впервые предложен Фумитадой Итакурой из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. ^[3] Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталем. и Манфред Р. Шредер в Bell Labs в 1970-е годы. ^[3] LPC был основой для технологии передачи голоса по IP (VoIP) ^[3], а также для микросхем синтезатора речи , таких как LPC Speech Chips от Texas Instruments, которые использовались в игрушках Speak & Spell с 1978 года ^[4].

Одним из первых коммерчески доступных продуктов для распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими сотрудниками Bell Labs, была использована AT&T в своей службе обработки вызовов с распознаванием речи для маршрутизации вызовов без участия оператора. К этому моменту словарный запас этих систем был больше, чем средний человеческий словарь. ^[5]

К началу 2000-х годов доминирующая стратегия обработки речи начала сдвигаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . ^{[ необходима цитата ]}

Методы

Динамическое искажение времени

Динамическое искажение времени (DTW) - это алгоритм измерения сходства между двумя временными последовательностями , скорость которых может различаться. В общем, DTW - это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное совпадение обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, где стоимость вычисляется как сумма абсолютных различий для каждой согласованной пары индексов между их значениями. ^{[ необходима цитата ]}

Скрытые марковские модели

Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма - оценить скрытую переменную x (t) по списку наблюдений y (t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t при постоянных значениях скрытой переменной x зависит только от значения скрытой переменной x ( t - 1). Точно так же значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). ^{[ необходима цитата ]}

Искусственные нейронные сети

Искусственная нейронная сеть (ИНС) основана на наборе связанных блоков или узлов, называемых искусственными нейронами , которые свободно моделируют нейроны в биологическом мозге . Каждое соединение, как синапсы в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, который получает сигнал, может обработать его, а затем передать сигнал дополнительным искусственным нейронам, подключенным к нему. В обычных реализациях ИНС сигнал в соединении между искусственными нейронами является действительным числом , а выходной сигнал каждого искусственного нейрона вычисляется некоторой нелинейной функцией суммы его входных сигналов. ^{[ необходима цитата ]}

Фазовая обработка

Обычно предполагается, что фаза является случайной однородной величиной и поэтому бесполезна. Это связано с переносом фазы: ^[6] результат функции арктангенса не является непрерывным из-за периодических переходов на ${\ displaystyle 2 \ pi}$ . После разворачивания фазы (см. ^[7] Глава 2.3; Мгновенная фаза и частота ) ее можно выразить как: ^[6]^[8] ${\ Displaystyle \ фи (ч, л) = \ фи _ {лин} (ч, л) + \ пси (ч, л)}$ , где ${\ displaystyle \ phi _ {lin} (h, l) = \ omega _ {0} (l ') {} _ {\ Delta} t}$ линейная фаза ( ${\ displaystyle {} _ {\ Delta} t}$ - временной сдвиг на каждом кадре анализа), ${\ Displaystyle \ пси (ч, л)}$ - фазовый вклад голосового тракта и фазовый источник. ^[8] Полученные оценки фазы могут быть использованы для уменьшения шума: временное сглаживание мгновенной фазы ^[9] и ее производных по времени ( мгновенная частота ) и частоте ( групповая задержка ), ^[10] сглаживание фазы по частоте. ^[10] Объединенные устройства оценки амплитуды и фазы могут более точно восстанавливать речь на основе предположения о распределении фазы по Мизесу. ^[8]

Приложения

Интерактивные голосовые системы
Виртуальные помощники
Голосовая идентификация
Распознавание эмоций
Автоматизация call-центра
Робототехника

Смотрите также

Нейрокомпьютерная обработка речи
Кодирование речи
Речевые технологии
Обработка естественного языка

Рекомендации

^ Juang, B.-H .; Рабинер, LR (2006), "Распознавание речи, Автоматическая: История", Энциклопедия языка и лингвистики , Elsevier, стр 806-819,. Дои : 10.1016 / b0-08-044854-2 / 00906-8 , ISBN 9780080448541
^ Мясников, ЛЛ; Мясникова, Е. Н. (1970). Автоматическое распознавание звукового образа . Ленинград: Энергия.
^ а б в Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .
^ "VC&G - Интервью с VC&G: 30 лет спустя, Ричард Виггинс говорит о развитии речи и заклинания" .
^ Хуанг, Сюэдун; Бейкер, Джеймс; Редди, Радж (01.01.2014). «Историческая перспектива распознавания речи». Коммуникации ACM . 57 (1): 94–103. DOI : 10.1145 / 2500887 . ISSN 0001-0782 .
^ а б Моули, Пейман; Кульмер, Йозеф (август 2015 г.). "Оценка фазы в одноканальном улучшении речи: возможности ограничения" . Транзакции IEEE / ACM по обработке звука, речи и языка . 23 (8): 1283–1294. DOI : 10,1109 / TASLP.2015.2430820 . ISSN 2329-9290 . Проверено 3 декабря 2017 .
^ Моули, Пейман; Кульмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазовая обработка сигналов в речевом общении: теория и практика . Чичестер: Вайли. ISBN 978-1-119-23882-9.
^ а б в Кульмер, Йозеф; Моули, Педжман (апрель 2015 г.). «Оценка фазы гармоник в одноканальном улучшении речи с использованием распределения фон Мизеса и предварительного отношения сигнал / шум». Акустика, речь и обработка сигналов (ICASSP), 2015 IEEE Международной конференции по . IEEE. С. 5063–5067.
^ Кульмер, Йозеф; Моули, Педжман (май 2015 г.). «Оценка фазы в одноканальном улучшении речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. DOI : 10,1109 / LSP.2014.2365040 . ISSN 1070-9908 . Проверено 3 декабря 2017 .
^ а б Моули, Пейман; Саейди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в обработке сигналов с распознаванием фазы в речевой связи» . Речевое общение . 81 : 1–29. DOI : 10.1016 / j.specom.2016.04.002 . ISSN 0167-6393 . Проверено 3 декабря 2017 .

[1] Juang, B.-H .; Рабинер, LR (2006), "Распознавание речи, Автоматическая: История", Энциклопедия языка и лингвистики , Elsevier, стр 806-819,. Дои : 10.1016 / b0-08-044854-2 / 00906-8 , ISBN 9780080448541

[2] Мясников, ЛЛ; Мясникова, Е. Н. (1970). Автоматическое распознавание звукового образа . Ленинград: Энергия.

[Gray-3] а б в Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .

[vintagecomputing_article-4] "VC&G - Интервью с VC&G: 30 лет спустя, Ричард Виггинс говорит о развитии речи и заклинания" .

[5] Хуанг, Сюэдун; Бейкер, Джеймс; Редди, Радж (01.01.2014). «Историческая перспектива распознавания речи». Коммуникации ACM . 57 (1): 94–103. DOI : 10.1145 / 2500887 . ISSN 0001-0782 .

[limits-6] а б Моули, Пейман; Кульмер, Йозеф (август 2015 г.). "Оценка фазы в одноканальном улучшении речи: возможности ограничения" . Транзакции IEEE / ACM по обработке звука, речи и языка . 23 (8): 1283–1294. DOI : 10,1109 / TASLP.2015.2430820 . ISSN 2329-9290 . Проверено 3 декабря 2017 .

[7] Моули, Пейман; Кульмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазовая обработка сигналов в речевом общении: теория и практика . Чичестер: Вайли. ISBN 978-1-119-23882-9.

[vonMises-8] а б в Кульмер, Йозеф; Моули, Педжман (апрель 2015 г.). «Оценка фазы гармоник в одноканальном улучшении речи с использованием распределения фон Мизеса и предварительного отношения сигнал / шум». Акустика, речь и обработка сигналов (ICASSP), 2015 IEEE Международной конференции по . IEEE. С. 5063–5067.

[9] Кульмер, Йозеф; Моули, Педжман (май 2015 г.). «Оценка фазы в одноканальном улучшении речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. DOI : 10,1109 / LSP.2014.2365040 . ISSN 1070-9908 . Проверено 3 декабря 2017 .

[Advances-10] а б Моули, Пейман; Саейди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в обработке сигналов с распознаванием фазы в речевой связи» . Речевое общение . 81 : 1–29. DOI : 10.1016 / j.specom.2016.04.002 . ISSN 0167-6393 . Проверено 3 декабря 2017 .

[1]