Обработка речи - это исследование речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают в себя сбор, обработку, хранение, передачу и вывод речевых сигналов. Входной сигнал называется распознаванием речи, а выходной - синтезом речи .
История
Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году трое исследователей из Bell Labs, Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произносимые одним говорящим. [1] Пионерские работы в области распознавания речи с использованием анализа ее спектра были опубликованы в 1940-х годах. [2]
Алгоритм обработки речи с линейным предсказанием (LPC) был впервые предложен Фумитадой Итакурой из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. [3] Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталем. и Манфред Р. Шредер в Bell Labs в 1970-е годы. [3] LPC был основой для технологии передачи голоса по IP (VoIP) [3], а также для микросхем синтезатора речи , таких как LPC Speech Chips от Texas Instruments, которые использовались в игрушках Speak & Spell с 1978 года [4].
Одним из первых коммерчески доступных продуктов для распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими сотрудниками Bell Labs, была использована AT&T в своей службе обработки вызовов с распознаванием речи для маршрутизации вызовов без участия оператора. К этому моменту словарный запас этих систем был больше, чем средний человеческий словарь. [5]
К началу 2000-х годов доминирующая стратегия обработки речи начала сдвигаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . [ необходима цитата ]
Методы
Динамическое искажение времени
Динамическое искажение времени (DTW) - это алгоритм измерения сходства между двумя временными последовательностями , скорость которых может различаться. В общем, DTW - это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное совпадение обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, где стоимость вычисляется как сумма абсолютных различий для каждой согласованной пары индексов между их значениями. [ необходима цитата ]
Скрытые марковские модели
Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма - оценить скрытую переменную x (t) по списку наблюдений y (t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t при постоянных значениях скрытой переменной x зависит только от значения скрытой переменной x ( t - 1). Точно так же значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). [ необходима цитата ]
Искусственные нейронные сети
Искусственная нейронная сеть (ИНС) основана на наборе связанных блоков или узлов, называемых искусственными нейронами , которые свободно моделируют нейроны в биологическом мозге . Каждое соединение, как синапсы в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, который получает сигнал, может обработать его, а затем передать сигнал дополнительным искусственным нейронам, подключенным к нему. В обычных реализациях ИНС сигнал в соединении между искусственными нейронами является действительным числом , а выходной сигнал каждого искусственного нейрона вычисляется некоторой нелинейной функцией суммы его входных сигналов. [ необходима цитата ]
Фазовая обработка
Обычно предполагается, что фаза является случайной однородной величиной и поэтому бесполезна. Это связано с переносом фазы: [6] результат функции арктангенса не является непрерывным из-за периодических переходов на. После разворачивания фазы (см. [7] Глава 2.3; Мгновенная фаза и частота ) ее можно выразить как: [6] [8], где линейная фаза ( - временной сдвиг на каждом кадре анализа), - фазовый вклад голосового тракта и фазовый источник. [8] Полученные оценки фазы могут быть использованы для уменьшения шума: временное сглаживание мгновенной фазы [9] и ее производных по времени ( мгновенная частота ) и частоте ( групповая задержка ), [10] сглаживание фазы по частоте. [10] Объединенные устройства оценки амплитуды и фазы могут более точно восстанавливать речь на основе предположения о распределении фазы по Мизесу. [8]
Приложения
- Интерактивные голосовые системы
- Виртуальные помощники
- Голосовая идентификация
- Распознавание эмоций
- Автоматизация call-центра
- Робототехника
Смотрите также
- Нейрокомпьютерная обработка речи
- Кодирование речи
- Речевые технологии
- Обработка естественного языка
Рекомендации
- ^ Juang, B.-H .; Рабинер, LR (2006), "Распознавание речи, Автоматическая: История", Энциклопедия языка и лингвистики , Elsevier, стр 806-819,. Дои : 10.1016 / b0-08-044854-2 / 00906-8 , ISBN 9780080448541
- ^ Мясников, ЛЛ; Мясникова, Е. Н. (1970). Автоматическое распознавание звукового образа . Ленинград: Энергия.
- ^ а б в Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .
- ^ "VC&G - Интервью с VC&G: 30 лет спустя, Ричард Виггинс говорит о развитии речи и заклинания" .
- ^ Хуанг, Сюэдун; Бейкер, Джеймс; Редди, Радж (01.01.2014). «Историческая перспектива распознавания речи». Коммуникации ACM . 57 (1): 94–103. DOI : 10.1145 / 2500887 . ISSN 0001-0782 .
- ^ а б Моули, Пейман; Кульмер, Йозеф (август 2015 г.). "Оценка фазы в одноканальном улучшении речи: возможности ограничения" . Транзакции IEEE / ACM по обработке звука, речи и языка . 23 (8): 1283–1294. DOI : 10,1109 / TASLP.2015.2430820 . ISSN 2329-9290 . Проверено 3 декабря 2017 .
- ^ Моули, Пейман; Кульмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазовая обработка сигналов в речевом общении: теория и практика . Чичестер: Вайли. ISBN 978-1-119-23882-9.
- ^ а б в Кульмер, Йозеф; Моули, Педжман (апрель 2015 г.). «Оценка фазы гармоник в одноканальном улучшении речи с использованием распределения фон Мизеса и предварительного отношения сигнал / шум». Акустика, речь и обработка сигналов (ICASSP), 2015 IEEE Международной конференции по . IEEE. С. 5063–5067.
- ^ Кульмер, Йозеф; Моули, Педжман (май 2015 г.). «Оценка фазы в одноканальном улучшении речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. DOI : 10,1109 / LSP.2014.2365040 . ISSN 1070-9908 . Проверено 3 декабря 2017 .
- ^ а б Моули, Пейман; Саейди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в обработке сигналов с распознаванием фазы в речевой связи» . Речевое общение . 81 : 1–29. DOI : 10.1016 / j.specom.2016.04.002 . ISSN 0167-6393 . Проверено 3 декабря 2017 .