Артикуляционный синтез

Артикуляционный синтез — это вычислительные методы синтеза речи , основанные на моделях речевого тракта человека и происходящих там артикуляционных процессов. Формой речевого тракта можно управлять несколькими способами, которые обычно включают изменение положения речевых артикуляторов, таких как язык , челюсть и губы. Речь создается путем цифрового моделирования потока воздуха через речевой тракт.

Существует долгая история попыток создания механических « говорящих голов ». ^[2] Говорят, что Герберт (ум. 1003), Альберт Великий (1198–1280) и Роджер Бэкон (1214–1294) обладали говорящими головами ( Wheatstone 1837). Однако исторически подтвержденный синтез речи начинается с Вольфганга фон Кемпелена (1734–1804), который опубликовал отчет о своих исследованиях в 1791 году (см. также Dudley & Tarnoczy 1950 ).

Первые электрические аналоги речевого тракта были статическими, как у Данна (1950), Кена Стивенса и его коллег (1953), Гуннара Фанта (1960). Розен (1958) построил динамический речевой тракт (DAVO), которым Деннис (1963) позже попытался управлять с помощью компьютера. Деннис и др. (1964), Хики и др. (1968), а также Бакстер и Стронг (1969) также описали аппаратные аналоги речевого тракта. Келли и Лохбаум (1962) провели первое компьютерное моделирование; позднее цифровое компьютерное моделирование было выполнено, например, Накатой и Мицуокой (1965), Мацуи (1968) и Полом Мермельштейном (1971). Хонда и др. (1968) провели аналоговое компьютерное моделирование.

Первый программный артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филипом Рубином , Томом Баером и Полом Мермельштейном. Этот синтезатор, известный как ASY, ^[3] представлял собой вычислительную модель производства речи, основанную на моделях речевого тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами. Другая популярная модель, которая часто используется, — это модель Синдзи Маэды, которая использует факторный подход для управления формой языка .

Недавний прогресс в визуализации речевого процесса, моделировании артикуляционного контроля и моделировании биомеханики языка привел к изменениям в способе выполнения артикуляционного синтеза [1] ^{[ постоянная мертвая ссылка ]} . Примеры включают модель Haskins CASY (Конфигурируемый артикуляционный синтез), ^[4], разработанную Филипом Рубином , Марком Тиде [2], заархивированную 1 сентября 2006 г. в Wayback Machine , и Луи Гольдштейном [3] , которая сопоставляет среднесагиттальные голосовые тракты с реальными. данные магнитно-резонансной томографии (МРТ) и использует данные МРТ для построения трехмерной модели речевого тракта. Полная трехмерная модель артикуляционного синтеза была описана Оловым Энгваллом. Трехмерный артикуляционный синтезатор речи на геометрической основе был разработан Питером Биркхольцем (VocalTractLab ^[5] ). Модель « Направления скоростей артикуляторов» (DIVA) — подход к управлению с прямой связью, который учитывает нейронные вычисления, лежащие в основе производства речи, — был разработан Фрэнком Х. Гюнтером из Бостонского университета . Проект ArtiSynth, ^[6] возглавляемый Сидни Фелсом [4] из Университета Британской Колумбии , представляет собой набор инструментов для 3D-биомеханического моделирования голосового тракта человека и верхних дыхательных путей. Биомеханическое моделирование артикуляторов, таких как язык , было впервые предложено рядом ученых, в том числе Райнером Вильгельмсом-Трикарико [5] , Йоханом Пайаном [6] и Жан-Мишелем Жераром [7] , Цзяньву Дангом и Киёши Хонда [8] .