Gnuspeech

Gnuspeech
Разработчики)	Исследование звука триллия
Первый выпуск	2002 ; 19 лет назад ( 2002 )
Репозиторий	git .savannah .gnu .org / cgit / gnuspeech .git
Платформа	Кроссплатформенность
Тип	Текст в речь
Лицензия	Стандартная общественная лицензия GNU
Веб-сайт	www .gnu .org / software / gnuspeech /

Gnuspeech представляет собой расширяемый текст в речь компьютере программного пакет , который производит искусственный вывод речи , основанный на реальное время артикуляции синтеза речи по правилам. То есть он преобразует текстовые строки в фонетические описания с помощью словаря произношения, правил преобразования букв в звук и моделей ритма и интонации; преобразует фонетические описания в параметры для низкоуровневого синтезатора артикуляционной речи ; использует их для управления артикуляционной моделью голосового тракта человека, создавая выходной сигнал, подходящий для обычных устройств вывода звука, используемых в различных компьютерных операционных системах.; и делает это с такой же или большей скоростью, чем речь для взрослых.

Дизайн [ править ]

Синтезатор представляет собой ламповый резонанс или волноводную модель, которая непосредственно и достаточно точно моделирует поведение реального речевого тракта , в отличие от формантных синтезаторов, которые косвенно моделируют речевой спектр. ^[1] Проблема управления решается с помощью модели отличительной области Рене Карре ^[2], которая связывает изменения радиусов восьми продольных отделов речевого тракта с соответствующими изменениями трех частотных формант в речевом спектре, которые передают большую часть информации. речи. Регионы, в свою очередь, основаны на работе Стокгольмской лаборатории речевых технологий ^[3] Королевского технологического института ( KTH).) об «анализе чувствительности формант» - то есть о том, как на частоты формант влияют небольшие изменения радиуса речевого тракта в различных местах по его длине. ^[4]

История [ править ]

Изначально Gnuspeech был коммерческим программным обеспечением, созданным ныне несуществующей компанией Trillium Sound Research для компьютера NeXT в виде различных вариантов набора "TextToSpeech". Trillium Sound Research была дочерней компанией по передаче технологий, созданной в Университете Калгари, Альберта, Канада, на основе многолетних исследований в отделе компьютерных наук взаимодействия компьютера и человека с использованием речи, где представлены документы и руководства, относящиеся к системе. поддерживается. ^[5] Первоначальная версия, выпущенная в 1992 году, использовала синтезатор речи на основе формант. Когда NeXT прекратил производство оборудования, программное обеспечение синтезатора было полностью переписано ^[6]а также перенесен на NSFIP (NextStep For Intel Processors) с использованием волноводного подхода к моделированию акустической трубки на основе исследований Центра компьютерных исследований в музыке и акустике ( CCRMA ) Стэнфордского университета, особенно Music Kit. Подход к синтезу более подробно объясняется в документе, представленном Американскому обществу голосового ввода-вывода в 1995 году ^[7].Система использовала встроенный цифровой сигнальный процессор (DSP) 56001 на компьютере NeXT и дополнительную плату Turtle Beach с таким же DSP на версии NSFIP для запуска волновода (также известного как модель лампы). Ограничения скорости означали, что самая короткая длина речевого тракта, которая могла быть использована для речи в реальном времени (то есть, генерируемая с той же или большей скоростью, чем она была «произнесена»), составляла около 15 сантиметров, потому что частота дискретизации для вычислений волновода увеличивается. с уменьшением длины голосового тракта. Более высокие скорости процессора постепенно снимают это ограничение, что является важным достижением для воспроизведения детской речи в реальном времени.

Поскольку NeXTSTEP больше не поддерживается, а компьютеры NeXT встречаются редко, одним из вариантов выполнения исходного кода является использование виртуальных машин . Предыдущий эмулятор, например, может эмулировать DSP в NeXT компьютеров, которые могут быть использованы с помощью программного обеспечения Trillium.

MONET (Gnuspeech) в NeXTSTEP 3.3, работающий внутри Previous .

Торговля Trillium прекратилась в конце 1990-х, и проект Gnuspeech был впервые включен в репозиторий GNU Savannah в соответствии с условиями Стандартной общественной лицензии GNU в 2002 году в качестве официального программного обеспечения GNU .

Благодаря бесплатной лицензии с открытым исходным кодом , которая позволяет настраивать код, Gnuspeech используется в академических исследованиях.^[8]^[9]

Пример синтеза

The Chaos синтезирован Trillium TTS (Gnuspeech) с использованием модели речевого тракта DSP.

Проблемы с воспроизведением этого файла? См. Справку по СМИ .

Ссылки [ править ]

^ COOK, PR (1989) Синтез певческого голоса с использованием физически параметризованной модели голосового тракта человека. Международная конференция компьютерной музыки, Колумбус, Огайо
^ CARRE, R. (1992) Отличительные области в акустических трубках. Моделирование речевого производства. Journal d'Acoustique, 5 141–159
^ Сейчас Департамент речи, музыки и слуха
^ FANT, G. & PAULI, S. (1974) Пространственные характеристики моделей резонанса речевого тракта. Материалы Стокгольмского семинара по речевой коммуникации, KTH , Стокгольм, Швеция
^ Соответствующий веб-сайт U of Calgary
^ Синтезатор речи с резонансной трубкой
^ ХИЛЛ, ДР., МАНЗАРА, Л. И ТАУБ-ШОК, CR. (1995) Синтез артикуляционной речи в реальном времени по правилам. Proc. AVIOS '95 14-я ежегодная международная конференция по голосовым технологиям, Сан-Хосе, 12-14 сентября 1995 г., 27-44
^ Д'Эсте, Ф. - Синтез артикуляционной речи с параллельным многоцелевым генетическим алгоритмом. Магистерская работа, Лейденский институт передовых компьютерных наук, 2010 г.
^ Xiong, F .; Баркер Дж. - Глубокое изучение артикуляционных представлений и приложений для улучшения распознавания дизартрической речи. Конференция ITG по речевой коммуникации, Германия, 2018.

Внешние ссылки [ править ]

Gnuspeech о GNU Savannah
Обзор системы Gnuspeech

[1] COOK, PR (1989) Синтез певческого голоса с использованием физически параметризованной модели голосового тракта человека. Международная конференция компьютерной музыки, Колумбус, Огайо

[2] CARRE, R. (1992) Отличительные области в акустических трубках. Моделирование речевого производства. Journal d'Acoustique, 5 141–159

[3] Сейчас Департамент речи, музыки и слуха

[4] FANT, G. & PAULI, S. (1974) Пространственные характеристики моделей резонанса речевого тракта. Материалы Стокгольмского семинара по речевой коммуникации, KTH , Стокгольм, Швеция

[5] Соответствующий веб-сайт U of Calgary

[6] Синтезатор речи с резонансной трубкой

[7] ХИЛЛ, ДР., МАНЗАРА, Л. И ТАУБ-ШОК, CR. (1995) Синтез артикуляционной речи в реальном времени по правилам. Proc. AVIOS '95 14-я ежегодная международная конференция по голосовым технологиям, Сан-Хосе, 12-14 сентября 1995 г., 27-44

[8] Д'Эсте, Ф. - Синтез артикуляционной речи с параллельным многоцелевым генетическим алгоритмом. Магистерская работа, Лейденский институт передовых компьютерных наук, 2010 г.

[9] Xiong, F .; Баркер Дж. - Глубокое изучение артикуляционных представлений и приложений для улучшения распознавания дизартрической речи. Конференция ITG по речевой коммуникации, Германия, 2018.

[1]