Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Синтез речи - это искусственное производство человеческой речи . Компьютерная система, используемая для этой цели, называется речевым компьютером или синтезатором речи и может быть реализована в программных или аппаратных продуктах. А текст-в-речь ( TTS ) Система преобразует нормальный текст языка в речи; другие системы переводят в речь символические лингвистические представления, такие как фонетическая транскрипция . [1]

Синтезированная речь может быть создана путем объединения частей записанной речи, которые хранятся в базе данных . Системы различаются размером хранимых речевых единиц; система, в которой хранятся телефоны или дифоны, обеспечивает самый большой выходной диапазон, но может не иметь четкости. Для определенных областей использования хранение целых слов или предложений обеспечивает высококачественный вывод. В качестве альтернативы синтезатор может включать модель речевого тракта и другие характеристики человеческого голоса для создания полностью «синтетического» речевого вывода. [2]

О качестве синтезатора речи судят по его сходству с человеческим голосом и по его способности четко понимать. Понятная программа преобразования текста в речь позволяет людям с нарушениями зрения или чтением слушать написанные слова на домашнем компьютере. Многие компьютерные операционные системы включают синтезаторы речи с начала 1990-х годов.

Обзор типичной системы TTS

Система преобразования текста в речь (или «двигатель») состоит из двух частей: [3] передний конец и задний конец . Передняя часть имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как числа и сокращения, в эквивалент написанных слов. Этот процесс часто называют нормализацией текста , предварительной обработкой или токенизацией . Затем интерфейсная часть назначает фонетическую транскрипцию каждому слову, а также делит и маркирует текст на просодические единицы , такие как фразы , предложения и предложения . Процесс присвоения слов фонетической транскрипции называетсяпреобразование текста в фонемы или графемы в фонемы . Фонетическая транскрипция и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится во внешнем интерфейсе. Внутренняя часть - часто называемая синтезатором - затем преобразует символическое лингвистическое представление в звук. В некоторых системах эта часть включает вычисление целевой просодии (контур основного тона, длительность фонем) [4], которая затем накладывается на выходную речь.

История [ править ]

Задолго до изобретения электронной обработки сигналов некоторые люди пытались построить машины, имитирующие человеческую речь. Некоторые ранние легенды о существовании « Медных голов » касались Папы Сильвестра II (ум. 1003 г. н.э.), Альберта Великого (1198–1280) и Роджера Бэкона (1214–1294).

В 1779 году немецкий - датский ученый Кратценштейн выиграл первый приз в конкурсе , объявленном Российской Императорской академии наук и искусств для моделей он построил из человеческого голосового тракта , который может производить пять длинных гласных звуков (в Международный фонетический алфавит нотации : [aː] , [eː] , [iː] , [oː] и [uː] ). [5] Там следовали сильфоны потребителей инъекционных « акустико-механический речевой аппарат » из Кемпельныиз Прессбурга , Венгрия , описанный в статье 1791 года. [6] Эта машина добавила модели языка и губ, позволяя ей производить согласные , а также гласные. В 1837 году Чарльз Уитстон создал «говорящую машину» по проекту фон Кемпелена, а в 1846 году Йозеф Фабер выставил « Евфонию ». В 1923 году Пэджет воскресил дизайн Уитстона. [7]

В 1930-х годах Bell Labs разработала вокодер , который автоматически анализировал речь на ее основные тона и резонансы. На основе своей работы над вокодером Гомер Дадли разработал синтезатор голоса с клавишным управлением под названием The Voder (Voice Demonstrator), который он выставил на Всемирной выставке в Нью-Йорке в 1939 году .

Доктор Франклин С. Купер и его коллеги из Haskins Laboratories создали воспроизведение паттерна в конце 1940-х годов и завершили его в 1950 году. Существовало несколько различных версий этого аппаратного устройства; в настоящее время выживает только один. Устройство преобразует изображения акустических моделей речи в форме спектрограммы обратно в звук. Используя это устройство, Элвин Либерман и его коллеги обнаружили акустические сигналы для восприятия фонетических сегментов (согласных и гласных).

Электронные устройства [ править ]

Корпус компьютера и синтезатора речи, использованный Стивеном Хокингом в 1999 году.

Первые компьютерные системы синтеза речи появились в конце 1950-х годов. Норико Умеда и др. разработал первую систему преобразования текста в речь на английском языке в 1968 году в Электротехнической лаборатории в Японии. [8] В 1961 году физик Джон Ларри Келли-младший и его коллега Луи Герстман [9] использовали компьютер IBM 704 для синтеза речи, что стало одним из самых значительных событий в истории Bell Labs . [ необходима цитата ] Синтезатор диктофона ( вокодер ) Келли воссоздает песню " Daisy Bell " с музыкальным сопровождением изМакс Мэтьюз . По совпадению, Артур Кларк посетил своего друга и коллегу Джона Пирса в лаборатории Bell Labs в Мюррей-Хилле. Кларк был так впечатлен демонстрацией того, что он использовал его в кульминационной сцене своего сценария для его романа 2001: A Space Odyssey , [10] , где HAL 9000 компьютер поет ту же песню , как астронавт Дэйв Bowman кладет его спать. [11] Несмотря на успех чисто электронного синтеза речи, исследования механических синтезаторов речи продолжаются. [12] [ необходим сторонний источник ]

Линейное предиктивное кодирование (LPC), форма речевого кодирования , началось с работы Фумитады Итакура из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталем. и Манфред Р. Шредер в Bell Labs в 1970-е годы. [13] LPC позже стал основой для ранних чипов синтезатора речи, таких как LPC Speech Chips от Texas Instruments, которые использовались в игрушках Speak & Spell с 1978 года.

В 1975 году Фумитада Итакура разработал метод линейных спектральных пар (LSP) для кодирования речи с высокой степенью сжатия, в то время как в NTT. [14] [15] [16] С 1975 по 1981 год Итакура изучал проблемы анализа и синтеза речи на основе метода LSP. [16] В 1980 году его команда разработала микросхему синтезатора речи на основе LSP. LSP - важная технология для синтеза и кодирования речи, и в 1990-х годах была принята почти всеми международными стандартами кодирования речи в качестве важного компонента, способствующего расширению цифровой речевой связи по мобильным каналам и Интернету. [15]

В 1975 году была выпущена MUSA , которая стала одной из первых систем синтеза речи. Он состоял из автономного компьютерного оборудования и специального программного обеспечения, позволяющего читать по-итальянски. Вторая версия, выпущенная в 1978 году, также могла петь по-итальянски в стиле «а капелла».

Запись демо DECtalk с использованием голосов Perfect Paul и Uppity Ursula

Доминирующими системами в 1980-х и 1990-х годах были система DECtalk , в значительной степени основанная на работе Денниса Клатта из Массачусетского технологического института, и система Bell Labs; [17] последняя была одной из первых многоязычных систем, не зависящих от языка , в которой широко использовались методы обработки естественного языка .

Портативная электроника с функцией синтеза речи появилась в 1970-х годах. Одним из первых был портативный калькулятор Telesensory Systems Inc. (TSI) Speech + для слепых в 1976 году. [18] [19] Другие устройства предназначались в первую очередь для образовательных целей, например, игрушка Speak & Spell, произведенная Texas Instruments в 1978 году [ 20] Fidelity выпустила говорящую версию своего электронного шахматного компьютера в 1979 году [21] Первая видеоигра для синтеза речи особенности была 1980 стрелялки аркад , Stratovox (известного в Японии как Speak & Rescue) от Sun Electronics . [22] Первой компьютерной игрой с синтезом речи была Manbiki Shoujo ( Девушка в магазине ), выпущенная в 1980 году для PET 2001 , для которой разработчик игры, Хироши Сузуки, разработал метод программирования « нулевого креста » для создания синтезированной речевой волны. . [23] Другой ранний пример, аркадная версия Berzerk , также датируется 1980 годом. В том же году компания Milton Bradley Company выпустила первую многопользовательскую электронную игру с использованием синтеза голоса, Milton .

Ранние электронные синтезаторы речи казались роботизированными и часто были едва разборчивыми. Качество синтезированной речи неуклонно улучшалось, но по состоянию на 2016 год результаты современных систем синтеза речи по-прежнему четко отличаются от реальной человеческой речи.

Синтезированные голоса обычно казались мужскими до 1990 года, когда Энн Сирдал из AT&T Bell Laboratories создала женский голос. [24]

В 2005 году Курцвейл предсказал, что по мере того, как из -за соотношения цены и качества синтезаторы речи станут дешевле и доступнее, больше людей получат выгоду от использования программ преобразования текста в речь. [25]

Синтезаторные технологии [ править ]

Важнейшие качества системы синтеза речи - естественность и разборчивость . [26] Естественность описывает, насколько результат звучит как человеческая речь, а разборчивость - это легкость, с которой вывод понимается. Идеальный синтезатор речи одновременно естественен и разборчив. Системы синтеза речи обычно стараются максимизировать обе характеристики.

Двумя основными технологиями генерации синтетических речевых сигналов являются каскадный синтез и формантный синтез . У каждой технологии есть сильные и слабые стороны, и предполагаемое использование системы синтеза обычно определяет, какой подход будет использоваться.

Конкатенационный синтез [ править ]

Конкатенативный синтез основан на конкатенации (или объединении) сегментов записанной речи. Как правило, конкатенативный синтез обеспечивает наиболее естественное звучание синтезированной речи. Однако различия между естественными вариациями речи и природой автоматизированных методов сегментации сигналов иногда приводят к слышимым сбоям на выходе. Есть три основных подтипа конкатенативного синтеза.

Синтез выбора юнита [ править ]

Синтез выбора единиц использует большие базы данных записанной речи. Во время создания базы данных каждое записанное высказывание сегментируется на некоторые или все из следующего: отдельные телефоны , дифоны , полутелефоны , слоги , морфемы , слова , фразы и предложения . Обычно разделение на сегменты выполняется с использованием специально модифицированного распознавателя речи, установленного в режим «принудительного выравнивания» с последующей ручной коррекцией с использованием визуальных представлений, таких как форма волны и спектрограмма . [27] индексединиц в речевой базе данных затем создается на основе сегментации и акустических параметров, таких как основная частота ( высота тона ), длительность, положение в слоге и соседние телефоны. Во время выполнения желаемое целевое высказывание создается путем определения наилучшей цепочки единиц-кандидатов из базы данных (выбор единицы). Этот процесс обычно достигается с помощью специально взвешенного дерева решений .

Выбор единицы измерения обеспечивает максимальную естественность, поскольку он применяет к записанной речи лишь небольшой объем цифровой обработки сигнала (DSP). DSP часто делает записанный речевой звук менее естественным, хотя некоторые системы используют небольшую обработку сигнала в точке конкатенации для сглаживания формы волны. Результат работы лучших систем выбора единиц часто неотличим от реальных человеческих голосов, особенно в тех контекстах, для которых настроена система TTS. Однако для максимальной естественности обычно требуются очень большие речевые базы данных с выбором единиц, в некоторых системах они могут достигать гигабайтов записанных данных, представляющих десятки часов речи. [28]Кроме того, известны алгоритмы выбора единиц для выбора сегментов из места, которое приводит к неидеальному синтезу (например, второстепенные слова становятся нечеткими), даже если в базе данных есть лучший выбор. [29] Недавно исследователи предложили различные автоматизированные методы обнаружения неестественных сегментов в системах синтеза речи с выбором единиц. [30]

Дифонный синтез [ править ]

Синтез дифонов использует минимальную речевую базу данных, содержащую все дифоны (звуковые переходы), встречающиеся в языке. Количество дифонов зависит от фонотактики языка: например, в испанском языке около 800 дифонов, а в немецком - около 2500. При синтезе дифонов в речевой базе данных содержится только один образец каждого дифона. Во время выполнения целевая просодия предложения накладывается на эти минимальные единицы с помощью методов цифровой обработки сигналов , таких как кодирование с линейным предсказанием , PSOLA [31] или MBROLA . [32]или более современные методы, такие как изменение основного тона в исходной области с использованием дискретного косинусного преобразования . [33] Дифонный синтез страдает от звуковых сбоев конкатенативного синтеза и роботизированного звучания формантного синтеза и имеет несколько преимуществ любого подхода, кроме небольшого размера. Таким образом, его использование в коммерческих приложениях сокращается, [ необходима цитата ], хотя он продолжает использоваться в исследованиях, поскольку существует ряд свободно доступных программных реализаций. Одним из первых примеров синтеза Diphone является обучающий робот leachim, изобретенный Майклом Дж. Фриманом . [34]Личим содержал информацию о школьной программе и определенную биографическую информацию о 40 студентах, которых он был запрограммирован обучать. [35] Он был протестирован в классе четвертого класса в Бронксе, Нью-Йорк . [36] [37]

Доменно-специфический синтез [ править ]

Синтез, зависящий от предметной области, объединяет заранее записанные слова и фразы для создания полных высказываний. Он используется в приложениях, в которых набор текстов, выводимых системой, ограничен определенной областью, например объявления о расписании движения транспорта или отчеты о погоде. [38] Эта технология очень проста в реализации и уже давно используется в коммерческих целях в таких устройствах, как говорящие часы и калькуляторы. Уровень естественности этих систем может быть очень высоким, потому что разнообразие типов предложений ограничено, и они близко соответствуют просодии и интонации оригинальных записей. [ необходима цитата ]

Поскольку эти системы ограничены словами и фразами в своих базах данных, они не являются универсальными и могут только синтезировать комбинации слов и фраз, с которыми они были предварительно запрограммированы. Однако смешение слов в пределах естественно разговорного языка может вызывать проблемы, если не принимать во внимание множество вариаций. Например, в неротических диалектах английского языка «r» в таких словах, как «clear» / ˈklɪə / обычно произносится только тогда, когда следующее слово имеет гласную в качестве первой буквы (например, «clear out» реализуется как / ˌklɪəɹˈʌʊt / ). Точно так же на французском, многие заключительные согласные перестают быть беззвучными, если за ними следует слово, начинающееся с гласной, - эффект, называемый связью . Это чередование не может быть воспроизведено простой системой конкатенации слов, которая потребовала бы дополнительной сложности, чтобы быть контекстно-зависимой .

Формантный синтез [ править ]

Синтез формант не использует образцы человеческой речи во время выполнения. Вместо этого синтезированный речевой вывод создается с использованием аддитивного синтеза и акустической модели ( синтез физического моделирования ). [39] Такие параметры, как основная частота , голос и уровни шума меняются во времени, чтобы создать форму волны искусственной речи. Этот метод иногда называют синтезом на основе правил.; однако многие конкатентивные системы также имеют компоненты, основанные на правилах. Многие системы, основанные на технологии формантного синтеза, генерируют искусственную, звучащую как робот речь, которую нельзя спутать с человеческой речью. Однако максимальная естественность не всегда является целью системы синтеза речи, и системы синтеза формант имеют преимущества перед системами конкатенации. Синтезированная формантой речь может быть надежно разборчивой даже на очень высоких скоростях, избегая акустических сбоев, которые обычно мешают конкатенативным системам. Слабовидящие люди используют высокоскоростную синтезированную речь для быстрой навигации по компьютерам с помощью программы чтения с экрана . Формантные синтезаторы обычно представляют собой программы меньшего размера, чем конкатенативные системы, потому что у них нет базы данных речевых образцов. Поэтому их можно использовать ввстроенные системы , в которых память и мощность микропроцессора особенно ограничены. Поскольку системы на основе формант полностью контролируют все аспекты выходной речи, можно выводить самые разные просодии и интонации , передавая не только вопросы и утверждения, но и различные эмоции и тона голоса.

Примеры высокоточного управления интонацией не в реальном времени в синтезе формант включают работу, проделанную в конце 1970-х годов для игрушки Speak & Spell от Texas Instruments , а также в аркадных автоматах Sega в начале 1980-х годов [40] и во многих Atari, Inc. аркадные игры [41] с использованием микросхем TMS5220 LPC . Создание правильной интонации для этих проектов было кропотливым делом, и результаты еще предстоит сопоставить с интерфейсами преобразования текста в речь в реальном времени. [42]

Артикуляционный синтез [ править ]

Артикуляционный синтез относится к вычислительным методам синтеза речи на основе моделей речевого тракта человека и процессов артикуляции, происходящих в нем. Первый артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филипом Рубином , Томом Бэром и Полом Мермельштейном. Этот синтезатор, известный как ASY, был основан на моделях голосового тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами.

До недавнего времени модели артикуляционного синтеза не использовались в коммерческих системах синтеза речи. Заметным исключением является система на основе NeXT, первоначально разработанная и проданная Trillium Sound Research, дочерней компанией Университета Калгари , где проводилась большая часть оригинальных исследований. После прекращения существования различных воплощений NeXT (начатых Стивом Джобсом в конце 1980-х и слился с Apple Computer в 1997 году), программное обеспечение Trillium было опубликовано под Стандартной общественной лицензией GNU, и работа продолжалась как gnuspeech. Система, впервые поступившая на рынок в 1994 году, обеспечивает полное преобразование текста в речь на основе артикуляции с использованием волновода или аналога линии передачи орального и носового трактов человека, контролируемого «моделью отличительной области» Карре.

Более поздние синтезаторы, разработанные Хорхе К. Лусеро и его коллегами, включают модели биомеханики голосовых складок, аэродинамики голосовой щели и распространения акустических волн в бронхах, трахее, носовой и ротовой полостях и, таким образом, представляют собой полные системы моделирования речи на основе физики. [43] [44]

Синтез на основе HMM [ править ]

Синтез на основе HMM - это метод синтеза, основанный на скрытых марковских моделях , также называемый статистическим параметрическим синтезом. В этой системе частотный спектр ( речевой тракт ), основная частота (источник голоса) и продолжительность ( просодия ) речи моделируются одновременно с помощью HMM. Речевые сигналы генерируются из самих HMM на основе критерия максимального правдоподобия . [45]

Синтез синусоидальной волны [ править ]

Синтез синусоидальных волн - это метод синтеза речи путем замены формант (основных энергетических диапазонов) свистками чистого тона. [46]

Синтез на основе глубокого обучения [ править ]

Формулировка [ править ]

Учитывая введенный текст или некоторую последовательность лингвистических единиц , целевая речь может быть получена с помощью

где - параметр модели.

Обычно входной текст сначала передается в генератор акустических характеристик, а затем акустические характеристики передаются в нейронный вокодер. Для генератора акустических характеристик функция потерь обычно представляет собой потери L1 или L2. Эти функции потерь накладывают ограничение на то, что выходные акустические распределения характеристик должны быть гауссовскими или лапласовскими. На практике, поскольку диапазон частот человеческого голоса составляет примерно от 300 до 4000 Гц, функция потерь будет рассчитана на большее наказание в этом диапазоне:

где - потери в диапазоне человеческого голоса; обычно это скаляр около 0,5. Акустическая характеристика обычно представляет собой спектрограмму или спектрограмму в шкале Mel . Эти функции фиксируют частотно-временную зависимость речевого сигнала, и поэтому достаточно генерировать интеллектуальные выходные данные с этими акустическими характеристиками. Функция кепстра Mel-частоты, используемая в задаче распознавания речи, не подходит для синтеза речи, поскольку она сокращает слишком много информации.

Краткая история [ править ]

В сентябре 2016 года DeepMind предложила WaveNet , глубокую генеративную модель необработанных звуковых сигналов. Это показывает сообществу, что модели, основанные на глубоком обучении, могут моделировать необработанные формы сигналов и хорошо работать при генерации речи на основе акустических функций, таких как спектрограммы или спектрограммы в мел-шкале, или даже на основе некоторых предварительно обработанных лингвистических функций. В начале 2017 года Мила (научно-исследовательский институт) предложила char2wav , модель для получения необработанной формы волны сквозным методом. Также Google и Facebook предложили Tacotron и VoiceLoop.соответственно, чтобы генерировать акустические характеристики непосредственно из введенного текста. Позднее в том же году Google предложил Tacotron2, который объединил вокодер WaveNet с пересмотренной архитектурой Tacotron для выполнения сквозного синтеза речи. Tacotron2 может генерировать высококачественную речь, приближающуюся к человеческому голосу. С тех пор сквозные методы стали самой горячей темой исследований, потому что многие исследователи во всем мире начинают замечать мощь сквозного синтезатора речи.

Преимущества и недостатки [ править ]

Преимущества сквозных методов заключаются в следующем:

  • Требуется только одна модель для выполнения анализа текста, акустического моделирования и синтеза звука, то есть синтеза речи непосредственно из символов.
  • Меньше функциональной инженерии
  • Легко позволяет настраивать различные атрибуты, например говорящий или язык.
  • Адаптация к новым данным проще
  • Более надежен, чем многоступенчатые модели, потому что ошибка компонента не может усугубить
  • Мощные возможности модели для захвата скрытых внутренних структур данных
  • Способен воспроизводить разборчивую и естественную речь
  • Нет необходимости поддерживать большую базу данных, т. Е. Небольшую площадь

Несмотря на многие упомянутые преимущества, сквозные методы по-прежнему имеют много проблем, которые необходимо решить:

  • Модели на основе авторегрессии страдают от проблемы медленного вывода
  • Выходная речь не является надежной, когда данных недостаточно
  • Отсутствие управляемости по сравнению с традиционными конкатенативными и статистически параметрическими подходами.
  • Стремитесь изучать плоскую просодию, усредняя тренировочные данные
  • Как правило, выводятся сглаженные акустические характеристики, поскольку используются потери l1 или l2.

Проблемы [ править ]

- Проблема медленного вывода

Чтобы решить проблему медленного вывода, в исследованиях Microsoft и Baidu было предложено использовать неавторегрессивные модели, чтобы ускорить процесс вывода. Модель FastSpeech, предложенная Microsoft, использует архитектуру Transformer с моделью продолжительности для достижения цели. Кроме того, модель продолжительности, заимствованная из традиционных методов, делает производство речи более устойчивым.

- Проблема устойчивости

Исследователи обнаружили, что проблема устойчивости сильно связана с ошибками выравнивания текста, и это побуждает многих исследователей пересмотреть механизм внимания, который использует сильную локальную связь и монотонность речи.

- Проблема управляемости

Для решения проблемы управляемости предлагается множество работ по вариационному автокодировщику. [47] [48]

- Плоская проблема просодии

GST-Tacotron может немного облегчить проблему плоской просодии, однако это все еще зависит от данных обучения.

- Проблема сглаженной акустической мощности

Для создания более реалистичных акустических характеристик можно применить стратегию обучения GAN.

Однако на практике нейронный вокодер может хорошо обобщать, даже когда входные характеристики более гладкие, чем реальные данные.

Полу-контролируемое обучение [ править ]

В настоящее время обучение с самоконтролем привлекает много внимания из-за лучшего использования немаркированных данных. Исследования [49] [50] показывают, что с помощью самоконтролируемой потери потребность в парных данных уменьшается.

Адаптация динамика с нулевым выстрелом [ править ]

Адаптация говорящего с нулевым выстрелом является многообещающей, поскольку одна модель может генерировать речь с различными стилями и характеристиками говорящего. В июне 2018 года Google предложила использовать предварительно обученную модель верификации говорящего в качестве кодировщика динамика для извлечения встраивания говорящего. [51] Затем кодер динамика становится частью нейронной модели преобразования текста в речь и может определять стиль и характеристики выходной речи. Это показывает сообществу, что для создания речи, состоящей из нескольких стилей, возможно использование только одной модели.

Нейронный вокодер [ править ]

Нейронный вокодер играет важную роль в синтезе речи на основе глубокого обучения для генерации высококачественной речи на основе акустических характеристик. Модель WaveNet, предложенная в 2016 году, обеспечивает отличные показатели качества речи. Wavenet разложил на множители совместную вероятность формы волны как произведение условных вероятностей следующим образом

Где параметр модели, включающий множество расширенных сверточных слоев. Следовательно, каждый аудиосэмпл обусловлен образцами на всех предыдущих временных шагах. Однако авторегрессивный характер WaveNet значительно замедляет процесс вывода. Для решения проблемы медленного вывода, которая возникает из-за авторегрессивной характеристики модели WaveNet, предлагается Parallel WaveNet [52] . Parallel WaveNet - это модель на основе обратного авторегрессионного потока, которая обучается путем дистилляции знаний с помощью предварительно обученной модели WaveNet учителя. Поскольку модель на основе обратного авторегрессионного потока не является авторегрессивной при выполнении вывода, скорость вывода выше, чем в реальном времени. Между тем, Nvidiaпредложила потоковую модель WaveGlow [53], которая также может генерировать речь с более высокой скоростью, чем в реальном времени. Однако, несмотря на высокую скорость вывода, параллельная сеть WaveNet имеет ограничение, заключающееся в необходимости предварительно обученной модели WaveNet, и WaveGlow требуется много недель, чтобы сойтись с ограниченными вычислительными устройствами. Эта проблема решена с помощью Parallel WaveGAN [54], который учится воспроизводить речь с помощью спектральных потерь с несколькими разрешениями и стратегии обучения GAN.

Проблемы [ править ]

Проблемы нормализации текста [ править ]

Процесс нормализации текста редко бывает простым. Тексты полны гетеронимов , цифр и сокращений, которые требуют расширения в фонетическом представлении. В английском есть много вариантов написания, которые произносятся по-разному в зависимости от контекста. Например, «Мой последний проект - научиться лучше проецировать свой голос» содержит два варианта произношения «проект».

Большинство систем преобразования текста в речь (TTS) не генерируют семантические представления своих входных текстов, поскольку процессы для этого ненадежны, плохо понятны и неэффективны с точки зрения вычислений. В результате используются различные эвристические методы, чтобы угадать правильный способ устранения неоднозначности омографов , такие как изучение соседних слов и использование статистики о частоте встречаемости.

Недавно системы TTS начали использовать HMM (обсуждаемые выше) для генерации « частей речи », чтобы помочь в устранении неоднозначности в омографах. Эта техника весьма успешна во многих случаях, например, следует ли произносить слово «прочитанное» как «красный», подразумевая прошедшее время, или как «тростник», подразумевая настоящее время. Типичная частота ошибок при использовании HMM таким образом обычно ниже пяти процентов. Эти методы также хорошо работают для большинства европейских языков, хотя доступ к необходимым учебным корпусам на этих языках часто затруднен.

Решение о том, как преобразовать числа, - это еще одна проблема, которую необходимо решить системам TTS. Преобразование числа в слова (по крайней мере, на английском языке) - это простая задача программирования, например, «1325» превращается в «одну тысячу триста двадцать пять». Однако числа встречаются в самых разных контекстах; «1325» также можно читать как «один три два пять», «тринадцать двадцать пять» или «тринадцатьсот двадцать пять». Система TTS часто может сделать вывод о том, как расширить число на основе окружающих слов, чисел и знаков препинания, а иногда система предоставляет способ указать контекст, если он неоднозначен. [55] Римские цифры также могут читаться по-разному в зависимости от контекста. Например, «Генрих VIII» читается как «Генрих Восьмой», а «Глава VIII» читается как «Глава восьмая».

Точно так же сокращения могут быть неоднозначными. Например, сокращение «in» для «дюймов» должно отличаться от слова «in» и адреса «12 St John St. использует одну и ту же аббревиатуру как для «Saint», так и для «Street». Системы TTS с интеллектуальными интерфейсами могут делать обоснованные предположения о двусмысленных аббревиатурах, в то время как другие дают одинаковый результат во всех случаях, что приводит к бессмысленным (а иногда и комичным) выводам, таким как « Улисс С. Грант » отображается как «Улисс Южный Грант». .

Задачи преобразования текста в фонемы [ править ]

Системы синтеза речи используют два основных подхода для определения произношения слова на основе его правописания , процесс, который часто называют преобразованием текста в фонему или преобразованием графемы в фонемы ( фонема - это термин, используемый лингвистами для описания отличительных звуков в язык ). Самый простой подход к преобразованию текста в фонемы - это подход на основе словаря, когда большой словарь, содержащий все слова языка и их правильное произношение.хранится программой. Определение правильного произношения каждого слова заключается в поиске каждого слова в словаре и замене написания произношением, указанным в словаре. Другой подход основан на правилах, при котором правила произношения применяются к словам для определения их произношения на основе их написания. Это похоже на подход к обучению чтению с использованием «звучания» или синтетической акустики .

У каждого подхода есть свои преимущества и недостатки. Подход на основе словаря является быстрым и точным, но совершенно не работает, если ему дают слово, которого нет в его словаре. По мере увеличения размера словаря растут и требования к объему памяти системы синтеза. С другой стороны, подход, основанный на правилах, работает с любыми входными данными, но сложность правил существенно возрастает, поскольку система учитывает неправильное написание или произношение. (Учтите, что слово «of» очень распространено в английском языке, но это единственное слово, в котором буква «f» произносится [v] .) В результате почти все системы синтеза речи используют комбинацию этих подходов.

Языки с фонематической орфографией имеют очень регулярную систему письма, и предсказание произношения слов на основе их написания довольно успешное. Системы синтеза речи для таких языков часто широко используют основанный на правилах метод, обращаясь к словарям только для тех немногих слов, как иностранные имена и заимствования , произношение которых не очевидно из их написания. С другой стороны, системы синтеза речи для таких языков, как английский , которые имеют крайне нерегулярную систему правописания, с большей вероятностью будут полагаться на словари и использовать основанные на правилах методы только для необычных слов или слов, которых нет в их словарях.

Проблемы оценки [ править ]

Последовательная оценка систем синтеза речи может быть затруднена из-за отсутствия универсально согласованных объективных критериев оценки. В разных организациях часто используются разные речевые данные. Качество систем синтеза речи также зависит от качества производственной техники (которая может включать аналоговую или цифровую запись) и от средств, используемых для воспроизведения речи. Поэтому оценка систем синтеза речи часто затруднялась из-за различий между методами производства и средствами воспроизведения.

Однако с 2005 года некоторые исследователи начали оценивать системы синтеза речи, используя общий набор речевых данных. [56]

Просодика и эмоциональное содержание [ править ]

Исследование, опубликованное в журнале Speech Communication, проведенное Эми Драхота и ее коллегами из Портсмутского университета , Великобритания , показало, что слушатели голосовых записей могли с большей вероятностью определить, улыбается ли говорящий. [57] [58] [59] Было высказано предположение, что идентификация голосовых характеристик, которые сигнализируют об эмоциональном содержании, может быть использована для того, чтобы сделать синтезируемую речь более естественной. Одной из связанных проблем является изменение контура высоты тона предложения, в зависимости от того, является ли предложение утвердительным, вопросительным или восклицательным. Один из методов изменения высоты тона [60] использует дискретное косинусное преобразование.в исходной области ( остаток линейного предсказания ). Такие методы синхронной модификации основного тона требуют априорной маркировки основного тона базы данных синтезированной речи с использованием таких методов, как извлечение эпохи с использованием индекса динамического взрыва, применяемого к интегрированному остатку линейного предсказания вокализованных областей речи. [61]

Выделенное оборудование [ править ]

  • Икофон
  • General Instrument SP0256-AL2
  • National Semiconductor DT1050 Digitalker (Мозер - Форрест Мозер )
  • Речевые чипы Texas Instruments LPC [62]

Аппаратные и программные комплексы [ править ]

Популярные системы, предлагающие синтез речи как встроенную функцию.

Mattel [ править ]

В 1982 году игровая консоль Mattel Intellivision предлагала модуль голосового синтеза Intellivoice . Он включал в себя микросхему синтезатора речи SP0256 на съемном картридже. У экранного диктора было 2 КБ постоянной памяти (ПЗУ), и она использовалась для хранения базы данных общих слов, которые можно было комбинировать для создания фраз в играх Intellivision. Поскольку микросхема Orator могла также принимать речевые данные из внешней памяти, любые дополнительные необходимые слова или фразы могли храниться внутри самого картриджа. Данные состояли из строк коэффициентов аналогового фильтра для изменения поведения синтетической модели голосового тракта чипа, а не из простых оцифрованных образцов.

Сэм [ править ]

Демонстрация SAM на C64

Software Automatic Mouth, также выпущенная в 1982 году, была первой коммерческой полностью программной программой для синтеза голоса. Позже он был использован в качестве основы для Macintalk.. Программа была доступна для компьютеров Apple, отличных от Macintosh (включая Apple II и Lisa), различных моделей Atari и Commodore 64. Версия Apple предпочитала дополнительное оборудование, содержащее ЦАП, хотя вместо этого она могла использовать однобитный звук компьютера. вывод (с добавлением сильных искажений), если карты не было. Atari использовала встроенный аудиочип POKEY. Воспроизведение речи на Atari обычно отключает запросы на прерывание и выключает чип ANTIC во время вывода голоса. Когда экран включен, звуковой сигнал представляет собой чрезвычайно искаженную речь. Commodore 64 использовал встроенный звуковой чип SID 64.

Atari [ править ]

Возможно, первой речевой системой, интегрированной в операционную систему, были персональные компьютеры 1400XL / 1450XL, разработанные Atari, Inc. с использованием микросхемы Votrax SC01 в 1983 году. В компьютерах 1400XL / 1450XL использовался конечный автомат для преобразования текста в текст World English Spelling. синтез речи. [63] К сожалению, персональные компьютеры 1400XL / 1450XL никогда не поставлялись в больших количествах.

В Atari ST компьютеров были проданы с «stspeech.tos» на дискете.

Apple [ править ]

Демо MacinTalk 1
Демо MacinTalk 2 с голосами мистера Хьюза и Марвина

Первая система речи интегрирована в операционную систему , которая поставляется в количестве была Apple Computer «s MacInTalk . Программное обеспечение было лицензировано сторонними разработчиками Джозефом Кацем и Марком Бартоном (позже SoftVoice, Inc.) и использовалось во время выпуска компьютеров Macintosh в 1984 году. Эта январская демонстрация потребовала 512 килобайт оперативной памяти. В результате он не мог работать в 128 килобайтах оперативной памяти, с которой фактически поставлялся первый Mac. [64]Итак, демонстрация была выполнена на прототипе Mac 512k, хотя присутствующим не сказали об этом, и демонстрация синтеза вызвала большой ажиотаж для Macintosh. В начале 1990-х Apple расширила свои возможности, предложив общесистемную поддержку преобразования текста в речь. С появлением более быстрых компьютеров на базе PowerPC они включили более качественную выборку голоса. Apple также ввела в свои системы распознавание речи, которое обеспечивало гибкий набор команд. Совсем недавно Apple добавила голоса на основе семплов. Из любопытства речевая система Apple Macintosh превратилась в полностью поддерживаемую программу PlainTalk для людей с проблемами зрения. VoiceOver впервые был показан в 2005 году вMac OS X Tiger (10.4). В 10.4 (Tiger) и первых выпусках 10.5 ( Leopard ) в Mac OS X поставлялся только один стандартный голос. Начиная с 10.6 ( Snow Leopard ), пользователь может выбирать из широкого списка нескольких голосов. Голоса VoiceOver обеспечивают реалистичное дыхание между предложениями, а также повышенную четкость при высокой скорости чтения по сравнению с PlainTalk. Mac OS X также включает, скажем , приложение командной строки, которое преобразует текст в слышимую речь. AppleScript Стандарт дополнение включает в себя слово глагола , который позволяет сценарию использовать любого из установленных голосов и контролировать подачу, скорость речи и модуляции разговорного текста.

Операционная система Apple iOS, используемая на iPhone, iPad и iPod Touch, использует синтез речи VoiceOver для обеспечения доступности. [65] Некоторые сторонние приложения также обеспечивают синтез речи для облегчения навигации, чтения веб-страниц или перевода текста.

Amazon [ править ]

Используется в Alexa и как « Программное обеспечение как услуга» в AWS [66] (с 2017 г.).

AmigaOS [ править ]

Пример синтеза речи с включенной утилитой Say в Workbench 1.3

Второй операционной системой с расширенными возможностями синтеза речи была AmigaOS , представленная в 1985 году. Синтез речи был лицензирован Commodore International от SoftVoice, Inc., который также разработал оригинальную систему преобразования текста в речь MacinTalk . Он имел полную систему эмуляции голоса для американского английского, с мужскими и женскими голосами и маркерами «стресса», что стало возможным благодаря звуковому набору микросхем Amiga . [67]Система синтеза была разделена на библиотеку переводчика, которая преобразовывала неограниченный английский текст в стандартный набор фонетических кодов, и устройство рассказчика, которое реализовывало формантную модель генерации речи. AmigaOS также имела высокоуровневый « Speak Handler », который позволял командовать -line пользователей для перенаправления вывода текста в речь. Синтез речи иногда использовался в сторонних программах, особенно в текстовых процессорах и образовательном программном обеспечении. Программное обеспечение синтеза осталось практически неизменным с первого выпуска AmigaOS, и Commodore в конечном итоге удалил поддержку синтеза речи из AmigaOS 2.1 и далее.

Несмотря на ограничение фонемы американского английского, была разработана неофициальная версия с многоязычным синтезом речи. При этом использовалась расширенная версия библиотеки переводчика, которая могла переводить на несколько языков с учетом набора правил для каждого языка. [68]

Microsoft Windows [ править ]

Современные настольные системы Windows могут использовать компоненты SAPI 4 и SAPI 5 для поддержки синтеза речи и распознавания речи . SAPI 4.0 был доступен в качестве дополнительной надстройки для Windows 95 и Windows 98 . В Windows 2000 добавлен экранный диктор , программа преобразования текста в речь для людей с нарушениями зрения. Сторонние программы, такие как JAWS для Windows, Window-Eyes, Non-visual Desktop Access, Supernova и System Access, могут выполнять различные задачи преобразования текста в речь, такие как чтение текста вслух с указанного веб-сайта, учетной записи электронной почты, текстового документа, Буфер обмена Windows, набор текста с клавиатуры пользователя и т. Д. Не все программы могут напрямую использовать синтез речи.[69] Некоторые программы могут использовать плагины, расширения или надстройки для чтения текста вслух. Доступны сторонние программы, умеющие читать текст из системного буфера обмена.

Microsoft Speech Server - это серверный пакет для синтеза и распознавания голоса. Он разработан для использования в сети с веб-приложениями и центрами обработки вызовов .

Texas Instruments TI-99 / 4A [ править ]

Демонстрация речи TI-99 / 4A с использованием встроенного словарного запаса

В начале 1980-х TI была известна как пионер в синтезе речи, и для TI-99/4 и 4A был доступен очень популярный подключаемый модуль синтезатора речи. Синтезаторы речи предлагались бесплатно при покупке ряда картриджей и использовались во многих видеоиграх, написанных TI (известными названиями, предлагаемыми с речью во время этой акции, были Alpiner и Parsec ). Синтезатор использует вариант кодирования с линейным прогнозированием и имеет небольшой встроенный словарь. Первоначальное намерение состояло в том, чтобы выпустить небольшие картриджи, которые подключались непосредственно к блоку синтезатора, что увеличило бы встроенный словарный запас устройства. Однако успех программного преобразования текста в речь в картридже Terminal Emulator II отменил этот план.

Системы преобразования текста в речь [ править ]

Преобразование текста в речь ( TTS ) относится к способности компьютеров читать текст вслух. TTS Engine преобразует написанный текст в фонематическое представление, а затем преобразует фонемное представление в осциллограммы , которые могут быть выведены как звук. Системы TTS с разными языками, диалектами и специализированными словарями доступны через сторонних издателей. [70]

Android [ править ]

В версии 1.6 Android добавлена ​​поддержка синтеза речи (TTS). [71]

Интернет [ править ]

В настоящее время существует ряд приложений , подключаемых модулей и гаджетов, которые могут читать сообщения непосредственно из почтового клиента и веб-страниц из веб-браузера или панели инструментов Google . Некоторые специализированные программы могут озвучивать RSS-потоки . С одной стороны, онлайн-дикторы RSS упрощают доставку информации, позволяя пользователям слушать свои любимые источники новостей и преобразовывать их в подкасты . С другой стороны, он-лайн RSS-ридеры доступны практически на любом ПК, подключенном к Интернету. Пользователи могут загружать сгенерированные аудиофайлы на портативные устройства, например, с помощью подкастов. приемник и слушайте их во время прогулки, бега трусцой или по дороге на работу.

Растущей областью TTS на основе Интернета являются вспомогательные веб- технологии , например, «Browsealoud» от британской компании и Readspeaker . Он может предоставить функциональность TTS любому (по причинам доступности, удобства, развлечения или информации) с доступом к веб-браузеру. Некоммерческий проекта Pediaphon был создан в 2006 , чтобы обеспечить подобный веб-интерфейс TTS в Википедии . [72]

Другая работа ведется в контексте W3C через W3C Audio Incubator Group при участии BBC и Google Inc.

Открытый исходный код [ править ]

Доступны некоторые программные системы с открытым исходным кодом , например:

  • Фестивальная система синтеза речи, которая использует синтез на основе дифонов, а также более современные и лучше звучащие техники.
  • eSpeak, который поддерживает широкий спектр языков.
  • gnuspeech, использующий артикуляционный синтез [73] от Free Software Foundation .

Другое [ править ]

  • После коммерческого провала аппаратной технологии Intellivoice разработчики игр экономно использовали программный синтез в более поздних играх [ необходима цитата ] . Более ранние системы от Atari, такие как Atari 5200 (Baseball) и Atari 2600 ( Quadrun и Open Sesame), также имели игры, использующие синтез программного обеспечения. [ необходима цитата ]
  • Некоторые устройства для чтения электронных книг , такие как Amazon Kindle , Samsung E6, PocketBook eReader Pro, enTourage eDGe и Bebook Neo.
  • BBC Micro включил синтез речи чип Texas Instruments TMS5220,
  • Некоторые модели домашних компьютеров Texas Instruments, выпущенные в 1979 и 1981 годах ( Texas Instruments TI-99/4 и TI-99 / 4A ), были способны синтезировать текст в фонемы или произносить полные слова и фразы (текст в словарь), используя очень популярное периферийное устройство для синтезатора речи. Компания TI использовала собственный кодек для встраивания полных речевых фраз в приложения, в основном в видеоигры. [74]
  • IBM «s OS / 2 Warp 4 включен VoiceType, предшественник IBM ViaVoice .
  • Устройства GPS- навигации, производимые Garmin , Magellan , TomTom и другими, используют синтез речи для автомобильной навигации.
  • В 1999 году Yamaha выпустила музыкальный синтезатор Yamaha FS1R, который включал синтезатор формант. Последовательности до 512 отдельных гласных и согласных формант могут быть сохранены и воспроизведены, что позволяет синтезировать короткие вокальные фразы.

Цифровые звуки [ править ]

С введением в 2016 году Adobe Voco редактирования звука и создания прототипа программного обеспечения, которое должно стать частью Adobe Creative Suite и аналогичной включенной DeepMind WaveNet , программное обеспечение для синтеза речи на основе глубокой нейронной сети от Google [75] практически невозможно отличить. из настоящего человеческого голоса.

Adobe Voco отводит примерно 20 минут речи желаемой цели, после чего может генерировать звукоподобный голос даже с фонемами , отсутствующими в обучающем материале . Программное обеспечение создает этические проблемы, поскольку позволяет украсть голоса других людей и манипулировать ими, чтобы сказать все, что угодно. [76]

На конференции по системам обработки нейронной информации (NeurIPS) 2018 года исследователи из Google представили работу «Перенос обучения от проверки говорящего на синтез речи с несколькими дикторами» , которая переносит обучение от проверки говорящего на синтез текста в речь. можно заставить звучать почти как любой из 5-секундного фрагмента речи (слушайте) . [77]

Также исследователи из Baidu исследований представили клонирование голосовой систему с аналогичными целями на конференциях 2018 года NeurIPS, [78] , хотя результат весьма неубедительный. (Слушать)

К 2019 году цифровые аналоговые звуки попали в руки преступников, поскольку исследователям Symantec известно о трех случаях использования цифровых звуковых технологий в преступных целях . [79] [80]

Это увеличивает нагрузку на ситуацию с дезинформацией в сочетании с фактами, которые

  • Синтез человеческих изображений с начала 2000- х годов улучшился до такой степени, что человек не может отличить реального человека, изображенного с помощью реальной камеры, от имитации человека, изображенного с помощью имитации камеры.
  • Были представлены методы подлога видео 2D в 2016 году , что позволит почти в реальное время с подделками из мимики в существующих 2D видео. [81]
  • На выставке SIGGRAPH 2017 исследователи из Вашингтонского университета представили цифровую копию верхней части туловища Барака Обамы, управляемую звуком . (просмотр) Он управлялся только голосовой дорожкой в ​​качестве исходных данных для анимации после завершения фазы обучения, чтобы получить синхронизацию губ и более широкую информацию о лице из учебного материала, состоящего из 2D-видео со звуком. [82]

В марте 2020 года было выпущено бесплатное веб-приложение 15.ai, которое генерирует высококачественные голоса из набора вымышленных персонажей из различных медиа-источников . [83] Первыми персонажами были ГЛаДОС из « Портала» , « Твайлайт Спаркл» и Флаттершай из сериала « Мой маленький пони: Дружба - это чудо» и Десятый Доктор из « Доктора Кто» . Последующие обновления включали Уитли из Portal 2 , Солдата из Team Fortress 2 и оставшийся основной составМой маленький пони: Дружба - это чудо . [84] [85]

Языки разметки синтеза речи [ править ]

Был установлен ряд языков разметки для воспроизведения текста как речи в формате, совместимом с XML . Самым последним из них является язык разметки синтеза речи (SSML), который стал рекомендацией W3C в 2004 году. Старые языки разметки синтеза речи включают язык разметки речи Java ( JSML ) и SABLE . Хотя каждый из них был предложен в качестве стандарта, ни один из них не получил широкого распространения.

Языки разметки синтеза речи отличаются от языков разметки диалогов. VoiceXML , например, включает теги, относящиеся к распознаванию речи, управлению диалогами и тональному набору, в дополнение к разметке текста в речь.

Приложения [ править ]

Синтез речи уже давно является жизненно важным инструментом вспомогательных технологий , и его применение в этой области широко и широко. Это позволяет устранить экологические барьеры для людей с различными формами инвалидности. Самым длинным приложением было использование программ чтения с экрана для людей с нарушениями зрения , но сегодня системы преобразования текста в речь широко используются людьми с дислексией и другими трудностями чтения, а также детьми, не имеющими достаточной грамотности. Они также часто используются для помощи людям с серьезными нарушениями речи, как правило, с помощью специального речевого средства связи .

Методы синтеза речи также используются в развлекательных программах, таких как игры и анимация. В 2007 году Animo Limited объявила о разработке пакета прикладных программ на основе своего программного обеспечения для синтеза речи FineSpeech, специально предназначенного для клиентов в индустрии развлечений, способного генерировать повествование и строки диалога в соответствии с пользовательскими спецификациями. [86] Приложение достигло зрелости в 2008 году, когда NEC Biglobe анонсировала веб-сервис, позволяющий пользователям создавать фразы из голосов персонажей японского аниме- сериала Code Geass: Lelouch of the Rebellion R2 . [87]

В последние годы стало широко доступным синтезатор речи для людей с ограниченными возможностями и средств коммуникации. Преобразование текста в речь также находит новые применения; например, синтез речи в сочетании с распознаванием речи позволяет взаимодействовать с мобильными устройствами через интерфейсы обработки естественного языка .

Синтез речи также используется при освоении второго языка. Например, Voki - это образовательный инструмент, созданный Oddcast, который позволяет пользователям создавать свой собственный говорящий аватар, используя разные акценты. Их можно отправлять по электронной почте, размещать на веб-сайтах или публиковать в социальных сетях.

Кроме того, синтез речи является ценным вычислительным помощником для анализа и оценки речевых расстройств. Качество голосовой синтезатор, разработанный Хорхе С. Лусеро и др. в Университете Бразилиа , имитирует физику фонации и включает модели дрожания и тремора голосовой частоты, шума воздушного потока и асимметрии гортани. [43] Синтезатор был использован , чтобы имитировать тембр из dysphonic колонка с контролируемым уровнем шероховатости, хриплость и деформации. [44]

Стивен Хокинг был одним из самых известных людей, которые использовали речевой компьютер для общения.

См. Также [ править ]

  • Синтез китайской речи
  • Сравнение программ чтения с экрана
  • Сравнение синтезаторов речи
  • Euphonia (устройство)
  • Orca (вспомогательные технологии)
  • Безбумажный офис
  • Обработка речи
  • Устройство для генерации речи
  • Беззвучный речевой интерфейс
  • Преобразование текста в речь в цифровом телевидении

Ссылки [ править ]

  1. ^ Аллен, Джонатан; Ханникатт, М. Шарон; Клатт, Деннис (1987). От текста к речи: система MITalk . Издательство Кембриджского университета. ISBN 978-0-521-30641-6.
  2. ^ Рубин, П .; Baer, ​​T .; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки . 70 (2): 321–328. Bibcode : 1981ASAJ ... 70..321R . DOI : 10.1121 / 1.386780 .
  3. ^ ван Сантен, Ян PH; Sproat, Ричард В .; Олив, Джозеф П .; Хиршберг, Юлия (1997). Прогресс в синтезе речи . Springer. ISBN 978-0-387-94701-3.
  4. ^ Ван Сантэн, J. (апрель 1994). «Назначение сегментной длительности при синтезе текста в речь». Компьютерная речь и язык . 8 (2): 95–128. DOI : 10,1006 / csla.1994.1005 .
  5. История и развитие синтеза речи , Хельсинкский технологический университет, проверено 4 ноября 2006 г.
  6. ^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine («Механизм человеческой речи с описанием его говорящей машины», JB Degen, Wien). (на немецком)
  7. ^ Маттингли, Игнатий Г. (1974). Себеок, Томас А. (ред.). «Синтез речи для фонетических и фонологических моделей» (PDF) . Современные тенденции в лингвистике . Мутон, Гаага. 12 : 2451–2487. Архивировано из оригинального (PDF) 12 мая 2013 года . Проверено 13 декабря 2011 .
  8. Перейти ↑ Klatt, D (1987). «Обзор преобразования текста в речь для английского языка». Журнал Акустического общества Америки . 82 (3): 737–93. Bibcode : 1987ASAJ ... 82..737K . DOI : 10.1121 / 1.395275 . PMID 2958525 . 
  9. Ламберт, Брюс (21 марта 1992 г.). "Луи Герстман, 61 год, специалист по речевым расстройствам и процессам" . Нью-Йорк Таймс .
  10. ^ «Биография Артура Кларка» . Архивировано из оригинала на 11 декабря 1997 года . Проверено 5 декабря 2017 года .
  11. ^ "Где" HAL "впервые заговорил (веб-сайт синтеза речи Bell Labs)" . Bell Labs. Архивировано из оригинала на 2000-04-07 . Проверено 17 февраля 2010 .
  12. ^ Антропоморфный робот Говоря Васэда-Говорун серии архивации 2016-03-04 в Wayback Machine
  13. ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Найденный. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .  
  14. ^ Чжэн, Ф .; Песня, З .; Li, L .; Ю. В. (1998). «Измерение расстояния для пар линейного спектра, применяемое для распознавания речи» (PDF) . Труды 5-й Международной конференции по обработке разговорной речи (ICSLP'98) (3): 1123–6.
  15. ^ a b «Список этапов развития IEEE» . IEEE . Проверено 15 июля 2019 .
  16. ^ а б «Устная история Фумитада Итакура» . Сеть глобальной истории IEEE. 20 мая 2009 . Проверено 21 июля 2009 .
  17. ^ Sproat, Ричард В. (1997). Многоязычный синтез текста в речь: подход Bell Labs . Springer. ISBN 978-0-7923-8027-6.
  18. ^ [TSI Speech + и другие калькуляторы разговорной речи]
  19. ^ Геварьяху, Джонатан, ["Руководство по интегральной схеме БИС синтезатора речи TSI S14001A"] [ мертвая ссылка ]
  20. ^ Бреслоу и др. US 4326710  : "Говорящая электронная игра", 27 апреля 1982 г.
  21. ^ Голосовой Chess Challenger
  22. ^ Наиболее важные эволюции Gaming в Архивировано 2011-06-15 в Wayback Machine , GamesRadar
  23. ^ Щепаниак, Джон (2014). Нерассказанная история японских разработчиков игр . 1 . SMG Szczepaniak. С. 544–615. ISBN 978-0992926007.
  24. ^ CadeMetz (2020-08-20). «Энн Сырдал, которая помогла придать компьютерам женский голос, умерла в 74 года» . Нью-Йорк Таймс . Проверено 23 августа 2020 .
  25. ^ Курцвейл, Раймонд (2005). Сингулярность близка . Книги пингвинов . ISBN 978-0-14-303788-0.
  26. ^ Тейлор, Пол (2009). Синтез речи в текст . Кембридж, Великобритания: Издательство Кембриджского университета. п. 3 . ISBN 9780521899277.
  27. ^ Алан В. Блэк , Идеальный синтез для всех людей в любое время. IEEE TTS Workshop 2002.
  28. ^ Джон Коминек и Алан В. Блэк . (2003). Базы данных CMU ARCTIC для синтеза речи. CMU-LTI-03-177. Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллона.
  29. ^ Юлия Чжан. Генерация языков и синтез речи в диалогах для изучения языка , магистерская работа, раздел 5.6 на стр. 54.
  30. ^ Уильям Ян Ван и Каллиррой Георгила. (2011). Автоматическое обнаружение неестественных сегментов на уровне слов в синтезе речи с выбором единиц , IEEE ASRU 2011.
  31. ^ "Синхронное перекрытие и добавление (PSOLA) Синтез" . Архивировано из оригинального 22 февраля 2007 года . Проверено 28 мая 2008 .
  32. ^ Т. Дютуа, В. Пагель, Н. Пьер, Ф. Батай, О. ван дер Врекен. Проект MBROLA: На пути к набору высококачественных синтезаторов речи для использования в некоммерческих целях . Протоколы ICSLP , 1996.
  33. ^ Muralishankar, R; Рамакришнан, AG; Пратхибха, П. (2004). «Модификация шага с использованием DCT в исходном домене». Речевое общение . 42 (2): 143–154. DOI : 10.1016 / j.specom.2003.05.001 .
  34. ^ "Образование: Чудо Бронкса" . Время . 1974-04-01. ISSN 0040-781X . Проверено 28 мая 2019 . 
  35. ^ «1960 - Робот Руди - Майкл Фриман (американец)» . cyberneticzoo.com . 2010-09-13 . Проверено 23 мая 2019 .[ требуется проверка ]
  36. ^ LLC, Нью - Йорк СМИ (1979-07-30). Нью-Йоркский журнал . Нью-Йорк Медиа, ООО.
  37. ^ Футурист . Мировое общество будущего. 1978. С. 359, 360, 361.
  38. ^ LF Lamel, JL Gauvain, Б. Prouts, С. Bouhier, Р. Бош. Генерация и синтез широковещательных сообщений , Материалы семинара ESCA-НАТО и применения речевых технологий , сентябрь 1993 г.
  39. Дартмутский колледж: Музыка и компьютеры. Архивировано 8 июня 2011 г. в Wayback Machine , 1993.
  40. ^ Примеры включают Astro Blaster , Space Fury и Star Trek: Strategic Operations Simulator.
  41. ^ Примеры: Звездные войны , Firefox , Возвращение джедая , Road Runner , Империя наносит ответный удар , Индиана Джонс и Храм Судьбы , 720 ° , Gauntlet , Gauntlet II , APB , Paperboy , RoadBlasters , Vindicators Part II , Escape from the Планета роботов-монстров .
  42. ^ Джон Холмс и Венди Холмс (2001). Синтез речи и распознавание (2-е изд.). CRC. ISBN 978-0-7484-0856-6.
  43. ^ а б Лусеро, JC; Schoentgen, J .; Бехлау, М. (2013). «Физический синтез неупорядоченных голосов» (PDF) . Интерспич 2013 . Лион, Франция: Международная ассоциация речевой коммуникации . Проверено 27 августа 2015 года .
  44. ^ a b Энглерт, Марина; Мадацио, Глаусия; Гелов, Ингрид; Лусеро, Хорхе; Бехлау, Мара (2016). «Идентификация ошибок восприятия человеческого и синтезированного голосов». Журнал голоса . 30 (5): 639.e17–639.e23. DOI : 10.1016 / j.jvoice.2015.07.017 . PMID 26337775 . 
  45. ^ "Система синтеза речи на основе HMM" . Hts.sp.nitech.ac.j . Проверено 22 февраля 2012 .
  46. ^ Remez, R .; Рубин, П .; Pisoni, D .; Каррелл, Т. (22 мая 1981 г.). «Восприятие речи без традиционных речевых сигналов» (PDF) . Наука . 212 (4497): 947–949. Bibcode : 1981Sci ... 212..947R . DOI : 10.1126 / science.7233191 . PMID 7233191 . Архивировано из оригинального (PDF) 16 декабря 2011 года . Проверено 14 декабря 2011 .  
  47. Сюй, Вэй-Нин (2018). «Иерархическое генеративное моделирование для управляемого синтеза речи». arXiv : 1810.07217 [ cs.CL ].
  48. Хабиб, Раза (2019). «Полу-контролируемое генеративное моделирование для управляемого синтеза речи». arXiv : 1910.01709 [ cs.CL ].
  49. Перейти ↑ Chung, Yu-An (2018). «Полуконтролируемое обучение для повышения эффективности данных при сквозном синтезе речи». arXiv : 1808.10128 [ cs.CL ].
  50. ^ Рен, Йи (2019). «Почти неконтролируемый преобразование текста в речь и автоматическое распознавание речи». arXiv : 1905.06791 [ cs.CL ].
  51. Перейти ↑ Jia, Ye (2018). «Перенос обучения от проверки говорящего на синтез речи с множеством говорящих». arXiv : 1806.04558 [ cs.CL ].
  52. ^ Ван ден Оорд, Аарон (2018). «Параллельная сеть WaveNet: быстрый высокоточный синтез речи». arXiv : 1711.10433 [ cs.CL ].
  53. ^ Пренгер, Райан (2018). «WaveGlow: генерирующая сеть на основе потоков для синтеза речи». arXiv : 1811.00002 [ cs.SD ].
  54. Ямамото, Рюичи (2019). «Parallel WaveGAN: модель быстрой генерации сигналов, основанная на генеративных состязательных сетях со спектрограммой с разным разрешением». arXiv : 1910.11480 [ eess.AS ].
  55. ^ «Синтез речи» . Всемирная паутина.
  56. ^ "Blizzard Challenge" . Festvox.org . Проверено 22 февраля 2012 .
  57. ^ «Улыбнись - и мир тебя услышит» . Портсмутский университет. 9 января 2008 года архив с оригинала на 17 мая 2008 года.
  58. ^ «Улыбнись - и мир услышит тебя, даже если ты спрячешься» . Science Daily . Январь 2008 г.
  59. ^ Drahota, A. (2008). «Голосовое общение разных улыбок» (PDF) . Речевое общение . 50 (4): 278–287. DOI : 10.1016 / j.specom.2007.10.001 . Архивировано из оригинального (PDF) 3 июля 2013 года.
  60. ^ Muralishankar, R .; Рамакришнан, AG; Пратхибха, П. (февраль 2004 г.). «Изменение высоты звука с помощью DCT в исходной области». Речевое общение . 42 (2): 143–154. DOI : 10.1016 / j.specom.2003.05.001 .
  61. ^ Пратош, AP; Рамакришнан, AG; Анантападманабха, телевидение (декабрь 2013 г.). «Извлечение эпохи на основе интегрированного остатка линейного предсказания с использованием индекса взрываемости». IEEE Trans. Обработка аудио речи . 21 (12): 2471–2480. DOI : 10,1109 / TASL.2013.2273717 . S2CID 10491251 . 
  62. ^ EE Times. « TI откажется от выделенных микросхем для синтеза речи и перенесет продукты в Sensory Archived 17.02.2012 на WebCite ». 14 июня 2001 г.
  63. ^ "1400XL / 1450XL Внешняя справочная спецификация обработчика речи" (PDF) . Проверено 22 февраля 2012 .
  64. ^ "Конечно, здорово вылезти из этой сумки!" . folklore.org . Проверено 24 марта 2013 .
  65. ^ «iPhone: настройка специальных возможностей (включая VoiceOver и Zoom)» . Яблоко. Архивировано из оригинала на 24 июня 2009 года . Проверено 29 января 2011 .
  66. ^ «Амазонка Полли» . Amazon Web Services, Inc . Проверено 28 апреля 2020 .
  67. ^ Шахтер, Джей ; и другие. (1991). Справочное руководство по аппаратному обеспечению Amiga (3-е изд.). ISBN издательства Addison-Wesley Publishing Company, Inc. 978-0-201-56776-2.
  68. ^ Девитт, Франческо (30 июня 1995). «Библиотека переводчика (многоязычная версия)» . Архивировано из оригинального 26 февраля 2012 года . Проверено 9 апреля 2013 года .
  69. ^ «Учебники по специальным возможностям для Windows XP: Использование экранного диктора» . Microsoft. 2011-01-29. Архивировано из оригинала 21 июня 2003 года . Проверено 29 января 2011 .
  70. ^ «Как настроить и использовать преобразование текста в речь в Windows XP и Windows Vista» . Microsoft. 2007-05-07 . Проверено 17 февраля 2010 .
  71. ^ Жан-Мишель Триви (2009-09-23). «Введение в преобразование текста в речь в Android» . Android-developers.blogspot.com . Проверено 17 февраля 2010 .
  72. ^ Андреас Бишофф, Педиафон - Речевой интерфейс к бесплатной энциклопедии Википедии для мобильных телефонов , КПК и MP3-плееров, Труды 18-й Международной конференции по приложениям баз данных и экспертных систем, страницы: 575–579 ISBN 0-7695-2932-1 , 2007 г. 
  73. ^ "gnuspeech" . Gnu.org . Проверено 17 февраля 2010 .
  74. ^ «Смитсоновский проект истории синтеза речи (SSSHP) 1986–2002» . Mindspring.com. Архивировано из оригинала на 2013-10-03 . Проверено 17 февраля 2010 .
  75. ^ «WaveNet: Генеративная модель для Raw Audio» . Deepmind.com . 2016-09-08 . Проверено 24 мая 2017 .
  76. ^ «Adobe Voco 'Photoshop-for-voice' вызывает беспокойство» . BBC.com . BBC . 2016-11-07 . Проверено 18 июня 2017 .
  77. ^ Цзя, Е; Чжан, Ю; Вайс, Рон Дж. (2018-06-12), «Перенос обучения от проверки говорящего на синтез речи с множеством говорящих », « Достижения в системах обработки нейронной информации» , 31 : 4485–4495, arXiv : 1806.04558
  78. ^ Arık, Sercan Ö .; Чен, Цзитун; Пэн, Кайнань; Пинг, Вэй; Чжоу, Яньци (2018), «Клонирование нейронного голоса с несколькими образцами» , « Достижения в системах обработки нейронной информации» , 31 , arXiv : 1802.06006
  79. ^ «Поддельные„голоса помогают киберу-преступникам украсть наличные деньги » . bbc.com . BBC . 2019-07-08 . Проверено 11 сентября 2019 .
  80. ^ Дрю, Харвелл (2019-09-04). «Сначала искусственный интеллект: программное обеспечение для имитации голоса, по сообщениям, использовалось в крупной краже» . Washingtonpost.com . Вашингтон Пост . Проверено 8 сентября 2019 .
  81. ^ Тиз, Юстус (2016). «Face2Face: захват лица в реальном времени и воспроизведение видео в формате RGB» . Proc. Компьютерное зрение и распознавание образов (CVPR), IEEE . Проверено 18 июня 2016 .
  82. ^ Суваджанакорн, Супасорн; Зейтц, Стивен; Кемельмахер-Шлизерман, Ира (2017), Synthesizing Obama: Learning Lip Sync from Audio , University of Washington , получено 2 марта 2018 г.
  83. ^ Нг, Эндрю (2020-04-01). «Клонирование голоса в массы» . deeplearning.ai . Партия . Проверено 2 апреля 2020 .
  84. ^ "15.ai" . пятнадцать.аи . 2020-03-02 . Проверено 2 апреля 2020 .
  85. ^ «Пинки Пай добавлена ​​в 15.ai» . equestriadaily.com . Эквестрия Дейли . 2020-04-02 . Проверено 2 апреля 2020 .
  86. ^ "Объявлено о выпуске программного обеспечения для синтеза речи в аниме" . Сеть новостей аниме . 2007-05-02 . Проверено 17 февраля 2010 .
  87. ^ «Сервис синтезатора речи Code Geass, предлагаемый в Японии» . Animenewsnetwork.com. 2008-09-09 . Проверено 17 февраля 2010 .

Внешние ссылки [ править ]

  • СМИ, связанные с синтезом речи, на Викискладе?
  • Синтез речи в Curlie
  • Имитация пения с поющим роботом Pavarobotti или описанием от BBC о том , как робот синтезирован пение .