PlainTalk - это собирательное название нескольких технологий синтеза речи ( MacinTalk ) и распознавания речи, разработанных Apple Inc. В 1990 году Apple вложила много труда и денег в технологию распознавания речи, наняв многих исследователей в этой области. Результатом стал "PlainTalk", выпущенный с моделями AV в серии Macintosh Quadra с 1993 года. Он стал стандартным системным компонентом в System 7 .1.2 и с тех пор поставляется на всех PowerPC и некоторых 68k Macintosh.
Программное обеспечение
Синтез речи
Технология
Синтезатор речи Apple использует дифоны . По сравнению с другими методами синтеза речи он не очень ресурсоемкий, но ограничивает естественность синтеза речи . Доступны версии на американском английском и испанском языках, но с момента появления Mac OS X Apple поставляла голоса только на американском английском, полагаясь на сторонних поставщиков, таких как Acapela Group, для предоставления голосов для других языков (в OS X 10.7 по лицензии Apple много сторонних голосов и сделал их доступными для загрузки в панели управления Speech).
Интерфейс прикладного программирования известный как Speech Manager , позволяет сторонним разработчикам использовать синтез речи в своих приложениях. Существуют различные последовательности управления, которые можно использовать для точной настройки интонации и ритма. Объем , тангаж и скорость речи могут быть сконфигурированы так, что позволяет пение.
Входом в синтезатор можно явно управлять с помощью специального алфавита фонем .
Оригинальный MacinTalk
Первоначальный механизм преобразования текста в речь Macintosh, MacinTalk (названный Дениз Чендлер), использовался Apple в 1984 году, когда появился Macintosh, когда компьютер заявил о себе миру (и высмеял вес компьютера IBM) . Хотя он был включен в операционную систему Macintosh, он официально не поддерживался Apple (хотя информация о программировании была доступна через Техническую записку Apple [1] [2] ). MacinTalk был разработан Джозефом Кацем и Марком Бартоном, которые позже основали SoftVoice, Inc., которая в настоящее время продает движки TTS для Windows, Linux и встраиваемых платформ. Macintalk использовал прямой доступ к исходному звуковому оборудованию Macintosh, и все попытки Apple лицензировать исходный код для его обновления для новых компьютеров Mac не увенчались успехом. [1] [2]
MacinTalk 2
В конце концов, Apple выпустила поддерживаемую систему синтеза речи под названием MacinTalk 2. Она поддерживает любой Macintosh с системным программным обеспечением 6.0.7 или более поздней версии . Она оставалась рекомендованной версией для более медленных машин даже после выпуска MacinTalk 3 и Pro.
MacinTalk 3, Pro
В MacinTalk 3 появилось большое количество голосов. Помимо стандартных взрослых голосов «Ральф», «Фред» и «Кэти» и детских голосов, таких как «Принцесса» и «Джуниор», были включены различные новые голоса, такие как «Шепот», «Зарвокс» (роботизированный голос с мелодичным фоновые звуки, с аналогичным голосом, который также называется «триноиды»), «виолончели» (голос, который спел свой текст на мелодию Эдварда Грига , с похожими поющими голосами, такими как «Хорошие новости», «Плохие новости», «Орган» »),« Альберт »(хриплый голос),« Колокола »,« Боинг »,« Пузыри »и другие.
Каждый из этих голосов сопровождался собственным примером текста, который произносился при нажатии кнопки «Тест» на панели управления речью. Некоторые просто назовут свое имя, язык и версию MacinTalk, с которой они были представлены. Другие говорили смешные вещи, например: «Мне нравится находиться внутри этого модного компьютера», «У меня в горле застряла лягушка ... Нет, я имею в виду настоящую лягушку!», «Мы должны радоваться этому болезненному голосу» ( пародия на западный церковный гимн с органной музыкой ), или «Свет, который вы видите в конце туннеля, - это налобный фонарь быстро приближающегося поезда». Эти голоса, а также их тестовые тексты все еще присутствуют в Mac OS X.
С увеличением вычислительной мощности, обеспечиваемой компьютерами Mac AV и Macintosh на базе PowerPC, Apple могла позволить себе повысить качество синтеза. MacinTalk 3 требуется 33 с МГц 68030 процессора и MacinTalk Pro требовал 68040 или лучше и по крайней мере 1 Мб из оперативной памяти . Каждый синтезатор поддерживает свой набор голосов.
Преобразование текста в речь в Mac OS X
Преобразование текста в речь было частью каждой версии Mac OS X (более поздней версии MacOS). Голос Виктории был значительно улучшен в Mac OS X v10.3 и добавлен как Вики (Виктория не была удалена). Его размер был почти в 20 раз больше за счет использования более качественных образцов дифонов.
Новый, гораздо более естественный голос под названием «Alex» был добавлен в список Mac для преобразования текста в речь с выпуском Mac OS X 10.5 Leopard. [3]
В Mac OS X 10.7 Lion голоса доступны на дополнительном американском английском и других акцентах английского языка, а также на 21 другом языке. [4]
Функция « Озвучивать выделенный текст при нажатии клавиши» позволяет читать выбранный текст из любого приложения с помощью комбинации клавиш. Начиная с Mac OS X 10.1 и заканчивая Mac OS X 10.6 , функция копирует выделенный текст в буфер обмена и считывает его оттуда. От Mac OS X 10.7 до Mac OS X 10.10 новая реализация функции требовала от разработчиков программного обеспечения внедрения API синтеза речи в свои приложения. [5] [6] Это предотвратило перезапись буфера обмена, но также означало, что для приложений, которые не использовали API, функция не будет работать должным образом, читая строку заголовка, а не выделенный текст. [7] [8]
В macOS Sierra 10.12 Siri была представлена для Mac, однако голос не был доступен как системный голос, а это означало, что голоса Siri можно было использовать только в Siri. Siri была доступна как системный голос в macOS Catalina 10.15, так что она могла работать с любым текстом. Голоса Siri работают совершенно по-другому, и say
команда по-прежнему не может использовать Siri.
Распознавание речи
В 1990 году Apple наняла множество исследователей в области распознавания речи. Примерно через год они продемонстрировали технологию под кодовым названием Casper. Он был выпущен как часть пакета PlainTalk в 1993 году. Хотя он был доступен для всех компьютеров Macintosh PowerPC и AV 68k (это было одно из немногих приложений, в которых использовался DSP в Centris 660AV и Quadra 840AV ), он не входил в состав системная установка по умолчанию до Mac OS X, требующая от пользователя выполнения специальной установки ОС, чтобы получить возможности распознавания речи.
В Mac OS X 10.7 Lion и более ранних версиях распознавание речи Apple было ориентировано только на голосовые команды, то есть не предназначалось для диктовки. Его можно настроить для прослушивания команд при нажатии горячей клавиши, после обращения с фразой активации, такой как «Компьютер» или «Macintosh», или без запроса. Графический монитор состояния, часто в виде анимированного персонажа, обеспечивает визуальную и текстовую обратную связь о состоянии прослушивания, доступных командах и действиях. Он также может общаться с пользователем с помощью синтеза речи.
Ранние версии распознавания речи предоставляли полный доступ к меню. Позднее эта поддержка была удалена, поскольку требовала слишком большого количества ресурсов и делала распознавание менее надежным, и была повторно добавлена в Mac OS X 10.3 в качестве «технологии универсального доступа», называемой голосовым пользовательским интерфейсом.
Пользователь может запускать элементы, расположенные в специальной папке, называемой «Speakable Items», просто произнося их имя (пока система находится в режиме прослушивания ). Apple отправила в эту папку несколько сценариев AppleScripts , но псевдонимы , документы и папки можно открывать таким же образом.
Дополнительные функции предоставляются отдельными приложениями. Интерфейс прикладного программирования позволяет программам определять и изменять имеющийся словарный запас . Например, Finder предоставляет словарь для управления файлами и окнами .
В OS X 10.8 Mountain Lion Apple представила «Диктовку, [9] », предназначенную для общего текста. Первоначально требовалась отправка аудиоданных на серверы Apple для обработки. В OS X 10.9 Mavericks Apple добавила возможность загрузки поддержки диктовки без подключения к Интернету. Начиная с OS X 10.9.3, поддерживаются восемь языков (19 диалектов).
В популярной культуре
В радио
Синтез речи MacinTalk можно услышать в нескольких радиопрограммах:
- Некоторые из радиопередач в серии BBC Radio 1 Blue Jam используют MacinTalk. [10]
В музыке
Синтез речи MacinTalk можно услышать в нескольких песнях:
- "Вики" из MacinTalk выступает во время перерывов в "В Токио" Studio Killers .
- В "Repeating Yesterday" из альбома As I Lay Dying 's Shadows Are Security во вступлении использовался MacinTalk.
- " Satisfaction " Бенни Бенасси , а также другие его песни.
- "Toby's Mac" от tobyMac
- «Фред» MacinTalk фигурирует в песнях Radiohead « Paranoid Android » и «Fitter Happier» с их альбома 1997 года OK Computer . В первой песне Фред используется для бэк-вокала, а во второй он выступает в качестве ведущего «вокалиста».
- Fall Out Boy использовали MacinTalk в начале " Grand Theft Autumn / Where Is Your Boy " (Millennium Version) и в конце последнего трека и бонус-треков на их альбоме Infinity on High .
- Французская группа Air использует несколько голосов Macintosh в своем треке "How Does It Make You Feel"
- " Yoshimi Battles the Pink Robots, Pt. 1 " от The Flaming Lips содержит голос "Zarvox".
- Многие треки Aphex Twin, включая " Funny Little Man " и " Cow Cud Is a Twin ", также включают PlainTalk.
- Песня "John Orr the Arsonist" группы And Then There Were None содержит короткий монолог с использованием этого голоса.
- "The Vic-E Interpretation - Interlude" из альбома TLC FanMail представляет "Викторию", сравнивающую и противопоставляющую клубную культуру США и Японии.
- В "Intro " с альбома OutKast Stankonia используется голос "Bells".
- Песня "Pomme C" французского певца Калоджеро на альбоме Pomme C содержит в самом начале короткий монолог с использованием голоса "Vicki".
- "DWYL" Фила Джоэла
- В альбоме Antichrist Superstar группы Мэрилина Мэнсона многократно используются голоса MacinTalk «Кэти», «Принцесса» и «Джуниор», часто накладываемые друг на друга. Заглавная песня альбома заканчивается тем, что голоса MacinTalk повторяют: «Когда ты страдаешь, знай, что я предал тебя». Голоса MacinTalk снова используются в музыкальном видео [11] и живых выступлениях " Antichrist Superstar ". Голоса MacinTalk повторяют: «С таким же успехом ты можешь убить себя - ты уже мертв» в конце песни. Песня « Man That You Fear » также заканчивается голосами MacinTalk, говорящими: «Когда все ваши желания исполнятся, многие из ваших мечтаний будут разрушены».
- Большинство г Oizo «s Транссексуал EP и Lambs Anger альбом содержит MacinTalk голоса
- Песня Korea Idol T-ara "Bo Peep Bo Peep" из вступительной части Absolute First Album "Не теряйте самообладание так быстро"
- El-P песня «Отчим Factory», от 2002 альбома Fantastic Damage , концы с MacinTalk раздаются голоса , повторяя: «Почему ты заставляешь меня тебе больно? Я люблю тебя».
- В треке продюсера EDM Skrillex под названием «I Wish You All The Luck Of The World» можно услышать голос MacinTalk «Alex», который несколько раз повторяет «Дэвид, я желаю вам удачи в мире» с разной высотой звука.
- В треке Роба и Голди 1997 года "The Shadow (The Process Mix by Rick Smith for Underworld )" широко используется голос "Victoria", читается словарное определение "тени" и стихотворение из книги Process: A Tomato Project .
- В альбоме Жана-Мишеля Жарра « Métamorphoses » 2000 года используется MacinTalk для создания текста песни «Love, Love, Love».
- Начальная строка " Treasure " Бруно Марса на альбоме Unorthodox Jukebox - это голос Алекс, говорящий: "Белочка, ты сексуальный ублюдок".
- В «Иногда вещи получают, что угодно» по deadmau5 из альбома Random Album Title , зацикленной линия, «Иногда все усложняется» является комбинацией «Ральфа» и голоса «Кэти».
- Трек "This is the Hook" дуэта Electro House BSOD ( deadmau5 и Steve Duda ) использует голос "Ralph" для обозначения различных частей типичного трека электронной музыки .
- Немецкая электронная группа Monolake использует голос PlainTalk "Whisper" в треке "Bicom" на своем альбоме Cinemascope .
- Виртуальный синтезатор речи Plogue Art et Technologie эмулирует MacinTalk 1.0.
- Я танцор дискотеки (и сладкий романтик) Кристофера Джаста использует различные голоса MacinTalk
- Дэвид Джеймс использует голоса MacinTalk в своей песне (Always) A Permanent State.
В кино
- Голос «Ральфа» служит голосом компьютеризированного автопилота АВТО в фильме Disney - Pixar 2008 года WALL-E . MacinTalk указан в качестве этого голоса в финальных титрах фильма. [12]
- В « Бланке проверки» Престон использовал MacInTalk в качестве голоса М.Мачинтоша, чтобы купить дом по телефону.
- Голос «Фреда» используется в анимационном фильме Sony Pictures «Митчеллы против машин» 2021 года для роботов-пылесосов, которые появляются в фильме.
На телевидении
- MacinTalk использовался для исполнения роли пациента с болезнью двигательных нейронов, использующего инвалидное кресло, с синтезатором голоса в анимационном эпизоде « Гриффины » « Готов, желающий и инвалид », который позже снова появится в фильмах « Брайан Холостяк » и « Брайан возвращается» в колледж ». Кроме того, он использовался в « Петеротике », когда Стьюи играет с «функцией речи на своем Macintosh ». Используя программу Talking Moose , Стьюи заставляет свой ноутбук сказать: «Стьюи крут». Это было также в эпизоде « Апрель в Куахоге », где MacinTalk Фред озвучивал Стивена Хокинга .
- Он также использовался для представления эпизодов аниме « Серийные эксперименты Лейн» .
- В первые годы Adult Swim голос «Джуниора» использовался в качестве диктора для бывшего блока «Adult Swim Action».
- В « Трансформерах: анимационные эпизоды» «TransWarped», «Decepticon Air» и «Вот почему я ненавижу машины» голос Автобота- Персептора был воспроизведен посредством генерации речи MacinTalk с использованием голоса «Фреда».
- Он также использовался в мультфильме « Что бы ни случилось с… Роботом Джонсом?» как голос отца Робота Джонса, Папы Юнита и Робота в первом сезоне.
- Голос MacinTalk «Джуниор» озвучивал Робота Джонса в эпизоде « Шоу мультфильмов» 2000 года « Что бы ни случилось с ... Роботом Джонсом? ».
- Младший голос MacinTalk позже вернется в роли Робота Джонса в OK KO! Будем героями : кроссовер Nexus .
- Он также использовался в качестве голоса для персонажа Красного против Синего , лежащего ИИ Гэри / Гаммы.
- Голос новинки Mac OS X "Boing" использовался для лица робота (SSF / Splaat) для Класки Чупо .
- В одном из Бумеранга в старых блоках Boomeraction, голос , используемый для блока был низкая версией основного тона «Trinoids» новизна голоса.
- В эпизоде Venture Bros «Все это и Гаргантюа-2» голос используется для роботов на главной космической станции.
- Он использовался в первом сезоне Scrapheap Challenge в качестве голоса, объявляющего время, оставшееся для испытаний.
- Голос «Джуниора» использовался в эпизоде Wayside «Mad Hot».
- В « Доки » голос «триноидов» использовался в одном эпизоде под названием «Поймать рыбу».
- Голос «Младшего» однажды использовался в Hi Hi Puffy AmiYumi в эпизоде «Mean Machine».
- Голос «Фреда» использовался в эпизоде «Уоррен» от Космических Призраков до Побережья и в эпизодах с 1 по 14 Wonder Showzen .
- Голоса «Джуниор» или «Кэти» и «Фред» можно услышать в заглавной песне для « Пикл и арахис» .
В видеоиграх
- MacinTalk использовался в японской версии игры Killer7 в качестве голосов Остаточных Психов .
- MacinTalk использовался в игре No More Heroes . Перед каждым боем с боссом голос «Шепот» объявляет имя текущего босса.
- В оригинальном выпуске The Silver Case 1999 года во вступительном треке использовались «Ральф» и «Боинг».
- Видеоигра Grand Theft Auto IV использовала "Вики" в качестве голоса ди-джея внутриигровой радиостанции " Путешествие ".
- Видеоигра Machinarium 2009 года содержит несколько голосов Macintalk в своей эмбиент-музыке.
- В 3DO- версии Star Control 2 "Брюс" озвучивал Зонд Слайландро. Игра называет голос Probe 840AV . «Агнес» также использовалась в качестве голоса компьютера капитана корабля, услышанного при первой встрече с расой Орз.
- Японская и европейская версии Sonic CD использовали голоса MacinTalk в фоновой музыке на сценах Bad Future Metallic Madness.
- В видеоигре Castle Crashers использовался новый голос Боинга для персонажа, известного как Художник.
- Видеоигра 2003 года Shin Megami Tensei: Nocturne использовала «Альберт» для вокала в своем саундтреке.
В веб-видео
- Голос MacinTalk «Zarvox» использовался для озвучивания робота в видеоролике Smosh «УДИВИТЕЛЬНЫЙ НОВЫЙ РОБОТ!», А голос «Фреда» был использован для озвучивания Стивена Хокинга в «15 HOUR ENERGY!».
- Ютубер Макс Джиларди использовал разные голоса Macintalk для своих видео.
- В веб-сериале Making Fiends была версия эпизода «Kitty Kitty Kitty», где исходный звук был заменен компьютерным симулятором речи.
- В открытии Nitro Rad голос произносит слова «Nitro Rad».
Аппаратное обеспечение
Apple произвела два микрофона под названием «Apple PlainTalk Microphone». Первые поставлялись с Macintosh LC и ранними моделями Performa и имели круглую форму. Он был разработан для размещения в держателе, прикрепленном сбоку от ЭЛТ-дисплея , и его можно было поднимать и держать за рот во время разговора. Вторая модель была представлена вместе с моделями AV в серии Macintosh Quadra в 1993 году, но также продавалась отдельно. Он был разработан таким образом, чтобы располагаться над экраном и быть чувствительным к звуку спереди. Обе модели имели более длинный разъем, кончик которого использовался для подачи на микрофон напряжения смещения .
Рекомендации
- ↑ Джинджер Джерниган; Джим Рикес (июнь 1989 г.) [апрель 1985 г.]. «Техническая записка № 019: Как создать непрерывный звук без щелчка» . Apple Computer Inc . Проверено 18 сентября 2019 .
- ^ Джим Рикес (1 февраля 1990 г.). «Техническое примечание PT22, также известное как № 268: MacinTalk - Последняя глава от MacinTalk - Последняя глава» . Apple Computer Inc . Проверено 18 сентября 2019 .
Результатом этой работы стал MacinTalk. MacinTalk - это файл, который может быть помещен в системную папку обычного компьютера Macintosh и позволяет преобразовывать текст в речь для введения в 1984 году. Было сочтено, что это интересная программа, поэтому Apple сделала ее доступной для разработчиков. Были опубликованы интерфейсы к MacinTalk, и лицензирование программного обеспечения Apple позволило включить его в продукты разработчиков. Первоначальный проект должен был получить драйвер речи для Macintosh, но он не включал получение исходного кода этого драйвера. У Apple есть только то, что она дает разработчикам: файл, который нужно скопировать в системную папку, и этот файл нельзя изменить, поскольку у Apple нет исходного кода. [Оригинал] MacinTalk работает, используя задачу VBL для записи данных непосредственно в звуковое оборудование логических плат Macintosh Plus и SE - метод, который Apple не поддерживает. Только благодаря усилиям Sound Manager программное обеспечение, которое записывает данные напрямую в это звуковое оборудование, продолжает работать. MacinTalk продолжает записывать на аппаратные адреса материнской платы Macintosh 128K, но Sound Manager и Apple Sound Chip работают вместе, позволяя таким программам, как MacinTalk, продолжать работать на новых машинах. Sound Manager и Apple Sound Chip [ASC] были представлены в Macintosh II. Sound Manager отслеживает аппаратные адреса, которые раньше присутствовали на Macintosh. Когда Sound Manager обнаруживает активность на одном из этих адресов, он переходит в режим «совместимости». В этом режиме он направляет данные на реальное звуковое оборудование, но пока это происходит, правильный код Sound Manager не может работать - даже _SysBeep Sound Manager не работает, когда используется MacinTalk. Кроме того, режим совместимости нельзя отключить до тех пор, пока приложение, требующее его, не вызовет _ExitToShell. Даже приложение, которое правильно использует звук с правильным кодом, не работает, если другое приложение открывает драйвер MacinTalk. Нет никаких решений для этой несовместимости ... Другими словами, если вы находите MacinTalk интересным и интересным - покупайте его. Напишите код и наслаждайтесь. Однако имейте в виду, что MacinTalk не следует включать как часть какого-либо коммерческого продукта. Apple Computer, Inc. не предоставляет никакой поддержки MacinTalk, кроме той, которая приобретается вместе с самим пакетом, и в будущем поддержка не будет. Apple стремится предоставить сообществу разработчиков целый ряд речевых технологий, интегрированных с Sound Manager ... Больше ничего не будет сделано [с оригинальным MacinTalk]. Это риск совместимости ... вызывает сбой Sound Manager ... не будет работать с новым Sound Manager, запланированным для System 7.0 ... может вообще не работать с будущими версиями оборудования Macintosh. .... # 000: О технических примечаниях Macintosh .... Мы не налагаем ограничений на копирование технических примечаний, за исключением того, что вы не можете их перепродавать, поэтому читайте, наслаждайтесь и делитесь. Мы надеемся, что Технические заметки Macintosh предоставят вам много ценной информации при разработке оборудования и программного обеспечения Macintosh.
Альтернативный URL - ^ «Доступность - OS X» . Apple . Проверено 27 апреля 2016 .
- ^ «Архивная копия» . Архивировано из оригинального 24 сентября 2011 года . Проверено 23 июля 2011 года .CS1 maint: заархивированная копия как заголовок ( ссылка )
- ^ «Введение в руководство по программированию синтеза речи» . Developer.apple.com . 2006-09-05 . Проверено 27 апреля 2016 .
- ^ «Синтез речи в OS X» . Developer.apple.com . 2006-09-05 . Проверено 27 апреля 2016 .
- ^ «[Решено] Преобразование текста в речь читает только заголовок документа (см. Тему) • Форум сообщества Apache OpenOffice» . Forum.openoffice.org . Проверено 27 апреля 2016 .
- ^ "scottmartin / speak-selected-text-sublime: плагин для преобразования текста Mac в речь из Sublime Text 2" . GitHub.com . Проверено 27 апреля 2016 .
- ^ «Используйте свой голос для ввода текста на Mac - служба поддержки Apple» . Support.apple.com . 2016-04-05 . Проверено 27 апреля 2016 .
- ^ «Крис Моррис - Блю Джем - Стив Ламак Стинг» . YouTube . BBC Radio 1 . Проверено 30 ноября 2014 года .
- ^ "Мэрилин Мэнсон - официальное музыкальное видео антихриста суперзвезды" . Официальное музыкальное видео Antichrist Superstar . NME.com . Проверено 15 августа 2011 года .
- ^ Стив "Капоне" Прокопий (24.06.2008). «Эндрю Стэнтон передает товары на ВАЛЛ-И, а ДЖОН КАРТЕР - Капоне!» . Разве это не крутые новости . Проверено 22 ноября 2008 .
Внешние ссылки
- Folklore.org: Оригинальный Macintosh, о представлении Macintosh
- Документация по API:
- Фреймворки 10.14+: Речь (Распознавание), Синтез речи (Часть AVFoundation)
- Какао API: NSSpeechSynthesizer и NSSpeechRecognizer
- Carbon API (ApplicationServices): Speech Synthesis Manager (старая система на основе дифонов с контролем высоты тона, используемой
say
)
- MacinTalk на IMDb
- Technote TN 22 - Macintalk - Последняя глава