Голосовые вычисления - это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосового ввода. [1]
Она охватывает многие другие области , включая взаимодействие человека с компьютером , разговорными вычисления , лингвистики , обработки естественного языка , автоматическое распознавание речи , синтез речи , аудио технику , цифровой обработкой сигналов , облачные вычислениями , науки данных , этики , права и информационной безопасность .
Голос вычисления становятся все более значимыми в наше время, особенно в связи с появлением умных колонок , как Amazon Echo и Google Assistant , сдвиг в стороне бессерверных вычислений , а также улучшение точности распознавания речи и преобразование текста в речь моделей.
История [ править ]
Голосовые вычисления имеют богатую историю. [2] Во-первых, такие ученые, как Вольфганг Кемпелен, начали создавать речевые машины для создания самых первых синтетических звуков речи. Это привело к тому, что Томас Эдисон продолжил работу по записи звука с помощью диктофонов и воспроизведению его в корпоративных условиях. В 1950-1960-х годах были примитивные попытки создания автоматизированных систем распознавания речи Bell Labs , IBM и другими. Однако только в 1980-х годах, когда скрытые марковские модели использовались для распознавания до 1000 слов, системы распознавания речи стали актуальными.
Дата | Мероприятие |
---|---|
1784 | Вольфганг фон Кемпелен создает акустико-механическую речевую машину. |
1879 г. | Томас Эдисон изобретает первую машину для диктовки . |
1952 г. | Bell Labs выпускает Audrey , способную распознавать произносимые цифры с точностью до 90%. |
1962 г. | IBM Shoebox может распознавать до 16 слов. |
1971 г. | Создана гарпия , которая может понимать более 1000 слов. |
1986 г. | IBM Tangora использует скрытые марковские модели для предсказания фонем в речи. |
2006 г. | Агентство национальной безопасности начинает исследования по обнаружению горячих слов во время обычных разговоров. |
2008 г. | Google запускает голосовое приложение, обеспечивающее распознавание речи на мобильных устройствах. |
2011 г. | Apple выпускает Siri на iPhone |
2014 г. | Amazon выпускает Amazon Echo, чтобы сделать голосовые вычисления актуальными для широкой публики. |
Примерно в 2011 году Siri появилась на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому переходу к созданию архитектур с приоритетом голосовых вычислений. PS4 была выпущена Sony в Северной Америке в 2013 году (70+ миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (30+ миллионов устройств), Microsoft выпустила Cortana (2015 - 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 - 2 миллиарда активных пользователей в месяц на телефонах Android), и Apple выпустила HomePod (2018 год - продано 500000 устройств и 1 миллиард активных устройств с iOS / Siri). Эти сдвиги вместе с достижениями в облачной инфраструктуре (например,Amazon Web Services ) и кодеки укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой публики.
Оборудование [ править ]
Голос компьютер собран аппаратное и программное обеспечение для обработки голосового ввода.
Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как в традиционном Amazon Echo . В других вариантах осуществления в качестве голосовых компьютеров можно использовать традиционные портативные компьютеры или мобильные телефоны . Более того, с появлением устройств с поддержкой IoT , например, в автомобилях или телевизорах, становится все больше интерфейсов для голосовых компьютеров .
По состоянию на сентябрь 2018 года в настоящее время существует более 20000 типов устройств, совместимых с Amazon Alexa. [3]
Программное обеспечение [ править ]
Программное обеспечение для голосовых вычислений может читать / писать, записывать, очищать, шифровать / дешифровать, воспроизводить, перекодировать, расшифровывать, сжимать, публиковать, изменять характеристики, моделировать и визуализировать голосовые файлы.
Вот несколько популярных программных пакетов, связанных с голосовыми вычислениями:
Имя пакета | Описание |
---|---|
FFmpeg | для перекодирования аудиофайлов из одного формата в другой (например, .WAV -> .MP3). [4] |
Мужество | для записи и фильтрации звука. [5] |
SoX | для работы с аудиофайлами и удаления шума окружающей среды. [6] |
Набор инструментов для естественного языка | для добавления в стенограммы таких вещей, как части речи . [7] |
LibROSA | для визуализации спектрограмм аудиофайлов и определения характеристик аудиофайлов. [8] |
OpenSMILE | для добавления в аудиофайлы таких вещей, как мелкочастотные коэффициенты кепстра. [9] |
КМУ Сфинкс | для преобразования речевых файлов в текст. [10] |
Pyttsx3 | для воспроизведения аудиофайлов (преобразование текста в речь). [11] |
Пикриптодом | для шифрования и дешифрования аудиофайлов. [12] |
Приложения [ править ]
Приложения для голосовых вычислений охватывают многие отрасли, включая голосовые помощники, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, набор персонала, облачные вычисления, микрофоны, динамики и подкастинг. Прогнозируется, что к 2025 году голосовые технологии будут расти в среднем на 19-25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. [13]
Пример использования | Пример продукта или стартапа |
---|---|
Голосовые помощники | Кортана , [14] Amazon Alexa , [15] Siri , [16] Google Assistant , [17] Apple HomePod , [18] Джаспер , [19] и Нала., [20] Голосовая служба Alexa [21] |
Здравоохранение | Cardiocube, [22] Toneboard, [23] Suki, [24] Praktice.ai, [25] Corti, [26] и Syllable. [27] |
электронная коммерция | Cerebel, [28] Voysis, [29] Mindori, [30] Twiggle, [31] и Addstructure. [32] |
Финансы | Kasisto, [33] Personetics, [34] Voxo, [35] и активный интеллект. [36] |
Цепочка поставок и производство | Augury, [37] Kextil, [38] 3DSignals, [39] Voxware, [40] и Otosense. [41] |
сельское хозяйство | Агвойс. [42] |
Текст в речь | Lyrebyrd [43] и VocalID. [44] |
Безопасность | Безопасность Pindrop [45] и Aimbrain. [46] |
Маркетинг | Convirza, [47] Dialogtech, [48] Invoca, [49] и Veritonic. [50] |
Служба поддержки | Cogito., [51] Afiniti, [52] Aaron.ai, [53] Blueworx, [54] Servo.ai, [55] SmartAction и Chatdesk. [56] |
Рекрутинг | SurveyLex [57] и Голосовой взгляд. [58] |
Преобразование речи в текст | Voicebase, [59] Speechmatics, [60] Capio, [61] Nuance и Spitch., [62] AWS Transcribe. |
Облачные вычисления | AWS , [63] GCP , [64] IBM Watson , [65] и Microsoft Azure . [66] |
Дизайн микрофона / динамика | Bose [67] и Audio Technica. [68] |
Подкастинг | Якорь [69] и iTunes . [70] |
Юридические соображения [ править ]
В Соединенных Штатах в штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах законно записывать разговор с согласия только одной стороны, в других требуется согласие всех сторон.
Более того, COPPA - важный закон для защиты несовершеннолетних, пользующихся Интернетом. В связи с увеличением числа несовершеннолетних, взаимодействующих с устройствами для голосовых вычислений (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия ослабила правило COPAA, чтобы дети могли выполнять голосовой поиск и команды. [71] [72]
Наконец, GDPR - это новый европейский закон, регулирующий право на забвение и многие другие положения для граждан ЕС. GDPR также ясно указывает на то, что компании должны изложить четкие меры для получения согласия на аудиозаписи, а также определить цель и объем того, как эти записи будут использоваться, например, в учебных целях. В соответствии с GDPR был повышен барьер для действительного согласия. Согласие должно быть добровольным, конкретным, информированным и недвусмысленным; молчаливого согласия уже недостаточно. [73]
Научные конференции [ править ]
Есть много исследовательских конференций, которые касаются голосовых вычислений. Некоторые из них включают:
- Международная конференция по акустике, речи и обработке сигналов
- Межречевой [74]
- АВЭК [75]
- IEEE Int'l Conf. по автоматическому распознаванию лиц и жестов [76]
- ACII2019 8-я Международная конференция. об эффективных вычислениях и интеллектуальном взаимодействии [77]
Сообщество разработчиков [ править ]
По состоянию на январь 2018 года у Google Assistant было около 2000 действий [78].
По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. [79]
В июне 2017 года Google выпустил AudioSet [80] - крупномасштабную коллекцию 10-секундных аудиоклипов, помеченных людьми, взятых из видео на YouTube. Он содержит 1 010 480 видео файлов с человеческой речью или 2 793,5 часа в целом. [81] Он был выпущен в рамках конференции IEEE ICASSP 2017. [82]
В ноябре 2017 года Mozilla Foundation выпустила Common Voice Project, коллекцию речевых файлов, чтобы помочь внести свой вклад в более крупное сообщество машинного обучения с открытым исходным кодом. [83] [84] Голосовой банк в настоящее время имеет размер 12 ГБ, с более чем 500 часами голосовых данных на английском языке, которые были собраны из 112 стран с момента запуска проекта в июне 2017 года. [85] Этот набор данных уже привел к творческим результатам. такие проекты, как модель DeepSpeech, модель транскрипции с открытым исходным кодом. [86]
См. Также [ править ]
- Распознавание речи
- Обработка естественного языка
- Голосовой пользовательский интерфейс
- Аудиокодек
- Повсеместные вычисления
- Вычисления без помощи рук
Ссылки [ править ]
- ^ Schwoebel, J. (2018). Введение в голосовые вычисления в Python. Бостон; Сиэтл, Атланта: лаборатории NeuroLex. https://neurolex.ai/voicebook
- ^ Хронология распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
- ^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
- ^ FFmpeg. https://www.ffmpeg.org/
- ^ Наглость. https://www.audacityteam.org/
- ^ SoX. http://sox.sourceforge.net/
- ^ НЛТК. https://www.nltk.org/
- ^ LibROSA. https://librosa.github.io/librosa/
- ^ OpenSMILE. https://www.audeering.com/technology/opensmile/
- ^ «PocketSphinx - это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает на настольных компьютерах: Cmusphinx / Pocketsphinx» . 29 марта 2020.
- ^ Pyttsx3. https://github.com/nateshmbhat/pyttsx3
- ^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
- ^ Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
- ^ Кортана. https://www.microsoft.com/en-us/cortana
- ^ Amazon Alexa. https://developer.amazon.com/alexa
- ^ Сири. https://www.apple.com/siri/
- ^ Google Ассистент. https://assistant.google.com/#?modal_active=none
- ^ HomePod. https://www.apple.com/homepod/
- ^ Джаспер https://jasperproject.github.io/
- ↑ Нала. https://github.com/jim-schwoebel/nala
- ^ Голосовая служба Alexa. https://developer.amazon.com/alexa-voice-service
- ^ Кардиокуб. https://www.cardiocube.com/
- ^ Тоновая доска. https://toneboard.com/
- ^ Суки. https://www.suki.ai/
- ^ Praktice.ai. https://praktice.ai/
- ^ Корти. https://corti.ai/
- ^ Слог. https://www.syllable.ai/
- ^ Церебель. https://map.startuplithuania.lt/companies/cerebel
- ^ Voysis. https://voysis.com/
- ^ Миндори. http://mindori.com/
- ^ Twiggle. https://www.twiggle.com/
- ^ AddStructure. https://www.crunchbase.com/organization/addstructure
- ^ Kasisto. https://kasisto.com/
- ^ Персонетика. https://personetics.com/
- ^ Voxo. https://www.voxo.ai/
- ^ Активный интеллект. https://active.ai/
- ^ Предзнаменование. https://www.augury.com/
- ^ Kextil. http://www.kextil.com/
- ^ 3DSignals. https://www.3dsig.com/
- ^ Voxware. https://www.voxware.com/
- ^ Otosense. https://www.otosense.com/
- ^ Agvoice. https://agvoiceglobal.com/
- ^ Лирохвост. https://lyrebird.ai/
- ^ VocalD. https://vocalid.ai/
- ^ Пиндроп. https://www.pindrop.com/
- ^ Aimbrain. https://aimbrain.com/
- ^ Convirza. https://www.convirza.com/
- ^ Dialogtech. https://www.dialogtech.com/
- ^ Invoca. https://www.invoca.com/
- ^ Veritonic. https://veritonic.com/
- ^ Cogito. https://www.cogitocorp.com/
- ^ Афинити. https://www.afiniti.com/
- ^ Aaron.ai. https://aaron.ai/
- ^ Blueworx. https://www.blueworx.com/
- ^ Servo.ai. https://www.servo.ai/
- ^ Chatdesk. https://chatdesk.com/
- ^ SurveyLex. https://www.surveylex.com/
- ^ Голосовой взгляд. https://voiceglance.com/
- ^ Голосовая база. https://www.voicebase.com/
- ^ Speechmatics. https://www.speechmatics.com/
- ^ Capio. https://www.capio.ai/
- ^ Слюна. https://www.spitch.ch/
- ^ AWS. https://aws.amazon.com/
- ^ GCP. https://cloud.google.com/
- ^ IBM Watson. https://www.ibm.com/watson/
- ^ Microsoft Azure. https://azure.microsoft.com/en-us/
- ^ Bose колонки. https://www.bose.com/en_us/shop_all/speakers/speakers.html
- ^ Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html
- ^ Якорь. https://anchor.fm/
- ^ iTunes. https://www.apple.com/itunes/
- ^ Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
- ^ https://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and -использовать
- ^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
- ^ Interspeech 2018. http://interspeech2018.org/
- ^ AVEC 2018. http://avec2018.org/
- ^ 2018 FG. https://fg2018.cse.sc.edu/
- ^ ASCII 2019. http://acii-conf.org/2019/
- ^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
- ^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .
- ^ Google AudioSet. https://research.google.com/audioset/
- ^ Данные аудиосистемы. https://research.google.com/audioset/dataset/speech.html
- ^ Gemmeke, JF, Ellis, DP, Фридман, Д. Янсен, А. Лоуренс, У. Мур, & Ritter, М. (2017, март). Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий. В области акустики, речи и обработки сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776-780). IEEE.
- ^ Общий голосовой проект. https://voice.mozilla.org/
- ^ Общий голосовой проект. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
- ^ Большое хранилище голосовых данных Mozilla будет определять будущее машинного обучения. https://opensource.com/article/18/4/common-voice
- ^ DeepSpeech. https://github.com/mozilla/DeepSpeech