Голосовые вычисления

Amazon Echo , пример голосового компьютера

Голосовые вычисления - это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосового ввода. ^[1]

Она охватывает многие другие области , включая взаимодействие человека с компьютером , разговорными вычисления , лингвистики , обработки естественного языка , автоматическое распознавание речи , синтез речи , аудио технику , цифровой обработкой сигналов , облачные вычислениями , науки данных , этики , права и информационной безопасность .

Голос вычисления становятся все более значимыми в наше время, особенно в связи с появлением умных колонок , как Amazon Echo и Google Assistant , сдвиг в стороне бессерверных вычислений , а также улучшение точности распознавания речи и преобразование текста в речь моделей.

История [ править ]

Голосовые вычисления имеют богатую историю. ^[2] Во-первых, такие ученые, как Вольфганг Кемпелен, начали создавать речевые машины для создания самых первых синтетических звуков речи. Это привело к тому, что Томас Эдисон продолжил работу по записи звука с помощью диктофонов и воспроизведению его в корпоративных условиях. В 1950-1960-х годах были примитивные попытки создания автоматизированных систем распознавания речи Bell Labs , IBM и другими. Однако только в 1980-х годах, когда скрытые марковские модели использовались для распознавания до 1000 слов, системы распознавания речи стали актуальными.

Дата	Мероприятие
1784	Вольфганг фон Кемпелен создает акустико-механическую речевую машину.
1879 г.	Томас Эдисон изобретает первую машину для диктовки .
1952 г.	Bell Labs выпускает Audrey , способную распознавать произносимые цифры с точностью до 90%.
1962 г.	IBM Shoebox может распознавать до 16 слов.
1971 г.	Создана гарпия , которая может понимать более 1000 слов.
1986 г.	IBM Tangora использует скрытые марковские модели для предсказания фонем в речи.
2006 г.	Агентство национальной безопасности начинает исследования по обнаружению горячих слов во время обычных разговоров.
2008 г.	Google запускает голосовое приложение, обеспечивающее распознавание речи на мобильных устройствах.
2011 г.	Apple выпускает Siri на iPhone
2014 г.	Amazon выпускает Amazon Echo, чтобы сделать голосовые вычисления актуальными для широкой публики.

Примерно в 2011 году Siri появилась на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому переходу к созданию архитектур с приоритетом голосовых вычислений. PS4 была выпущена Sony в Северной Америке в 2013 году (70+ миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (30+ миллионов устройств), Microsoft выпустила Cortana (2015 - 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 - 2 миллиарда активных пользователей в месяц на телефонах Android), и Apple выпустила HomePod (2018 год - продано 500000 устройств и 1 миллиард активных устройств с iOS / Siri). Эти сдвиги вместе с достижениями в облачной инфраструктуре (например,Amazon Web Services ) и кодеки укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой публики.

Оборудование [ править ]

Голос компьютер собран аппаратное и программное обеспечение для обработки голосового ввода.

Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как в традиционном Amazon Echo . В других вариантах осуществления в качестве голосовых компьютеров можно использовать традиционные портативные компьютеры или мобильные телефоны . Более того, с появлением устройств с поддержкой IoT , например, в автомобилях или телевизорах, становится все больше интерфейсов для голосовых компьютеров .

По состоянию на сентябрь 2018 года в настоящее время существует более 20000 типов устройств, совместимых с Amazon Alexa. ^[3]

Программное обеспечение [ править ]

Программное обеспечение для голосовых вычислений может читать / писать, записывать, очищать, шифровать / дешифровать, воспроизводить, перекодировать, расшифровывать, сжимать, публиковать, изменять характеристики, моделировать и визуализировать голосовые файлы.

Вот несколько популярных программных пакетов, связанных с голосовыми вычислениями:

Имя пакета	Описание
FFmpeg	для перекодирования аудиофайлов из одного формата в другой (например, .WAV -> .MP3). ^[4]
Мужество	для записи и фильтрации звука. ^[5]
SoX	для работы с аудиофайлами и удаления шума окружающей среды. ^[6]
Набор инструментов для естественного языка	для добавления в стенограммы таких вещей, как части речи . ^[7]
LibROSA	для визуализации спектрограмм аудиофайлов и определения характеристик аудиофайлов. ^[8]
OpenSMILE	для добавления в аудиофайлы таких вещей, как мелкочастотные коэффициенты кепстра. ^[9]
КМУ Сфинкс	для преобразования речевых файлов в текст. ^[10]
Pyttsx3	для воспроизведения аудиофайлов (преобразование текста в речь). ^[11]
Пикриптодом	для шифрования и дешифрования аудиофайлов. ^[12]

Приложения [ править ]

Приложения для голосовых вычислений охватывают многие отрасли, включая голосовые помощники, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, набор персонала, облачные вычисления, микрофоны, динамики и подкастинг. Прогнозируется, что к 2025 году голосовые технологии будут расти в среднем на 19-25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. ^[13]

Пример использования	Пример продукта или стартапа
Голосовые помощники	Кортана , ^[14] Amazon Alexa , ^[15] Siri , ^[16] Google Assistant , ^[17] Apple HomePod , ^[18] Джаспер , ^[19] и Нала., ^[20] Голосовая служба Alexa ^[21]
Здравоохранение	Cardiocube, ^[22] Toneboard, ^[23] Suki, ^[24] Praktice.ai, ^[25] Corti, ^[26] и Syllable. ^[27]
электронная коммерция	Cerebel, ^[28] Voysis, ^[29] Mindori, ^[30] Twiggle, ^[31] и Addstructure. ^[32]
Финансы	Kasisto, ^[33] Personetics, ^[34] Voxo, ^[35] и активный интеллект. ^[36]
Цепочка поставок и производство	Augury, ^[37] Kextil, ^[38] 3DSignals, ^[39] Voxware, ^[40] и Otosense. ^[41]
сельское хозяйство	Агвойс. ^[42]
Текст в речь	Lyrebyrd ^[43] и VocalID. ^[44]
Безопасность	Безопасность Pindrop ^[45] и Aimbrain. ^[46]
Маркетинг	Convirza, ^[47] Dialogtech, ^[48] Invoca, ^[49] и Veritonic. ^[50]
Служба поддержки	Cogito., ^[51] Afiniti, ^[52] Aaron.ai, ^[53] Blueworx, ^[54] Servo.ai, ^[55] SmartAction и Chatdesk. ^[56]
Рекрутинг	SurveyLex ^[57] и Голосовой взгляд. ^[58]
Преобразование речи в текст	Voicebase, ^[59] Speechmatics, ^[60] Capio, ^[61] Nuance и Spitch., ^[62] AWS Transcribe.
Облачные вычисления	AWS , ^[63] GCP , ^[64] IBM Watson , ^[65] и Microsoft Azure . ^[66]
Дизайн микрофона / динамика	Bose ^[67] и Audio Technica. ^[68]
Подкастинг	Якорь ^[69] и iTunes . ^[70]

Юридические соображения [ править ]

В Соединенных Штатах в штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах законно записывать разговор с согласия только одной стороны, в других требуется согласие всех сторон.

Более того, COPPA - важный закон для защиты несовершеннолетних, пользующихся Интернетом. В связи с увеличением числа несовершеннолетних, взаимодействующих с устройствами для голосовых вычислений (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия ослабила правило COPAA, чтобы дети могли выполнять голосовой поиск и команды. ^[71]^[72]

Наконец, GDPR - это новый европейский закон, регулирующий право на забвение и многие другие положения для граждан ЕС. GDPR также ясно указывает на то, что компании должны изложить четкие меры для получения согласия на аудиозаписи, а также определить цель и объем того, как эти записи будут использоваться, например, в учебных целях. В соответствии с GDPR был повышен барьер для действительного согласия. Согласие должно быть добровольным, конкретным, информированным и недвусмысленным; молчаливого согласия уже недостаточно. ^[73]

Научные конференции [ править ]

Есть много исследовательских конференций, которые касаются голосовых вычислений. Некоторые из них включают:

Международная конференция по акустике, речи и обработке сигналов
Межречевой ^[74]
АВЭК ^[75]
IEEE Int'l Conf. по автоматическому распознаванию лиц и жестов ^[76]
ACII2019 8-я Международная конференция. об эффективных вычислениях и интеллектуальном взаимодействии ^[77]

Сообщество разработчиков [ править ]

По состоянию на январь 2018 года у Google Assistant было около 2000 действий ^[78].

По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. ^[79]

В июне 2017 года Google выпустил AudioSet ^[80] - крупномасштабную коллекцию 10-секундных аудиоклипов, помеченных людьми, взятых из видео на YouTube. Он содержит 1 010 480 видео файлов с человеческой речью или 2 793,5 часа в целом. ^[81] Он был выпущен в рамках конференции IEEE ICASSP 2017. ^[82]

В ноябре 2017 года Mozilla Foundation выпустила Common Voice Project, коллекцию речевых файлов, чтобы помочь внести свой вклад в более крупное сообщество машинного обучения с открытым исходным кодом. ^[83]^[84] Голосовой банк в настоящее время имеет размер 12 ГБ, с более чем 500 часами голосовых данных на английском языке, которые были собраны из 112 стран с момента запуска проекта в июне 2017 года. ^[85] Этот набор данных уже привел к творческим результатам. такие проекты, как модель DeepSpeech, модель транскрипции с открытым исходным кодом. ^[86]

См. Также [ править ]

Распознавание речи
Обработка естественного языка
Голосовой пользовательский интерфейс
Аудиокодек
Повсеместные вычисления
Вычисления без помощи рук

Ссылки [ править ]

^ Schwoebel, J. (2018). Введение в голосовые вычисления в Python. Бостон; Сиэтл, Атланта: лаборатории NeuroLex. https://neurolex.ai/voicebook
^ Хронология распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
^ FFmpeg. https://www.ffmpeg.org/
^ Наглость. https://www.audacityteam.org/
^ SoX. http://sox.sourceforge.net/
^ НЛТК. https://www.nltk.org/
^ LibROSA. https://librosa.github.io/librosa/
^ OpenSMILE. https://www.audeering.com/technology/opensmile/
^ «PocketSphinx - это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает на настольных компьютерах: Cmusphinx / Pocketsphinx» . 29 марта 2020.
^ Pyttsx3. https://github.com/nateshmbhat/pyttsx3
^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
^ Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
^ Кортана. https://www.microsoft.com/en-us/cortana
^ Amazon Alexa. https://developer.amazon.com/alexa
^ Сири. https://www.apple.com/siri/
^ Google Ассистент. https://assistant.google.com/#?modal_active=none
^ HomePod. https://www.apple.com/homepod/
^ Джаспер https://jasperproject.github.io/
↑ Нала. https://github.com/jim-schwoebel/nala
^ Голосовая служба Alexa. https://developer.amazon.com/alexa-voice-service
^ Кардиокуб. https://www.cardiocube.com/
^ Тоновая доска. https://toneboard.com/
^ Суки. https://www.suki.ai/
^ Praktice.ai. https://praktice.ai/
^ Корти. https://corti.ai/
^ Слог. https://www.syllable.ai/
^ Церебель. https://map.startuplithuania.lt/companies/cerebel
^ Voysis. https://voysis.com/
^ Миндори. http://mindori.com/
^ Twiggle. https://www.twiggle.com/
^ AddStructure. https://www.crunchbase.com/organization/addstructure
^ Kasisto. https://kasisto.com/
^ Персонетика. https://personetics.com/
^ Voxo. https://www.voxo.ai/
^ Активный интеллект. https://active.ai/
^ Предзнаменование. https://www.augury.com/
^ Kextil. http://www.kextil.com/
^ 3DSignals. https://www.3dsig.com/
^ Voxware. https://www.voxware.com/
^ Otosense. https://www.otosense.com/
^ Agvoice. https://agvoiceglobal.com/
^ Лирохвост. https://lyrebird.ai/
^ VocalD. https://vocalid.ai/
^ Пиндроп. https://www.pindrop.com/
^ Aimbrain. https://aimbrain.com/
^ Convirza. https://www.convirza.com/
^ Dialogtech. https://www.dialogtech.com/
^ Invoca. https://www.invoca.com/
^ Veritonic. https://veritonic.com/
^ Cogito. https://www.cogitocorp.com/
^ Афинити. https://www.afiniti.com/
^ Aaron.ai. https://aaron.ai/
^ Blueworx. https://www.blueworx.com/
^ Servo.ai. https://www.servo.ai/
^ Chatdesk. https://chatdesk.com/
^ SurveyLex. https://www.surveylex.com/
^ Голосовой взгляд. https://voiceglance.com/
^ Голосовая база. https://www.voicebase.com/
^ Speechmatics. https://www.speechmatics.com/
^ Capio. https://www.capio.ai/
^ Слюна. https://www.spitch.ch/
^ AWS. https://aws.amazon.com/
^ GCP. https://cloud.google.com/
^ IBM Watson. https://www.ibm.com/watson/
^ Microsoft Azure. https://azure.microsoft.com/en-us/
^ Bose колонки. https://www.bose.com/en_us/shop_all/speakers/speakers.html
^ Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html
^ Якорь. https://anchor.fm/
^ iTunes. https://www.apple.com/itunes/
^ Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
^ https://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and -использовать
^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
^ Interspeech 2018. http://interspeech2018.org/
^ AVEC 2018. http://avec2018.org/
^ 2018 FG. https://fg2018.cse.sc.edu/
^ ASCII 2019. http://acii-conf.org/2019/
^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .
^ Google AudioSet. https://research.google.com/audioset/
^ Данные аудиосистемы. https://research.google.com/audioset/dataset/speech.html
^ Gemmeke, JF, Ellis, DP, Фридман, Д. Янсен, А. Лоуренс, У. Мур, & Ritter, М. (2017, март). Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий. В области акустики, речи и обработки сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776-780). IEEE.
^ Общий голосовой проект. https://voice.mozilla.org/
^ Общий голосовой проект. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
^ Большое хранилище голосовых данных Mozilla будет определять будущее машинного обучения. https://opensource.com/article/18/4/common-voice
^ DeepSpeech. https://github.com/mozilla/DeepSpeech

[1] Schwoebel, J. (2018). Введение в голосовые вычисления в Python. Бостон; Сиэтл, Атланта: лаборатории NeuroLex. https://neurolex.ai/voicebook

[2] Хронология распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf

[3] Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/

[4] FFmpeg. https://www.ffmpeg.org/

[5] Наглость. https://www.audacityteam.org/

[6] SoX. http://sox.sourceforge.net/

[7] НЛТК. https://www.nltk.org/

[8] LibROSA. https://librosa.github.io/librosa/

[9] OpenSMILE. https://www.audeering.com/technology/opensmile/

[10] «PocketSphinx - это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает на настольных компьютерах: Cmusphinx / Pocketsphinx» . 29 марта 2020.

[11] Pyttsx3. https://github.com/nateshmbhat/pyttsx3

[12] Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/

[13] Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast

[14] Кортана. https://www.microsoft.com/en-us/cortana

[15] Amazon Alexa. https://developer.amazon.com/alexa

[16] Сири. https://www.apple.com/siri/

[17] Google Ассистент. https://assistant.google.com/#?modal_active=none

[18] HomePod. https://www.apple.com/homepod/

[19] Джаспер https://jasperproject.github.io/

[20] Нала. https://github.com/jim-schwoebel/nala

[21] Голосовая служба Alexa. https://developer.amazon.com/alexa-voice-service

[22] Кардиокуб. https://www.cardiocube.com/

[23] Тоновая доска. https://toneboard.com/

[24] Суки. https://www.suki.ai/

[25] Praktice.ai. https://praktice.ai/

[26] Корти. https://corti.ai/

[27] Слог. https://www.syllable.ai/

[28] Церебель. https://map.startuplithuania.lt/companies/cerebel

[29] Voysis. https://voysis.com/

[30] Миндори. http://mindori.com/

[31] Twiggle. https://www.twiggle.com/

[32] AddStructure. https://www.crunchbase.com/organization/addstructure

[33] Kasisto. https://kasisto.com/

[34] Персонетика. https://personetics.com/

[35] Voxo. https://www.voxo.ai/

[36] Активный интеллект. https://active.ai/

[37] Предзнаменование. https://www.augury.com/

[38] Kextil. http://www.kextil.com/

[39] 3DSignals. https://www.3dsig.com/

[40] Voxware. https://www.voxware.com/

[41] Otosense. https://www.otosense.com/

[42] Agvoice. https://agvoiceglobal.com/

[43] Лирохвост. https://lyrebird.ai/

[44] VocalD. https://vocalid.ai/

[45] Пиндроп. https://www.pindrop.com/

[46] Aimbrain. https://aimbrain.com/

[47] Convirza. https://www.convirza.com/

[48] Dialogtech. https://www.dialogtech.com/

[49] Invoca. https://www.invoca.com/

[50] Veritonic. https://veritonic.com/

[51] Cogito. https://www.cogitocorp.com/

[52] Афинити. https://www.afiniti.com/

[53] Aaron.ai. https://aaron.ai/

[54] Blueworx. https://www.blueworx.com/

[55] Servo.ai. https://www.servo.ai/

[56] Chatdesk. https://chatdesk.com/

[57] SurveyLex. https://www.surveylex.com/

[58] Голосовой взгляд. https://voiceglance.com/

[59] Голосовая база. https://www.voicebase.com/

[60] Speechmatics. https://www.speechmatics.com/

[61] Capio. https://www.capio.ai/

[62] Слюна. https://www.spitch.ch/

[63] AWS. https://aws.amazon.com/

[64] GCP. https://cloud.google.com/

[65] IBM Watson. https://www.ibm.com/watson/

[66] Microsoft Azure. https://azure.microsoft.com/en-us/

[67] Bose колонки. https://www.bose.com/en_us/shop_all/speakers/speakers.html

[68] Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html

[69] Якорь. https://anchor.fm/

[70] Tunes. https://www.apple.com/itunes/

[71] Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/

[72] ttps://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and -использовать

[73] IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/

[74] Interspeech 2018. http://interspeech2018.org/

[75] AVEC 2018. http://avec2018.org/

[76] 2018 FG. https://fg2018.cse.sc.edu/

[77] ASCII 2019. http://acii-conf.org/2019/

[78] Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/

[79] Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .

[80] Google AudioSet. https://research.google.com/audioset/

[81] Данные аудиосистемы. https://research.google.com/audioset/dataset/speech.html

[82] Gemmeke, JF, Ellis, DP, Фридман, Д. Янсен, А. Лоуренс, У. Мур, & Ritter, М. (2017, март). Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий. В области акустики, речи и обработки сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776-780). IEEE.

[83] Общий голосовой проект. https://voice.mozilla.org/

[84] Общий голосовой проект. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/

[85] Большое хранилище голосовых данных Mozilla будет определять будущее машинного обучения. https://opensource.com/article/18/4/common-voice

[86] DeepSpeech. https://github.com/mozilla/DeepSpeech

[1]