Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Amazon Echo , пример голосового компьютера

Голосовые вычисления - это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосового ввода. [1]

Она охватывает многие другие области , включая взаимодействие человека с компьютером , разговорными вычисления , лингвистики , обработки естественного языка , автоматическое распознавание речи , синтез речи , аудио технику , цифровой обработкой сигналов , облачные вычислениями , науки данных , этики , права и информационной безопасность .

Голос вычисления становятся все более значимыми в наше время, особенно в связи с появлением умных колонок , как Amazon Echo и Google Assistant , сдвиг в стороне бессерверных вычислений , а также улучшение точности распознавания речи и преобразование текста в речь моделей.

История [ править ]

Голосовые вычисления имеют богатую историю. [2] Во-первых, такие ученые, как Вольфганг Кемпелен, начали создавать речевые машины для создания самых первых синтетических звуков речи. Это привело к тому, что Томас Эдисон продолжил работу по записи звука с помощью диктофонов и воспроизведению его в корпоративных условиях. В 1950-1960-х годах были примитивные попытки создания автоматизированных систем распознавания речи Bell Labs , IBM и другими. Однако только в 1980-х годах, когда скрытые марковские модели использовались для распознавания до 1000 слов, системы распознавания речи стали актуальными.

Примерно в 2011 году Siri появилась на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому переходу к созданию архитектур с приоритетом голосовых вычислений. PS4 была выпущена Sony в Северной Америке в 2013 году (70+ миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (30+ миллионов устройств), Microsoft выпустила Cortana (2015 - 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 - 2 миллиарда активных пользователей в месяц на телефонах Android), и Apple выпустила HomePod (2018 год - продано 500000 устройств и 1 миллиард активных устройств с iOS / Siri). Эти сдвиги вместе с достижениями в облачной инфраструктуре (например,Amazon Web Services ) и кодеки укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой публики.

Оборудование [ править ]

Голос компьютер собран аппаратное и программное обеспечение для обработки голосового ввода.

Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как в традиционном Amazon Echo . В других вариантах осуществления в качестве голосовых компьютеров можно использовать традиционные портативные компьютеры или мобильные телефоны . Более того, с появлением устройств с поддержкой IoT , например, в автомобилях или телевизорах, становится все больше интерфейсов для голосовых компьютеров .

По состоянию на сентябрь 2018 года в настоящее время существует более 20000 типов устройств, совместимых с Amazon Alexa. [3]

Программное обеспечение [ править ]

Программное обеспечение для голосовых вычислений может читать / писать, записывать, очищать, шифровать / дешифровать, воспроизводить, перекодировать, расшифровывать, сжимать, публиковать, изменять характеристики, моделировать и визуализировать голосовые файлы.

Вот несколько популярных программных пакетов, связанных с голосовыми вычислениями:

Приложения [ править ]

Приложения для голосовых вычислений охватывают многие отрасли, включая голосовые помощники, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, набор персонала, облачные вычисления, микрофоны, динамики и подкастинг. Прогнозируется, что к 2025 году голосовые технологии будут расти в среднем на 19-25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. [13]

Юридические соображения [ править ]

В Соединенных Штатах в штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах законно записывать разговор с согласия только одной стороны, в других требуется согласие всех сторон.

Более того, COPPA - важный закон для защиты несовершеннолетних, пользующихся Интернетом. В связи с увеличением числа несовершеннолетних, взаимодействующих с устройствами для голосовых вычислений (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия ослабила правило COPAA, чтобы дети могли выполнять голосовой поиск и команды. [71] [72]

Наконец, GDPR - это новый европейский закон, регулирующий право на забвение и многие другие положения для граждан ЕС. GDPR также ясно указывает на то, что компании должны изложить четкие меры для получения согласия на аудиозаписи, а также определить цель и объем того, как эти записи будут использоваться, например, в учебных целях. В соответствии с GDPR был повышен барьер для действительного согласия. Согласие должно быть добровольным, конкретным, информированным и недвусмысленным; молчаливого согласия уже недостаточно. [73]

Научные конференции [ править ]

Есть много исследовательских конференций, которые касаются голосовых вычислений. Некоторые из них включают:

  • Международная конференция по акустике, речи и обработке сигналов
  • Межречевой [74]
  • АВЭК [75]
  • IEEE Int'l Conf. по автоматическому распознаванию лиц и жестов [76]
  • ACII2019 8-я Международная конференция. об эффективных вычислениях и интеллектуальном взаимодействии [77]

Сообщество разработчиков [ править ]

По состоянию на январь 2018 года у Google Assistant было около 2000 действий [78].

По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. [79]

В июне 2017 года Google выпустил AudioSet [80] - крупномасштабную коллекцию 10-секундных аудиоклипов, помеченных людьми, взятых из видео на YouTube. Он содержит 1 010 480 видео файлов с человеческой речью или 2 793,5 часа в целом. [81] Он был выпущен в рамках конференции IEEE ICASSP 2017. [82]

В ноябре 2017 года Mozilla Foundation выпустила Common Voice Project, коллекцию речевых файлов, чтобы помочь внести свой вклад в более крупное сообщество машинного обучения с открытым исходным кодом. [83] [84] Голосовой банк в настоящее время имеет размер 12 ГБ, с более чем 500 часами голосовых данных на английском языке, которые были собраны из 112 стран с момента запуска проекта в июне 2017 года. [85] Этот набор данных уже привел к творческим результатам. такие проекты, как модель DeepSpeech, модель транскрипции с открытым исходным кодом. [86]

См. Также [ править ]

  • Распознавание речи
  • Обработка естественного языка
  • Голосовой пользовательский интерфейс
  • Аудиокодек
  • Повсеместные вычисления
  • Вычисления без помощи рук

Ссылки [ править ]

  1. ^ Schwoebel, J. (2018). Введение в голосовые вычисления в Python. Бостон; Сиэтл, Атланта: лаборатории NeuroLex. https://neurolex.ai/voicebook
  2. ^ Хронология распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
  3. ^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
  4. ^ FFmpeg. https://www.ffmpeg.org/
  5. ^ Наглость. https://www.audacityteam.org/
  6. ^ SoX. http://sox.sourceforge.net/
  7. ^ НЛТК. https://www.nltk.org/
  8. ^ LibROSA. https://librosa.github.io/librosa/
  9. ^ OpenSMILE. https://www.audeering.com/technology/opensmile/
  10. ^ «PocketSphinx - это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает на настольных компьютерах: Cmusphinx / Pocketsphinx» . 29 марта 2020.
  11. ^ Pyttsx3. https://github.com/nateshmbhat/pyttsx3
  12. ^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
  13. ^ Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
  14. ^ Кортана. https://www.microsoft.com/en-us/cortana
  15. ^ Amazon Alexa. https://developer.amazon.com/alexa
  16. ^ Сири. https://www.apple.com/siri/
  17. ^ Google Ассистент. https://assistant.google.com/#?modal_active=none
  18. ^ HomePod. https://www.apple.com/homepod/
  19. ^ Джаспер https://jasperproject.github.io/
  20. Нала. https://github.com/jim-schwoebel/nala
  21. ^ Голосовая служба Alexa. https://developer.amazon.com/alexa-voice-service
  22. ^ Кардиокуб. https://www.cardiocube.com/
  23. ^ Тоновая доска. https://toneboard.com/
  24. ^ Суки. https://www.suki.ai/
  25. ^ Praktice.ai. https://praktice.ai/
  26. ^ Корти. https://corti.ai/
  27. ^ Слог. https://www.syllable.ai/
  28. ^ Церебель. https://map.startuplithuania.lt/companies/cerebel
  29. ^ Voysis. https://voysis.com/
  30. ^ Миндори. http://mindori.com/
  31. ^ Twiggle. https://www.twiggle.com/
  32. ^ AddStructure. https://www.crunchbase.com/organization/addstructure
  33. ^ Kasisto. https://kasisto.com/
  34. ^ Персонетика. https://personetics.com/
  35. ^ Voxo. https://www.voxo.ai/
  36. ^ Активный интеллект. https://active.ai/
  37. ^ Предзнаменование. https://www.augury.com/
  38. ^ Kextil. http://www.kextil.com/
  39. ^ 3DSignals. https://www.3dsig.com/
  40. ^ Voxware. https://www.voxware.com/
  41. ^ Otosense. https://www.otosense.com/
  42. ^ Agvoice. https://agvoiceglobal.com/
  43. ^ Лирохвост. https://lyrebird.ai/
  44. ^ VocalD. https://vocalid.ai/
  45. ^ Пиндроп. https://www.pindrop.com/
  46. ^ Aimbrain. https://aimbrain.com/
  47. ^ Convirza. https://www.convirza.com/
  48. ^ Dialogtech. https://www.dialogtech.com/
  49. ^ Invoca. https://www.invoca.com/
  50. ^ Veritonic. https://veritonic.com/
  51. ^ Cogito. https://www.cogitocorp.com/
  52. ^ Афинити. https://www.afiniti.com/
  53. ^ Aaron.ai. https://aaron.ai/
  54. ^ Blueworx. https://www.blueworx.com/
  55. ^ Servo.ai. https://www.servo.ai/
  56. ^ Chatdesk. https://chatdesk.com/
  57. ^ SurveyLex. https://www.surveylex.com/
  58. ^ Голосовой взгляд. https://voiceglance.com/
  59. ^ Голосовая база. https://www.voicebase.com/
  60. ^ Speechmatics. https://www.speechmatics.com/
  61. ^ Capio. https://www.capio.ai/
  62. ^ Слюна. https://www.spitch.ch/
  63. ^ AWS. https://aws.amazon.com/
  64. ^ GCP. https://cloud.google.com/
  65. ^ IBM Watson. https://www.ibm.com/watson/
  66. ^ Microsoft Azure. https://azure.microsoft.com/en-us/
  67. ^ Bose колонки. https://www.bose.com/en_us/shop_all/speakers/speakers.html
  68. ^ Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html
  69. ^ Якорь. https://anchor.fm/
  70. ^ iTunes. https://www.apple.com/itunes/
  71. ^ Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
  72. ^ https://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and -использовать
  73. ^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
  74. ^ Interspeech 2018. http://interspeech2018.org/
  75. ^ AVEC 2018. http://avec2018.org/
  76. ^ 2018 FG. https://fg2018.cse.sc.edu/
  77. ^ ASCII 2019. http://acii-conf.org/2019/
  78. ^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
  79. ^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .
  80. ^ Google AudioSet. https://research.google.com/audioset/
  81. ^ Данные аудиосистемы. https://research.google.com/audioset/dataset/speech.html
  82. ^ Gemmeke, JF, Ellis, DP, Фридман, Д. Янсен, А. Лоуренс, У. Мур, & Ritter, М. (2017, март). Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий. В области акустики, речи и обработки сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776-780). IEEE.
  83. ^ Общий голосовой проект. https://voice.mozilla.org/
  84. ^ Общий голосовой проект. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
  85. ^ Большое хранилище голосовых данных Mozilla будет определять будущее машинного обучения. https://opensource.com/article/18/4/common-voice
  86. ^ DeepSpeech. https://github.com/mozilla/DeepSpeech