Послушайте эту статью
Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

VoiceXML ( VXML ) - это стандарт цифровых документов для определения интерактивных мультимедийных и голосовых диалогов между людьми и компьютерами. Он используется для разработки приложений аудио и голосового ответа, таких как банковские системы и автоматизированные порталы обслуживания клиентов. Приложения VoiceXML разрабатываются и развертываются аналогично тому, как веб-браузер интерпретирует и визуально отображает язык гипертекстовой разметки (HTML), который он получает от веб-сервера . Документы VoiceXML интерпретируются голосовым браузером, и в общих архитектурах развертывания пользователи взаимодействуют с голосовыми браузерами через коммутируемую телефонную сеть общего пользования (PSTN).

Формат документа VoiceXML основан на расширяемом языке разметки (XML). Это стандарт, разработанный Консорциумом World Wide Web (W3C).

Использование [ править ]

Приложения VoiceXML обычно используются во многих отраслях и сегментах торговли. Эти приложения включают в себя запрос заказа, отслеживание посылок, маршруты проезда, уведомление о чрезвычайных ситуациях, пробуждение, отслеживание рейсов, голосовой доступ к электронной почте, управление взаимоотношениями с клиентами, пополнение рецептов, журналы аудио новостей, голосовой набор, информацию о недвижимости и приложения для поддержки национальных справочников. . [ необходима цитата ]

VoiceXML имеет теги, которые инструктируют голосовой браузер обеспечивать синтез речи , автоматическое распознавание речи , управление диалогами и воспроизведение звука. Ниже приведен пример документа VoiceXML:

<vxml  version = "2.0"  xmlns = "http://www.w3.org/2001/vxml" >  <form>  <block>  <prompt> Привет мир! </prompt>  </block>  </form> </vxml>

При интерпретации интерпретатором VoiceXML это приведет к выводу «Hello world» с синтезированной речью.

Обычно HTTP используется в качестве транспортного протокола для выборки страниц VoiceXML. Некоторые приложения могут использовать статические страницы VoiceXML, в то время как другие полагаются на создание динамических страниц VoiceXML с помощью сервера приложений, такого как Tomcat , Weblogic , IIS или WebSphere .

Исторически сложилось так, что поставщики платформы VoiceXML реализовывали стандарт по-разному и добавляли проприетарные функции. Но стандарт VoiceXML 2.0, принятый в качестве Рекомендации W3C 16 марта 2004 г., прояснил большинство различий. VoiceXML Forum, отраслевая группа, продвигающая использование стандарта, обеспечивает процесс тестирования на соответствие, который удостоверяет, что реализации поставщиков соответствуют требованиям.

История [ править ]

Корпорация AT&T , IBM , Lucent и Motorola сформировали Форум VoiceXML в марте 1999 года с целью разработки стандартного языка разметки для определения голосовых диалогов. К сентябрю 1999 года Форум выпустил VoiceXML 0.9 для комментариев участников, а в марте 2000 года они опубликовали VoiceXML 1.0. Вскоре после этого Форум передал контроль над стандартом W3C. [1] W3C выпустил несколько промежуточных версий VoiceXML 2.0, которые достигли финальной стадии «Рекомендации» в марте 2004 года. [2]

VoiceXML 2.1 добавил относительно небольшой набор дополнительных функций к VoiceXML 2.0, основанный на отзывах реализаций стандарта 2.0. Он обратно совместим с VoiceXML 2.0 и получил статус рекомендации W3C в июне 2007 г. [3]

Будущие версии стандарта [ править ]

VoiceXML 3.0 станет следующим основным выпуском VoiceXML с новыми основными функциями. Он включает новый язык описания диаграмм состояний XML, называемый SCXML .

Связанные стандарты [ править ]

Структура речевого интерфейса W3C также определяет эти другие стандарты, тесно связанные с VoiceXML.

SRGS и SISR [ править ]

Признание Грамматика Спецификация речи (SRGS) используется , чтобы сказать , что распознаватель речи Речевые модели следует ожидать услышать: эти модели называются грамматик. Как только распознаватель речи определит наиболее вероятное предложение, которое он услышал, ему необходимо извлечь семантическое значение из этого предложения и вернуть его интерпретатору VoiceXML. Эта семантическая интерпретация определяется стандартом « Семантическая интерпретация для распознавания речи» (SISR). SISR используется внутри SRGS для определения семантических результатов, связанных с грамматиками, т. Е. Набора назначений ECMAScript, которые создают семантическую структуру, возвращаемую распознавателем речи.

SSML [ править ]

Язык разметки синтеза речи (SSML) используется для украшения текстовых подсказок информацией о том, как лучше всего их преобразовать в синтетическую речь, например, какой голос синтезатора речи использовать или когда говорить громче или тише.

PLS [ редактировать ]

Lexicon Спецификация Произношение (PLS) используется для определения , как слова произносятся. Сгенерированная информация о произношении предназначена для использования как распознавателями речи, так и синтезаторами речи в приложениях для просмотра голоса.

CCXML [ править ]

Управления вызовами расширяемого языка разметки (CCXML) является дополнительным стандартом W3C. Интерпретатор CCXML используется на некоторых платформах VoiceXML для обработки первоначальной установки вызова между вызывающим абонентом и голосовым браузером, а также для предоставления услуг телефонии, таких как перевод вызова и отключение от голосового браузера. CCXML также можно использовать в контекстах, отличных от VoiceXML.

MSML, MSCML, MediaCTRL [ править ]

В приложениях медиа-сервера часто бывает необходимо, чтобы несколько ветвей вызова взаимодействовали друг с другом, например, в многосторонней конференции. В VoiceXML для этого приложения были выявлены некоторые недостатки, поэтому компании разработали специальные языки сценариев для работы с этой средой. Язык разметки медиа-сервера (MSML) был решением Convedia, а язык разметки управления медиа-сервером (MSCML) был решением Snowshore. Snowshore теперь принадлежит Dialogic, а Convedia теперь принадлежит Radisys. Эти языки также содержат «перехватчики», чтобы внешние сценарии (например, VoiceXML) могли выполняться на этапах вызова, где требуется функциональность IVR .

Была рабочая группа IETF под названием mediactrl («управление мультимедиа»), которая работала над преемником этих систем сценариев, который, как ожидается, будет развиваться до открытого и широко принятого стандарта. [4] Рабочая группа mediactrl завершила свою работу в 2013 году. [5]

См. Также [ править ]

  • ECMAScript  - язык сценариев, используемый в VoiceXML
  • OpenVXI  - библиотека интерпретатора VoiceXML с открытым исходным кодом [6]
  • SCXML  - XML ​​диаграммы состояний

Ссылки [ править ]

  1. ^ «Введение - VoiceXML» . Voicexml.org . Проверено 23 февраля 2017 .
  2. ^ Schwartz, Ефрем (2004-03-17). «W3C рекомендует VoiceXML 2.0» . InfoWorld . Проверено 23 февраля 2017 .
  3. ^ «Расширяемый язык разметки голоса (VoiceXML) 2.1» . W3.org . Проверено 23 февраля 2017 .
  4. ^ "Управление медиа-сервером (mediactrl)" . Архивировано из оригинала на 2009-01-30 . Проверено 18 января 2009 .
  5. ^ https://datatracker.ietf.org/wg/mediactrl/history/
  6. ^ "OpenVXI" . voip-info.org . 2018-07-31 . Проверено 3 июня 2019 .

Внешние ссылки [ править ]

Послушайте эту статью ( 9 минут )
Разговорный значок Википедии
Этот аудиофайл был создан на основе редакции этой статьи от 29 октября 2011 г. и не отражает последующих правок. ( 2011-10-29 )
  • Рабочая группа голосового браузера W3C , официальные стандарты VoiceXML
  • Форум VoiceXML , владелец товарного знака VoiceXML
  • VoiceXML в Curlie
  • VoiceXML учебники