Диалог система , или разговорная агент ( СА ), представляет собой компьютерную система , предназначенная для общения с человеком. Диалоговые системы использовали один или несколько из текста, речи, графики, тактильных ощущений, жестов и других режимов для связи как по входному, так и по выходному каналу.
Элементы диалоговой системы не определены, потому что эта идея исследуется [ необходима цитата ] , однако они отличаются от чат-бота . [1] Типичный мастер графического интерфейса задействован в своего рода диалоге, но он включает в себя очень мало общих компонентов диалоговой системы, а состояние диалога тривиально.
Фон [ править ]
После диалоговых систем, основанных только на обработке письменных текстов, начиная с начала шестидесятых годов [2], первая диалоговая система с речью была выпущена проектом DARPA в США в 1977 году. [3] После завершения этого 5-летнего проекта некоторые европейцы проекты выпустили первую диалоговую систему, способную говорить на многих языках (также французском, немецком и итальянском). [4] Эти первые системы использовались в телекоммуникационной отрасли для предоставления различных телефонных услуг в определенных сферах, например, автоматизированного расписания и обслуживания столов для поездов.
Компоненты [ править ]
Какие наборы компонентов включены в диалоговую систему и как эти компоненты распределяют обязанности, различается от системы к системе. Принципиальным в любой диалоговой системе является диспетчер диалогов , который является компонентом, который управляет состоянием диалога и стратегией диалога. Типичный цикл действий в диалоговой системе состоит из следующих этапов: [5]
- Пользователь говорит, и ввод преобразуется в обычный текст распознавателем / декодером ввода системы , который может включать:
- Текст анализируется блоком понимания естественного языка (NLU), который может включать:
- Идентификация собственного имени
- часть речевого тегирования
- Синтаксический / семантический парсер
- Семантическая информация анализируется диспетчером диалогов , который хранит историю и состояние диалога и управляет общим потоком разговора.
- Обычно диспетчер диалогов связывается с одним или несколькими диспетчерами задач , которые знают конкретный домен задачи.
- Диспетчер диалогов производит вывод с помощью генератора вывода , который может включать:
- Наконец, вывод визуализируется с помощью средства визуализации вывода , которое может включать:
Диалоговые системы, основанные на текстовом интерфейсе (например, текстовый чат), содержат только этапы 2–5.
Типы систем [ править ]
Диалоговые системы делятся на следующие категории, которые перечислены здесь по нескольким параметрам. Многие категории пересекаются, и различия не могут быть четко установлены.
- по модальности
- по устройству
- телефонные системы
- Системы КПК
- автомобильные системы
- робототехнические системы
- настольные системы / портативные компьютеры
- родной
- в браузерных системах
- in- виртуальная машина
- в виртуальной среде
- роботы
- по стилю
- командный
- меню управляемого общества
- естественный язык
- речь граффити
- по инициативе
- системная инициатива
- инициатива пользователей
- смешанная инициатива
Системы естественного диалога [ править ]
Этот раздел может придавать чрезмерный вес определенным идеям, инцидентам или противоречиям . Пожалуйста, помогите создать более сбалансированную презентацию . Обсудите и устраните эту проблему, прежде чем удалять это сообщение. (Май 2017 г.) |
«Естественная диалоговая система - это форма диалоговой системы, которая пытается повысить удобство использования и удовлетворенность пользователей, имитируя человеческое поведение» [6] (Berg, 2014). В нем рассматриваются особенности диалога между людьми (например, субдиалоги и смена темы) и направлена на их интеграцию в диалоговые системы для взаимодействия человека с машиной. Часто (речевые) диалоговые системы требуют, чтобы пользователь адаптировался к системе, потому что система способна понимать только очень ограниченный словарный запас, не может реагировать на изменение темы и не позволяет пользователю влиять на поток диалога. Смешанная инициатива - это способ дать пользователю возможность активно участвовать в диалоге, а не только отвечать на вопросы.. Однако простого существования смешанной инициативы недостаточно для того, чтобы классифицировать ее как систему естественного диалога. Другие важные аспекты включают: [6]
- Адаптивность системы
- Поддержка неявного подтверждения
- Использование проверочных вопросов
- Возможности исправления уже предоставленной информации
- Излишняя информативность (дайте больше информации, чем просили)
- Поддержка отрицания
- Понять ссылки, анализируя дискурс и анафору
- Генерация естественного языка для предотвращения однообразных и повторяющихся запросов
- Адаптивная формулировка с учетом ситуации
- Социальное поведение (приветствия, такой же уровень формальности, что и пользователь, вежливость)
- Качество распознавания и синтеза речи
Хотя большинство из этих аспектов являются вопросами многих различных исследовательских проектов, не хватает инструментов, поддерживающих разработку диалоговых систем, решающих эти темы. [7] За исключением VoiceXML, который ориентирован на интерактивные системы голосового ответа и является основой для многих систем голосового диалога в отрасли (приложения поддержки клиентов), и AIML, который известен благодаря чат-боту ALICE , ни один из них не объединяет лингвистические функции, такие как диалоги или язык. поколение. Таким образом, NADIA (исследовательский прототип) дает представление о том, как восполнить этот пробел, и сочетает в себе некоторые из вышеупомянутых аспектов, таких как создание естественного языка, адаптивная формулировка и субдиалоги.
Производительность [ править ]
Некоторые авторы измеряют производительность диалоговой системы с точки зрения процента полностью правильных предложений, сравнивая модель предложений (эта мера называется « Точность концептуальных предложений» [8] или « Понимание предложений» [4] ).
Приложения [ править ]
Диалоговые системы могут поддерживать широкий спектр приложений на предприятиях, в образовании, правительстве, здравоохранении и развлечениях. [9] Например:
- Ответы на вопросы клиентов о продуктах и услугах через веб-сайт компании или интранет-портал.
- База знаний агента по обслуживанию клиентов : позволяет агентам вводить вопрос клиента и направлять его с ответом.
- Управляемые продажи : облегчение транзакций путем предоставления ответов и рекомендаций в процессе продаж, особенно для сложных продуктов, продаваемых начинающим покупателям.
- Служба поддержки : ответы на внутренние вопросы сотрудников, например, ответы на вопросы отдела кадров.
- Навигация по веб-сайту: направление клиентов к релевантным частям сложных веб-сайтов - консьерж веб-сайта.
- Техническая поддержка: реагирование на технические проблемы, например, диагностика проблемы с продуктом или устройством.
- Персонализированное обслуживание: переговорные агенты могут использовать внутренние и внешние базы данных для персонализации взаимодействий, таких как ответы на вопросы об остатках на счетах, предоставление информации о портфеле, предоставление, например, информации о часто летающих пассажирах или членстве.
- Обучение или образование: они могут давать советы по решению проблем, пока пользователь учится
- Простые диалоговые системы широко используются для снижения нагрузки на человека в центрах обработки вызовов . В этом и других приложениях промышленной телефонии функциональные возможности, предоставляемые диалоговыми системами, известны как интерактивный голосовой ответ или IVR.
В некоторых случаях разговорные агенты могут взаимодействовать с пользователями, используя искусственные символы. Затем эти агенты называются воплощенными агентами .
Наборы инструментов и архитектуры [ править ]
Обзор текущих фреймворков, языков и технологий для определения диалоговых систем.
Имя и ссылки | Тип системы | Описание | Принадлежность [а] | Окружающая среда [ы] | Комментарии |
---|---|---|---|---|---|
AIML | Язык чаттербота | Диалект XML для создания программных агентов на естественном языке | Ричард Уоллес, Pandorabots, Inc. | ||
ChatScript | Язык чаттербота | Язык / Движок для создания программных агентов на естественном языке | Брюс Уилкокс | ||
Инструментарий CSLU | среда прототипирования речевого интерфейса на основе состояний | Школа науки и инженерии OGI М. МакТир Рон Коул | публикации с 1999 г. | ||
Сервер NLUI | Набор инструментов, не зависящий от предметной области | полная многоязычная структура для создания систем пользовательского интерфейса на естественном языке | LinguaSys | встроенная поддержка диалогов со смешанной инициативой | |
Олимп | полная структура для реализации систем голосового диалога | Университет Карнеги Меллон | [1] | ||
Nextnova | Мультимодальная платформа | Платформа для разработки мультимодальных программных приложений. На основе диаграммы состояний XML (SCXML) | Ponvia Technology, Inc. | ||
VXML Голосовой XML | Разговорный диалог | язык разметки мультимодальных диалогов | первоначально разработан AT&T, затем администрируется отраслевым консорциумом и, наконец, спецификацией W3C. | Пример | в первую очередь для телефонии. |
СОЛЬ | язык разметки | язык разметки мультимодальных диалогов | Microsoft | «не достиг уровня зрелости VoiceXML в процессе стандартизации». | |
Quack.com - QXML | Среда разработки | компания куплена AOL | |||
OpenDial | Набор инструментов, не зависящий от предметной области | гибридная символьная / статистическая структура для речевых диалоговых систем, реализованная на Java | Университет Осло | ||
НАДЯ | механизм диалога и моделирование диалогов | Создание естественных диалогов / диалоговых систем. Поддерживает диалоговые действия, смешанную инициативу, NLG. Реализовано на Java. | Маркус М. Берг | создавать диалоговые файлы на основе XML, нет необходимости указывать грамматику, публикации с 2014 года |
См. Также [ править ]
- Избегание звонка
Ссылки [ править ]
- ^ Klüwer, Тина. «От чат-ботов до диалоговых систем». Разговорные агенты и взаимодействие на естественном языке: методы и эффективные практики. IGI Global, 2011. 1-22.
- ^ МакТир, Майкл, Зорайда Каллехас и Дэвид Гриоль, Разговорный интерфейс: разговор со смарт-устройствами , Springer, 2016.
- ^ Джанкарло Пирани (редактор), Расширенные алгоритмы и архитектуры для понимания речи , Vol. 1. Springer Science & Business Media, 2013.
- ^ a b Альберто Чарамелла, Отчет об оценке работы прототипа , Рабочий пакет солнечных часов 8000 (1993).
- ^ Jurafsky & Martin (2009), речь и язык. Pearson International Edition, ISBN 978-0-13-504196-3 , глава 24
- ^ a b Берг, Маркус М. (2014), Моделирование естественных диалогов в контексте речевой информации и систем управления , Akademische Verlagsgesellschaft AKA, ISBN 978-3-89838-508-4
- ^ Берг, Markus M. (2015), "Nadia: Упрощенный подход к развитию природных систем диалога", Natural Language Processing и информационные системы , Lecture Notes в области компьютерных наук, 9103 , стр 144-150,. DOI : 10.1007 / 978-3-319-19581-0_12 , ISBN 978-3-319-19580-3
- ↑ Бангалор, Шринивас и Майкл Джонстон. «Устойчивое понимание мультимодальных интерфейсов». Компьютерная лингвистика 35.3 (2009): 345-397.
- ^ Лестер, Дж .; Branting, K .; Мотт, Б. (2004), «Разговорные агенты» (PDF) , Практическое руководство по Интернет-вычислениям , Chapman & Hall
Дальнейшее чтение [ править ]
- Уилл, Томас (2007). Создание динамического речевого диалога . VDM Verlag Dr. Müller . ISBN 978-3-8364-4990-8.