Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Говорят диалоговая система представляет собой компьютерную систему , способную разговаривать с человеком с голосом. Она состоит из двух основных компонентов , которые не существуют в письменном тексте диалоговой системы : а средство распознавания речи и преобразования текста в речь модуль (диалоговые системы письменного текста , как правило , используют другие системы ввода , предоставляемые ОС). Кроме того, его можно отличить от речевых систем управления и контроля, которые могут отвечать на запросы, но не пытаются поддерживать непрерывность во времени.

Компоненты [ править ]

  • Автоматический распознаватель речи (ASR) преобразует речь в текст. Распознаватели, зависящие от домена, можно настроить для языка, разработанного для данного приложения. «Облачный» распознаватель подойдет для доменов, не зависящих от очень специфических словарей.
  • Понимание естественного языка превращает распознавание в концептуальную структуру, которая может управлять поведением системы. Некоторые подходы будут сочетать распознавание и обработку понимания, но считаются менее гибкими, поскольку интерпретация должна быть закодирована в грамматике.
  • В окне диспетчера управления от поворота к повороту поведения. Простая диалоговая система может задавать пользователю вопросы, а затем действовать в соответствии с ответом. Такие направленные диалоговые системы используют древовидную структуру для управления; Системы на основе фреймов (или форм) допускают некоторую инициативу пользователя и приспосабливают различные стили взаимодействия. Более сложные менеджеры диалогов включают механизмы для устранения недоразумений и разъяснений.
  • Разработчик домена, или, проще говоря, серверная часть, использует базу знаний для извлечения информации и помогает формулировать ответы системы. В простых системах это может быть база данных, запрашиваемая с использованием информации, собранной в диалоговом окне. Логик предметной области вместе с диспетчером диалогов поддерживает контекст взаимодействия и позволяет системе отражать некоторые разговорные способности человека (например, используя анафору).
  • Генерация ответов похожа на текстовую генерацию естественного языка , но учитывает потребности устного общения. Это может включать использование более простых грамматических конструкций, управление объемом информации в любом одном выходном высказывании и введение просодических маркеров, чтобы помочь участнику-человеку легче усваивать информацию. Полный дизайн системы также будет включать элементы лексического увлечения , чтобы побудить человека-пользователя отдавать предпочтение определенным способам речи, что, в свою очередь, может улучшить качество распознавания.
  • Синтез текста в речь (TTS) реализует предполагаемое высказывание как речь. В зависимости от приложения TTS может быть основан на объединении предварительно записанного материала, созданного профессионалами в области озвучивания. В более сложных приложениях TTS будет использовать более гибкие методы, учитывающие большие словари и позволяющие разработчику контролировать характер («индивидуальность») системы.

Разновидности систем [ править ]

Системы разговорного диалога различаются по сложности. Системы направленных диалогов очень просты и требуют, чтобы разработчик создал граф (обычно дерево), который управляет задачей, но может не соответствовать потребностям пользователя. Системы доступа к информации, обычно основанные на формах, предоставляют пользователям некоторую гибкость (например, в порядке, в котором указываются ограничения поиска или в использовании дополнительных ограничений), но ограничены в своих возможностях. Диалоговые системы для решения проблем могут позволить пользователям-людям участвовать в ряде различных действий, которые могут включать доступ к информации, построение плана и возможное выполнение последнего.

Некоторые примеры систем включают:

  • Доступ к информации: погода, расписание поездов, котировки акций, справочная информация.
  • Транзакционные: запросы по кредитной карте и банку; покупка билетов.
  • Техническое обслуживание: техническая поддержка, включая доступ к документации и диагностическое тестирование.
  • Репетиторство: для образования, например, по физике или математике, а также для изучения языков.
  • Развлечения и общение

История [ править ]

Пионерами в области диалоговых систем являются такие компании, как AT&T (с ее системой распознавания речи в семидесятые годы) и лаборатории CSELT , которые руководили некоторыми европейскими исследовательскими проектами в восьмидесятые годы (например, SUNDIAL) после завершения проекта DARPA в США.

Ссылки [ править ]

Область речевых диалоговых систем довольно велика и включает исследования (представленные на научных конференциях, таких как SIGdial и Interspeech ) и большой промышленный сектор (с собственными встречами, такими как SpeechTek и AVIOS ).


Следующее может дать хорошее техническое введение: