Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс обеспечивает несколько различных инструментов для ввода и вывода данных.
Вступление
Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных способов коммуникации» [1]. Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, обеспечивая взаимодействие пользователей с автоматизированными системами как на входе, так и на выходе. [2] В частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать с помощью методов ввода, таких как речь , почерк , жесты руки и взгляд , а также получать информацию от системы с помощью методов вывода, таких как синтез речи. , умная графика и другие возможности, удачно скомбинированные. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстными ограничениями [3] , чтобы позволить их интерпретацию. Этот процесс известен как мультимодальный синтез, и он является объектом нескольких исследований с девяностых годов до настоящего времени. [4] [5] [6] [7] [8] [9] [10] [11] Объединенные входы интерпретируются системой. Естественность и гибкость могут дать более одной интерпретации для каждой разной модальности (канала) и для их одновременного использования, и, следовательно, они могут вызвать многомодальную неоднозначность [12], как правило, из-за неточности, шумов или других подобных факторов. Для решения неоднозначностей было предложено несколько методов. [13] [14] [15] [16] [17] [18] Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (деление). [19] Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия представляет собой возможность. Фактически, облачные вычисления позволяют предоставлять общие масштабируемые, конфигурируемые вычислительные ресурсы, которые могут динамически и автоматически выделяться и высвобождаться». [20]
Мультимодальный ввод
Две основные группы мультимодальных интерфейсов объединились: одна связана с альтернативными методами ввода, а другая - с комбинированным вводом / выводом. Первая группа интерфейсов объединила в себе различные режимы пользовательского ввода помимо традиционного ввода / вывода с клавиатуры и мыши , такие как речь, перо, прикосновение, ручные жесты, [21] взгляд, движения головы и тела. [22] Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с речевой модальностью ( распознавание речи для ввода, синтез речи и записанный звук для вывода). Однако могут использоваться другие методы, такие как ввод с помощью пера или осязательный ввод / вывод. Мультимодальные пользовательские интерфейсы - это область исследований взаимодействия человека с компьютером (HCI).
Преимущество множественных модальностей ввода заключается в повышении удобства использования : слабые стороны одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Poughkeepsie ). Подумайте, как вы будете получать доступ и выполнять поиск в каталогах цифровых медиа с этих же устройств или телевизионных приставок. И в одном примере из реальной жизни члены хирургической бригады получают устный доступ к информации о пациенте в операционной, чтобы поддерживать антисептическую среду, и представляют почти в реальном времени на слух и визуально для максимального понимания.
Пользовательские интерфейсы мультимодального ввода влияют на доступность . [23] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с ослабленным зрением полагаются на голосовую модальность при вводе с клавиатуры. Пользователи с нарушением слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «неадекватно ситуативно» (например, носить перчатки в очень шумной обстановке, управлять автомобилем или вводить номер кредитной карты в общественном месте) и будут просто использовать соответствующие способы по своему усмотрению. С другой стороны, мультимодальное приложение, которое требует, чтобы пользователи могли работать со всеми модальностями, очень плохо спроектировано.
Наиболее распространенная на рынке форма мультимодальности ввода использует язык разметки веб-страниц XHTML + Voice (также известный как X + V), открытую спецификацию, разработанную IBM , Motorola и Opera Software . X + V в настоящее время рассматривается W3C и объединяет несколько Рекомендаций W3C, включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events , стандарт интеграции языков XML . Мультимодальные браузеры, поддерживающие X + V, включают мультимодальную среду IBM WebSphere Everyplace, Opera для встроенных Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений разработчики программного обеспечения могут использовать комплект средств разработки программного обеспечения , такой как IBM WebSphere Multimodal Toolkit, основанный на платформе Eclipse с открытым исходным кодом , которая включает отладчик X + V , редактор и симулятор . [ необходима цитата ]
Мультимодальный анализ тональности
Мультимодальный анализ тональности - это новое измерение [ термин павлина ] традиционного текстового анализа тональности , который выходит за рамки анализа текстов и включает другие методы, такие как аудио и визуальные данные. [24] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности. [25] Благодаря огромному количеству данных социальных сетей, доступных в Интернете в различных формах, таких как видео и изображения, обычный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений, [26] которые могут быть применены при разработке из виртуальных помощников , [27] анализ обзоров фильмов YouTube, [28] анализ новостных видео, [29] и распознавание эмоций (иногда известная как эмоции обнаружение) , такие как депрессия мониторинг, [30] среди других.
Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. [31] Сложность анализа текста, аудио и визуальных функций для выполнения такой задачи требует применения различных методов слияния, таких как уровень функций, уровень принятия решений и гибридное слияние. [26] Эффективность этих методов объединения и применяемых алгоритмов классификации зависит от типа текстовых, звуковых и визуальных характеристик, используемых в анализе. [32]Мультимодальный выход
Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, в первую очередь в форме визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной выходной системы включают синергию и избыточность. Информация, которая представлена несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей для обработки одной и той же информации обеспечивает увеличенную пропускную способность передачи информации. [33] [34] [35] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между коммуникационной средой и контентом и для поддержки управления вниманием в среде с большим количеством данных, где операторы сталкиваются со значительными требованиями визуального внимания. [36]
Важным шагом в дизайне мультимодального интерфейса является создание естественных сопоставлений между модальностями и информацией и задачами. Слуховой канал отличается от зрения по нескольким аспектам. Он всенаправлен, преходящ и всегда зарезервирован. [36] Речевой вывод, одна из форм слуховой информации, привлек значительное внимание. Было разработано несколько руководств по использованию речи. Михаэлис и Виггинс (1982) предложили использовать речевой вывод для простых коротких сообщений, о которых мы не будем говорить позже. Также было рекомендовано, чтобы речь была произведена вовремя и требовала немедленного ответа.
Чувство осязания было впервые использовано в качестве средства общения в конце 1950-х годов. [37] Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, осязание является ближайшим: оно ощущает объекты, контактирующие с телом, и является двунаправленным, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.
Примеры слуховой обратной связи включают звуковые значки в компьютерных операционных системах, указывающие действия пользователей (например, удаление файла, открытие папки, ошибку), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают вибрацию рычага указателя поворота, чтобы предупредить водителей о том, что автомобиль находится в их слепой зоне, вибрацию автокресла в качестве предупреждения для водителей и вибрацию ручки на современных самолетах, предупреждающую пилотов о надвигающемся сваливании. [36]
Невидимые интерфейсные пространства стали доступны с помощью сенсорной технологии. В настоящее время широко используются инфракрасный, ультразвуковой и камеры. [38] Прозрачность взаимодействия с контентом повышается, если имеется немедленная и прямая ссылка через осмысленное отображение, таким образом, у пользователя есть прямая и немедленная обратная связь на ввод, а ответ контента становится доступностью интерфейса (Гибсон, 1979).
Мультимодальный синтез
Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным объединением. [5] В литературе были предложены три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может выполняться слияние входных сигналов: на основе распознавания, [9] [10] [39] на основе решений, [7] [8] [11] [40] [41] [42] [43] и гибридное многоуровневое слияние. [4] [6] [44] [45] [46] [47] [48] [49]
Слияние на основе распознавания (также известное как раннее слияние) заключается в слиянии результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые марковские модели, искусственные нейронные сети и т. Д. Примеры Из основанных на распознавании стратегий слияния являются кадры действия, [39] входные векторы [9] и слоты. [10]
Слияние на основе решений (также известное как позднее слияние) объединяет семантическую информацию, которая извлекается с помощью определенных процедур слияния, управляемых диалогом, для получения полной интерпретации. Примерами стратегий слияния на основе решений являются типизированные структуры признаков, [40] [45] плавильные котлы, [42] [43] семантические фреймы [7] [11] и решетки с отметками времени. [8]
Потенциальные приложения для мультимодального слияния включают учебную среду, отношения с потребителями, безопасность / наблюдение, компьютерную анимацию и т. Д. По отдельности режимы легко определить, но возникают трудности с тем, чтобы технология считала их комбинированным слиянием. [50] Алгоритмам сложно учитывать размерность; существуют переменные, выходящие за рамки текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию. [50]
В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает следующие три методологии: преобразователи с конечным числом состояний, [45] мультимодальные грамматики [6] [44] [46] [47] [48] [49] [51] и диалоги. [52]
Двусмысленность
Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение [3] ), которые должны интерпретироваться системой. Мультимодальное сообщение - это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Это достигается путем объединения информации, которая передается через несколько модальностей, с учетом различных типов сотрудничества между несколькими модальностями [53], временных отношений [54] между задействованными модальностями и отношений между порциями информации, связанными с этими модальностями. [55]
Естественное отображение между мультимодальным входом, которое обеспечивается несколькими модальностями взаимодействия (визуальный и слуховой канал и осязание), и информацией и задачами, подразумевает управление типичными проблемами человеческого общения, такими как двусмысленность. Неоднозначность возникает, когда возможна более чем одна интерпретация ввода. Мультимодальная неоднозначность [12] возникает как в том случае, если элемент, который обеспечивается одной модальностью, имеет более одной интерпретации (т.е. неоднозначности распространяются на мультимодальном уровне), так и / или если элементы, связанные с каждой модальностью, интерпретируются однозначно. , но информация, относящаяся к разным модальностям, несогласованна на синтаксическом или семантическом уровне (т. е. мультимодальное предложение, имеющее разные значения или другую синтаксическую структуру).
В «Управлении неоднозначностями» [14] методы разрешения неоднозначностей и обеспечения правильной интерпретации ввода пользователя разделены на три основных класса: предотвращение, апостериорное разрешение и методы разрешения аппроксимации. [13] [15]
Методы предотвращения вынуждают пользователей следовать заранее определенному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примеры методов предотвращения: процедурный метод, [56] снижение выразительной силы языковой грамматики, [57] улучшение выразительной силы языковой грамматики. [58]
Апостериорное разрешение неоднозначности использует подход медиации. [16] Примерами методов посредничества являются: повторение, например, повторение по модальности, [16] степень детализации исправления [59] и отмены, [17] и выбор. [18]
Методы разрешения аппроксимации не требуют участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели . [13] [15]
Смотрите также
- Независимость от устройства
- Мультимодальная биометрическая система
- Мультимодальный поиск
- Распознавание речи
- W3C's Multimodal Interaction Activity - инициатива W3C, направленная на предоставление средств (в основном XML ) для поддержки сценариев мультимодального взаимодействия в сети.
- Веб-доступность
- Проводная перчатка
- XHTML + голос
Рекомендации
- ^ Bourguet, ML (2003). « Проектирование и прототипирование мультимодальных команд ». Труды взаимодействия человека и компьютера (INTERACT'03), стр. 717-720.
- ^ Стиверс, Т., Сиднелл, Дж. Введение: мультимодальное взаимодействие. Семиотика, 156 (1/4), стр. 1-20. 2005 г.
- ^ a b Caschera MC, Ферри Ф., Грифони П. (2007). « Мультимодальные системы взаимодействия: информационные и временные особенности ». Международный журнал веб- и грид-сервисов (IJWGS), Vol. 3 - Выпуск 1, стр 82-99.
- ^ a b Д'Улизия, А., Ферри, Ф. и Грифони, П. (2010). «Генерация мультимодальных грамматик для мультимодальной обработки диалогов». IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, No. 6, pp. 1130 - 1145.
- ^ а б Д'Улизия, А. (2009). « Изучение мультимодальных стратегий объединения входных данных ». В: Grifoni P (ed) Handbook of Research on Multimodal Human Computer Interaction and Pervasive Services: Evolutionary Techniques for Improving Accessibility. Издательство IGI, стр. 34-57.
- ^ a b c Сун, Ю., Ши, Ю., Чен, Ф. и Чанг, В. (2007). «Эффективный мультимодальный языковой процессор для параллельных входных строк в мультимодальном слиянии входных данных», в Proc. Международной конференции по семантическим вычислениям, стр. 389-396.
- ^ a b c Расс, Г., Салланс, Б., Харетер, Х. (2005). « Слияние семантической информации в мультимодальном интерфейсе ». Международная конференция по взаимодействию человека и компьютера (HCI'05), Лас-Вегас, Невада, США, 20–23 июня, стр. 94–100.
- ^ a b c Коррадини А., Мехта М., Бернсен, Н. О., Мартин, Ж.-К. (2003). «Мультимодальный ввод слияния во взаимодействии человека и компьютера на примере текущего проекта NICE». В материалах конференции NATO-ASI по объединению данных для мониторинга ситуации, обнаружения инцидентов, оповещения и реагирования, Ереван, Армения.
- ^ a b c Павлович, В.И., Берри, Г.А., Хуанг, Т.С. (1997). « Интеграция аудио / визуальной информации для использования в интеллектуальном взаимодействии человека и компьютера ». Труды Международной конференции по обработке изображений 1997 г. (ICIP '97), том 1, стр. 121–124.
- ^ a b c Андре М., Попеску В.Г., Шейх А., Медл А., Марсич И., Куликовски К., Фланаган Дж. Л. (1998). « Интеграция речи и жестов для мультимодального взаимодействия человека и компьютера ». На Второй Международной конференции по совместным мультимодальным коммуникациям. 28–30 января, Тилбург, Нидерланды.
- ^ a b c Во, MT, Вуд, К. (1996). « Создание инфраструктуры приложения для интеграции речи и перьевого ввода в интерфейсы мультимодального обучения ». In Proceedings of the Acoustics, Speech and Signal Processing (ICASSP'96), 7–10 мая, IEEE Computer Society, Volume 06, pp. 3545-3548.
- ^ a b Caschera, MC, Ферри, Ф., Грифони, П. (2013). « От модальных неоднозначностей к мультимодальным: подход к классификации », Журнал информационных технологий следующего поколения (JNIT), Vol. 4, No. 5, pp. 87-109.
- ^ a b c Caschera, MC, Ферри, Ф., Грифони, П. (2013). InteSe: интегрированная модель для разрешения неоднозначности в мультимодальных предложениях ". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz , G. (2000). «Обработка самокоррекций в системе преобразования речи в речь». COLING 2000. pp. 1116-1120.
- ^ a b Caschera MC, Ферри Ф., Грифони П. (2007). «Управление неоднозначностями». В визуальных языках для интерактивных вычислений: определения и формализации. Издательство IGI. С. 129-140.
- ^ a b c J. Chai, P. Hong, and MX Zhou, (2004). «Вероятностный подход к эталонному разрешению в мультимодальном пользовательском интерфейсе» в Proc. 9-е межд. Конф. Intell. User Interf., Мадейра, Португалия, январь 2004 г., стр. 70–77.
- ^ a b c Дей, А. К. Манкофф, Дж. (2005). « Проектирование посредничества для контекстно-зависимых приложений ». ACM Trans. Comput.-Hum. Взаимодействовать. 12 (1), стр. 53-80.
- ^ a b Спилкер, Дж., Кларнер, М., Гёрц, Г. (2000). «Обработка самокоррекций в речевой системе». COLING 2000. С. 1116-1120.
- ^ a b Манкофф, Дж., Хадсон, С. Е., Абоуд, Г. Д. (2000). « Обеспечение интегрированной поддержки на уровне набора инструментов для неоднозначности интерфейсов на основе распознавания ». Материалы конференции ACM CHI'00 по человеческому фактору в вычислительных системах. С. 368 - 375.
- ^ Grifoni P (2009) Мультимодальное деление. В: Мультимодальное взаимодействие человека с компьютером и повсеместные услуги. IGI Global, стр 103–120
- ^ Patrizia Grifoni, Фернандо Ферри, Мария Кьяра Caschera, Арианна D'Ulizia, Mauro Маццеи, "MIS: Мультимодальные Взаимодействие служб в перспективе облака", JNIT: журнал нового поколения информационных технологий, Vol. 5, No. 4, pp. 01–10, 2014 г.
- ^ Kettebekov, Sanshzar и Раджив Шарма (2001). « К естественному управлению жестами / речью на большом дисплее ». Труды EHCI '01 Труды 8-й Международной конференции ИФИП по проектированию взаимодействия человека и компьютера Страницы 221-234
- ^ Мариус Вассилиу, В. Сундаресваран, С. Чен, Р. Берингер, К. Там, М. Чан, П. Бангаян и Дж. МакГи (2000), «Интегрированный мультимодальный человеко-компьютерный интерфейс и дополненная реальность для приложений интерактивного дисплея. , "в Дарреле Г. Хоппере (ред.) Дисплеи кабины VII: Дисплеи для оборонных приложений (Proc. SPIE. 4022), 106-115. ISBN 0-8194-3648-8
- ^ Vitense, HS; Jacko, JA; Эмери, ВК (2002). «Мультимодальная обратная связь: установление базовых показателей для улучшения доступа людей с нарушениями зрения». ACM Conf. по вспомогательным технологиям .
- ^ Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений» . Вычисления изображений и зрения . 65 : 3–14. DOI : 10.1016 / j.imavis.2017.08.003 .
- ^ Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нур, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF) . Международный журнал по интеллектуальному зондированию и интеллектуальным системам . 1 : 137–159. DOI : 10,21307 / ijssis-2017-283 .
- ^ а б Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хуссейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от одномодального анализа к мультимодальному слиянию» . Информационный фьюжн . 37 : 98–125. DOI : 10.1016 / j.inffus.2017.02.003 . ЛВП : 1893/25490 .
- ^ «Google AI, чтобы звонить за вас» . BBC News . 8 мая 2018 . Проверено 12 июня 2018 .
- ^ Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьорн; Вс, конгкай; Сагаэ, Кендзи; Моренси, Луи-Филипп (май 2013 г.). «Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте». Интеллектуальные системы IEEE . 28 (3): 46–53. DOI : 10.1109 / MIS.2013.34 . S2CID 12789201 .
- ^ Перейра, Мойзес HR; Падуа, Флавио LC; Перейра, Адриано С.М.; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv : 1604.02612 [ cs.CL ].
- ^ Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). Анализ настроений и аффективные вычисления для мониторинга депрессии . 2017 IEEE Международная конференция по биоинформатике и биомедицине (BIBM) . IEEE. С. 1988–1995. DOI : 10.1109 / bibm.2017.8217966 . ISBN 978-1-5090-3050-7. S2CID 24408937 .
- ^ Панг, Бо; Ли, Лилиан (2008). Извлечение мнений и анализ настроений . Ганновер, Массачусетс: Теперь издатели. ISBN 978-1601981509.
- ^ Сунь, Шилян; Ло, Чен; Чен, Джуньюй (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа». Информационный фьюжн . 36 : 10–25. DOI : 10.1016 / j.inffus.2016.10.004 .
- ^ Oviatt, S. (2002), «Мультимодальные интерфейсы», в Jacko, J .; Sears, A (eds.), The Human-Computer Interaction Handbook (PDF) , Lawrence Erlbaum.
- ^ Bauckhage, C .; Fritsch, J .; Rohlfing, KJ; Wachsmuth, S .; Сейджерер, Г. (2002). «Оценка комплексного понимания речи и изображений». Int. Конф. о мультимодальных интерфейсах . DOI : 10.1109 / ICMI.2002.1166961 .
- ^ Исмаил, штат Северная Каролина; О'Брайен, EA (2008). «Включение мультимодального взаимодействия при просмотре персональных цифровых фотографий через Интернет» (PDF) . Int. Конф. по компьютерной и коммуникационной технике . Архивировано из оригинального (PDF) 18 июля 2011 года . Проверено 3 марта 2010 .
- ^ а б в Сартер, Н.Б. (2006). «Мультимодальное представление информации: рекомендации по проектированию и исследовательские задачи». Международный журнал промышленной эргономики . 36 (5): 439–445. DOI : 10.1016 / j.ergon.2006.01.007 .
- ^ Гелдар, Ф.А. (1957). «Приключения тактильной грамотности». Американский психолог . 12 (3): 115–124. DOI : 10.1037 / h0040416 .
- ^ Brooks, A .; Петерссон, Э. (2007). «SoundScapes: неформальные возможности обучения с помощью интерактивных виртуальных машин» . СИГГРАФ . DOI : 10.1145 / 1282040.1282059 .
- ^ а б Во, MT (1998). « Фреймворк и инструментарий для построения мультимодальных обучающих интерфейсов », доктор философии. Диссертация, Университет Карнеги-Меллона, Питтсбург, США.
- ^ a b Коэн, PR; Johnston, M .; McGee, D .; Oviatt, SL; Pittman, J .; Smith, IA; Chen, L .; Клоу, Дж. (1997). «Quickset: мультимодальное взаимодействие для распределенных приложений», ACM Multimedia, стр. 31-40.
- ^ Джонстон, М. (1998). « Мультимодальный анализ на основе унификации ». Материалы 36-го ежегодного собрания Ассоциации компьютерной лингвистики и 17-й Международной конференции по компьютерной лингвистике (COLING-ACL '98), 10–14 августа, Университет Монреаля, Монреаль, Квебек, Канада. С. 624-630.
- ^ а б Нигай, Л .; Коутаз, Дж. (1995). « Универсальная платформа для решения проблемы мультимодальных перевозок ». Материалы конференции по человеческому фактору в вычислительных системах, ACM Press.
- ^ a b Bouchet, J .; Nigay, L .; Ганилл, Т. (2004). « Программные компоненты Icare для динамично развивающихся мультимодальных интерфейсов ». ICMI '04: Материалы 6-й международной конференции по мультимодальным интерфейсам (Нью-Йорк, Нью-Йорк, США), ACM, стр. 251-258.
- ^ a b D'Ulizia, A .; Ferri, F .; Грифони П. (2007). « Гибридный подход к спецификации мультимодальных языков на основе грамматики », Протоколы семинаров OTM 2007, 25–30 ноября 2007 г., Виламура, Португалия, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.
- ^ a b c Джонстон, М .; Бангалор, С. (2000). « Мультимодальный анализ и понимание с конечным числом состояний », В трудах Международной конференции по компьютерной лингвистике, Саарбрюккен, Германия.
- ^ a b Вс, Y .; Chen, F .; Shi, YD; Чанг, В. (2006). « Новый метод слияния мультисенсорных данных в мультимодальном взаимодействии человека с компьютером ». В материалах 20-й конференции группы специальных интересов по взаимодействию компьютера и человека (CHISIG) Австралии по теме «Взаимодействие компьютера и человека: дизайн: действия, артефакты и окружающая среда», Сидней, Австралия, стр. 401-404.
- ^ a b Shimazu, H .; Такашима Ю. (1995). "Мультимодальная грамматика с определенными предложениями", Системы и компьютеры в Японии, вып. 26, № 3, с. 93-102.
- ^ а б Джонстон, М .; Бангалор, С. (2005). « Мультимодальная интеграция и понимание с конечным числом состояний », Нац. Lang. Eng, Vol. 11, вып. 2. С. 159–187.
- ^ a b Reitter, D .; Panttaja, EM; Камминс, Ф. (2004). «Пользовательский интерфейс на лету: создание мультимодального пользовательского интерфейса» в Proc. HLT-NAACL-2004, Бостон, Массачусетс, США.
- ^ а б Гуань, Лин. «Методы и методы объединения мультимодальной информации» (PDF) . Общество схем и систем .
- ^ D'Ulizia, A .; Ferri, F .; Грифони П. (2011). «Алгоритм обучения для мультимодального вывода грамматики», IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), с. 1495 - 1510.
- ^ Перес, G .; Amores, G .; Манчон, П. (2005). «Две стратегии мультимодального слияния». In Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italy, 26–32.
- ^ Мартин, JC (1997). «К интеллектуальному сотрудничеству между модальностями: пример системы, обеспечивающей мультимодальное взаимодействие с картой», Труды Международной совместной конференции по искусственному интеллекту (IJCAI'97), семинар «Интеллектуальные мультимодальные системы», Нагоя, Япония
- ^ Аллен, JF; Фергюсон, Г. (1994). «Действия и события в интервальной временной логике», Журнал логики и вычислений, Vol. 4, No. 5, pp.531–579
- ^ Беллик, Y. (2001). « Технические требования для успешного мультимодального взаимодействия », Международный семинар по представлению информации и естественному мультимодальному диалогу, Верона, Италия, 14–15 декабря.
- ^ Ли, YC; Чин, Ф. (1995). «Иконический язык запросов для топологических отношений в ГИС». Международный журнал географических информационных систем 9 (1). стр. 25-46
- ^ Calcinelli, D .; Mainguenaud, М. (1994). «Cigales, визуальный язык для геоинформационной системы: пользовательский интерфейс». Журнал визуальных языков и вычислений 5 (2). стр.113-132
- ^ Ферри, Ф .; Рафанелли, М. (2005). « GeoPQL: географический графический язык запросов, устраняющий двусмысленность в интерпретации запросов ». J. Семантика данных III. стр.50-80
- ^ Suhm, Б. Майерс, Б. и Waibel, A. (1999). « Модельная и эмпирическая оценка мультимодального интерактивного исправления ошибок ». В Proc. Of CHI'99, май 1999 г., стр. 584-591.
Внешние ссылки
- W3C Мультимодальное взаимодействие
- XHTML + Voice Profile 1.0 , W3C Note 21 декабря 2001 г.
- Хост, Лоде, Дюма, Бруно и Сигнер, Beat: Mudra: A Unified Multimodal Interaction Framework , В материалах 13-й Международной конференции по мультимодальному взаимодействию (ICMI 2011), Аликанте, Испания, ноябрь 2011 г.
- Тоселли, Алехандро Эктор, Видаль, Энрике, Казакуберта, Франциско: мультимодальное интерактивное распознавание образов и приложения , Springer, 2011.