Мультимодальное взаимодействие

Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс обеспечивает несколько различных инструментов для ввода и вывода данных.

Вступление

Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных способов коммуникации» ^[1]. Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, обеспечивая взаимодействие пользователей с автоматизированными системами как на входе, так и на выходе. ^{[2] В} частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать с помощью методов ввода, таких как речь , почерк , жесты руки и взгляд , а также получать информацию от системы с помощью методов вывода, таких как синтез речи. , умная графика и другие возможности, удачно скомбинированные. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстными ограничениями ^[3] , чтобы позволить их интерпретацию. Этот процесс известен как мультимодальный синтез, и он является объектом нескольких исследований с девяностых годов до настоящего времени. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11] Объединенные входы интерпретируются системой. Естественность и гибкость могут дать более одной интерпретации для каждой разной модальности (канала) и для их одновременного использования, и, следовательно, они могут вызвать многомодальную неоднозначность ^[12], как правило, из-за неточности, шумов или других подобных факторов. Для решения неоднозначностей было предложено несколько методов. ^[13]^[14]^[15]^[16]^[17]^[18] Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (деление). ^[19] Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия представляет собой возможность. Фактически, облачные вычисления позволяют предоставлять общие масштабируемые, конфигурируемые вычислительные ресурсы, которые могут динамически и автоматически выделяться и высвобождаться». ^[20]

Мультимодальный ввод

Две основные группы мультимодальных интерфейсов объединились: одна связана с альтернативными методами ввода, а другая - с комбинированным вводом / выводом. Первая группа интерфейсов объединила в себе различные режимы пользовательского ввода помимо традиционного ввода / вывода с клавиатуры и мыши , такие как речь, перо, прикосновение, ручные жесты, ^[21] взгляд, движения головы и тела. ^[22] Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с речевой модальностью ( распознавание речи для ввода, синтез речи и записанный звук для вывода). Однако могут использоваться другие методы, такие как ввод с помощью пера или осязательный ввод / вывод. Мультимодальные пользовательские интерфейсы - это область исследований взаимодействия человека с компьютером (HCI).

Преимущество множественных модальностей ввода заключается в повышении удобства использования : слабые стороны одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Poughkeepsie ). Подумайте, как вы будете получать доступ и выполнять поиск в каталогах цифровых медиа с этих же устройств или телевизионных приставок. И в одном примере из реальной жизни члены хирургической бригады получают устный доступ к информации о пациенте в операционной, чтобы поддерживать антисептическую среду, и представляют почти в реальном времени на слух и визуально для максимального понимания.

Пользовательские интерфейсы мультимодального ввода влияют на доступность . ^[23] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с ослабленным зрением полагаются на голосовую модальность при вводе с клавиатуры. Пользователи с нарушением слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «неадекватно ситуативно» (например, носить перчатки в очень шумной обстановке, управлять автомобилем или вводить номер кредитной карты в общественном месте) и будут просто использовать соответствующие способы по своему усмотрению. С другой стороны, мультимодальное приложение, которое требует, чтобы пользователи могли работать со всеми модальностями, очень плохо спроектировано.

Наиболее распространенная на рынке форма мультимодальности ввода использует язык разметки веб-страниц XHTML + Voice (также известный как X + V), открытую спецификацию, разработанную IBM , Motorola и Opera Software . X + V в настоящее время рассматривается W3C и объединяет несколько Рекомендаций W3C, включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events , стандарт интеграции языков XML . Мультимодальные браузеры, поддерживающие X + V, включают мультимодальную среду IBM WebSphere Everyplace, Opera для встроенных Linux и Windows и ACCESS Systems NetFront для Windows Mobile . Для разработки мультимодальных приложений разработчики программного обеспечения могут использовать комплект средств разработки программного обеспечения , такой как IBM WebSphere Multimodal Toolkit, основанный на платформе Eclipse с открытым исходным кодом , которая включает отладчик X + V , редактор и симулятор . ^[^{необходима цитата}^]

Мультимодальный анализ тональности

Мультимодальный анализ тональности - это новое измерение ^{[ термин павлина ]} традиционного текстового анализа тональности , который выходит за рамки анализа текстов и включает другие методы, такие как аудио и визуальные данные. ^[24] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности. ^[25] Благодаря огромному количеству данных социальных сетей, доступных в Интернете в различных формах, таких как видео и изображения, обычный текстовый анализ настроений превратился в более сложные модели мультимодального анализа настроений, ^[26] которые могут быть применены при разработке из виртуальных помощников , ^[27] анализ обзоров фильмов YouTube, ^[28] анализ новостных видео, ^[29] и распознавание эмоций (иногда известная как эмоции обнаружение) , такие как депрессия мониторинг, ^[30] среди других.

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. ^[31] Сложность анализа текста, аудио и визуальных функций для выполнения такой задачи требует применения различных методов слияния, таких как уровень функций, уровень принятия решений и гибридное слияние. ^[26] Эффективность этих методов объединения и применяемых алгоритмов классификации зависит от типа текстовых, звуковых и визуальных характеристик, используемых в анализе. ^[32]

Мультимодальный выход

Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, в первую очередь в форме визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной выходной системы включают синергию и избыточность. Информация, которая представлена несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей для обработки одной и той же информации обеспечивает увеличенную пропускную способность передачи информации. ^[33]^[34]^[35] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между коммуникационной средой и контентом и для поддержки управления вниманием в среде с большим количеством данных, где операторы сталкиваются со значительными требованиями визуального внимания. ^[36]

Важным шагом в дизайне мультимодального интерфейса является создание естественных сопоставлений между модальностями и информацией и задачами. Слуховой канал отличается от зрения по нескольким аспектам. Он всенаправлен, преходящ и всегда зарезервирован. ^[36] Речевой вывод, одна из форм слуховой информации, привлек значительное внимание. Было разработано несколько руководств по использованию речи. Михаэлис и Виггинс (1982) предложили использовать речевой вывод для простых коротких сообщений, о которых мы не будем говорить позже. Также было рекомендовано, чтобы речь была произведена вовремя и требовала немедленного ответа.

Чувство осязания было впервые использовано в качестве средства общения в конце 1950-х годов. ^[37] Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, осязание является ближайшим: оно ощущает объекты, контактирующие с телом, и является двунаправленным, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.

Примеры слуховой обратной связи включают звуковые значки в компьютерных операционных системах, указывающие действия пользователей (например, удаление файла, открытие папки, ошибку), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают вибрацию рычага указателя поворота, чтобы предупредить водителей о том, что автомобиль находится в их слепой зоне, вибрацию автокресла в качестве предупреждения для водителей и вибрацию ручки на современных самолетах, предупреждающую пилотов о надвигающемся сваливании. ^[36]

Невидимые интерфейсные пространства стали доступны с помощью сенсорной технологии. В настоящее время широко используются инфракрасный, ультразвуковой и камеры. ^[38] Прозрачность взаимодействия с контентом повышается, если имеется немедленная и прямая ссылка через осмысленное отображение, таким образом, у пользователя есть прямая и немедленная обратная связь на ввод, а ответ контента становится доступностью интерфейса (Гибсон, 1979).

Мультимодальный синтез

Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным объединением. ^[5] В литературе были предложены три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может выполняться слияние входных сигналов: на основе распознавания, ^[9]^[10]^{[39] на основе} решений, ^[7]^[8]^[11]^[40]^[41]^[42]^[43] и гибридное многоуровневое слияние. ^[4]^[6]^[44]^[45]^[46]^[47]^[48]^[49]

Слияние на основе распознавания (также известное как раннее слияние) заключается в слиянии результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые марковские модели, искусственные нейронные сети и т. Д. Примеры Из основанных на распознавании стратегий слияния являются кадры действия, ^[39] входные векторы ^[9] и слоты. ^[10]

Слияние на основе решений (также известное как позднее слияние) объединяет семантическую информацию, которая извлекается с помощью определенных процедур слияния, управляемых диалогом, для получения полной интерпретации. Примерами стратегий слияния на основе решений являются типизированные структуры признаков, ^[40]^[45] плавильные котлы, ^[42]^[43] семантические фреймы ^[7]^[11] и решетки с отметками времени. ^[8]

Потенциальные приложения для мультимодального слияния включают учебную среду, отношения с потребителями, безопасность / наблюдение, компьютерную анимацию и т. Д. По отдельности режимы легко определить, но возникают трудности с тем, чтобы технология считала их комбинированным слиянием. ^[50] Алгоритмам сложно учитывать размерность; существуют переменные, выходящие за рамки текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию. ^[50]

В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает следующие три методологии: преобразователи с конечным числом состояний, ^[45] мультимодальные грамматики ^[6]^[44]^[46]^[47]^[48]^[49]^[51] и диалоги. ^[52]

Двусмысленность

Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение ^[3] ), которые должны интерпретироваться системой. Мультимодальное сообщение - это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Это достигается путем объединения информации, которая передается через несколько модальностей, с учетом различных типов сотрудничества между несколькими модальностями ^[53], временных отношений ^[54] между задействованными модальностями и отношений между порциями информации, связанными с этими модальностями. ^[55]

Естественное отображение между мультимодальным входом, которое обеспечивается несколькими модальностями взаимодействия (визуальный и слуховой канал и осязание), и информацией и задачами, подразумевает управление типичными проблемами человеческого общения, такими как двусмысленность. Неоднозначность возникает, когда возможна более чем одна интерпретация ввода. Мультимодальная неоднозначность ^[12] возникает как в том случае, если элемент, который обеспечивается одной модальностью, имеет более одной интерпретации (т.е. неоднозначности распространяются на мультимодальном уровне), так и / или если элементы, связанные с каждой модальностью, интерпретируются однозначно. , но информация, относящаяся к разным модальностям, несогласованна на синтаксическом или семантическом уровне (т. е. мультимодальное предложение, имеющее разные значения или другую синтаксическую структуру).

В «Управлении неоднозначностями» ^[14] методы разрешения неоднозначностей и обеспечения правильной интерпретации ввода пользователя разделены на три основных класса: предотвращение, апостериорное разрешение и методы разрешения аппроксимации. ^[13]^[15]

Методы предотвращения вынуждают пользователей следовать заранее определенному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примеры методов предотвращения: процедурный метод, ^[56] снижение выразительной силы языковой грамматики, ^[57] улучшение выразительной силы языковой грамматики. ^[58]

Апостериорное разрешение неоднозначности использует подход медиации. ^[16] Примерами методов посредничества являются: повторение, например, повторение по модальности, ^[16] степень детализации исправления ^[59] и отмены, ^[17] и выбор. ^[18]

Методы разрешения аппроксимации не требуют участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика , марковское случайное поле , байесовские сети и скрытые марковские модели . ^[13]^[15]

Смотрите также

Независимость от устройства
Мультимодальная биометрическая система
Мультимодальный поиск
Распознавание речи
W3C's Multimodal Interaction Activity - инициатива W3C, направленная на предоставление средств (в основном XML ) для поддержки сценариев мультимодального взаимодействия в сети.
Веб-доступность
Проводная перчатка
XHTML + голос

Внешние ссылки

W3C Мультимодальное взаимодействие
XHTML + Voice Profile 1.0 , W3C Note 21 декабря 2001 г.
Хост, Лоде, Дюма, Бруно и Сигнер, Beat: Mudra: A Unified Multimodal Interaction Framework , В материалах 13-й Международной конференции по мультимодальному взаимодействию (ICMI 2011), Аликанте, Испания, ноябрь 2011 г.
Тоселли, Алехандро Эктор, Видаль, Энрике, Казакуберта, Франциско: мультимодальное интерактивное распознавание образов и приложения , Springer, 2011.

[1] Bourguet, ML (2003). « Проектирование и прототипирование мультимодальных команд ». Труды взаимодействия человека и компьютера (INTERACT'03), стр. 717-720.

[2] Стиверс, Т., Сиднелл, Дж. Введение: мультимодальное взаимодействие. Семиотика, 156 (1/4), стр. 1-20. 2005 г.

[Caschera1-3] Caschera MC, Ферри Ф., Грифони П. (2007). « Мультимодальные системы взаимодействия: информационные и временные особенности ». Международный журнал веб- и грид-сервисов (IJWGS), Vol. 3 - Выпуск 1, стр 82-99.

[Dulizia2-4] Д'Улизия, А., Ферри, Ф. и Грифони, П. (2010). «Генерация мультимодальных грамматик для мультимодальной обработки диалогов». IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, No. 6, pp. 1130 - 1145.

[Dulizia1-5] а б Д'Улизия, А. (2009). « Изучение мультимодальных стратегий объединения входных данных ». В: Grifoni P (ed) Handbook of Research on Multimodal Human Computer Interaction and Pervasive Services: Evolutionary Techniques for Improving Accessibility. Издательство IGI, стр. 34-57.

[Sun-6] Сун, Ю., Ши, Ю., Чен, Ф. и Чанг, В. (2007). «Эффективный мультимодальный языковой процессор для параллельных входных строк в мультимодальном слиянии входных данных», в Proc. Международной конференции по семантическим вычислениям, стр. 389-396.

[Russ-7] Расс, Г., Салланс, Б., Харетер, Х. (2005). « Слияние семантической информации в мультимодальном интерфейсе ». Международная конференция по взаимодействию человека и компьютера (HCI'05), Лас-Вегас, Невада, США, 20–23 июня, стр. 94–100.

[Corradini-8] Коррадини А., Мехта М., Бернсен, Н. О., Мартин, Ж.-К. (2003). «Мультимодальный ввод слияния во взаимодействии человека и компьютера на примере текущего проекта NICE». В материалах конференции NATO-ASI по объединению данных для мониторинга ситуации, обнаружения инцидентов, оповещения и реагирования, Ереван, Армения.

[Pavlovic-9] Павлович, В.И., Берри, Г.А., Хуанг, Т.С. (1997). « Интеграция аудио / визуальной информации для использования в интеллектуальном взаимодействии человека и компьютера ». Труды Международной конференции по обработке изображений 1997 г. (ICIP '97), том 1, стр. 121–124.

[Andre-10] Андре М., Попеску В.Г., Шейх А., Медл А., Марсич И., Куликовски К., Фланаган Дж. Л. (1998). « Интеграция речи и жестов для мультимодального взаимодействия человека и компьютера ». На Второй Международной конференции по совместным мультимодальным коммуникациям. 28–30 января, Тилбург, Нидерланды.

[Vo-11] Во, MT, Вуд, К. (1996). « Создание инфраструктуры приложения для интеграции речи и перьевого ввода в интерфейсы мультимодального обучения ». In Proceedings of the Acoustics, Speech and Signal Processing (ICASSP'96), 7–10 мая, IEEE Computer Society, Volume 06, pp. 3545-3548.

[Caschera5-12] Caschera, MC, Ферри, Ф., Грифони, П. (2013). « От модальных неоднозначностей к мультимодальным: подход к классификации », Журнал информационных технологий следующего поколения (JNIT), Vol. 4, No. 5, pp. 87-109.

[Caschera2-13] Caschera, MC, Ферри, Ф., Грифони, П. (2013). InteSe: интегрированная модель для разрешения неоднозначности в мультимодальных предложениях ". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz , G. (2000). «Обработка самокоррекций в системе преобразования речи в речь». COLING 2000. pp. 1116-1120.

[Caschera3-14] Caschera MC, Ферри Ф., Грифони П. (2007). «Управление неоднозначностями». В визуальных языках для интерактивных вычислений: определения и формализации. Издательство IGI. С. 129-140.

[Chai-15] J. Chai, P. Hong, and MX Zhou, (2004). «Вероятностный подход к эталонному разрешению в мультимодальном пользовательском интерфейсе» в Proc. 9-е межд. Конф. Intell. User Interf., Мадейра, Португалия, январь 2004 г., стр. 70–77.

[Dey-16] Дей, А. К. Манкофф, Дж. (2005). « Проектирование посредничества для контекстно-зависимых приложений ». ACM Trans. Comput.-Hum. Взаимодействовать. 12 (1), стр. 53-80.

[Spilker-17] Спилкер, Дж., Кларнер, М., Гёрц, Г. (2000). «Обработка самокоррекций в речевой системе». COLING 2000. С. 1116-1120.

[Mank-18] Манкофф, Дж., Хадсон, С. Е., Абоуд, Г. Д. (2000). « Обеспечение интегрированной поддержки на уровне набора инструментов для неоднозначности интерфейсов на основе распознавания ». Материалы конференции ACM CHI'00 по человеческому фактору в вычислительных системах. С. 368 - 375.

[19] Grifoni P (2009) Мультимодальное деление. В: Мультимодальное взаимодействие человека с компьютером и повсеместные услуги. IGI Global, стр 103–120

[20] Patrizia Grifoni, Фернандо Ферри, Мария Кьяра Caschera, Арианна D'Ulizia, Mauro Маццеи, "MIS: Мультимодальные Взаимодействие служб в перспективе облака", JNIT: журнал нового поколения информационных технологий, Vol. 5, No. 4, pp. 01–10, 2014 г.

[21] Kettebekov, Sanshzar и Раджив Шарма (2001). « К естественному управлению жестами / речью на большом дисплее ». Труды EHCI '01 Труды 8-й Международной конференции ИФИП по проектированию взаимодействия человека и компьютера Страницы 221-234

[22] Мариус Вассилиу, В. Сундаресваран, С. Чен, Р. Берингер, К. Там, М. Чан, П. Бангаян и Дж. МакГи (2000), «Интегрированный мультимодальный человеко-компьютерный интерфейс и дополненная реальность для приложений интерактивного дисплея. , "в Дарреле Г. Хоппере (ред.) Дисплеи кабины VII: Дисплеи для оборонных приложений (Proc. SPIE. 4022), 106-115. ISBN 0-8194-3648-8

[23] Vitense, HS; Jacko, JA; Эмери, ВК (2002). «Мультимодальная обратная связь: установление базовых показателей для улучшения доступа людей с нарушениями зрения». ACM Conf. по вспомогательным технологиям .

[24] Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений» . Вычисления изображений и зрения . 65 : 3–14. DOI : 10.1016 / j.imavis.2017.08.003 .

[25] Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нур, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF) . Международный журнал по интеллектуальному зондированию и интеллектуальным системам . 1 : 137–159. DOI : 10,21307 / ijssis-2017-283 .

[Multimodal_sentiment_analysis_s1-26] а б Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хуссейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от одномодального анализа к мультимодальному слиянию» . Информационный фьюжн . 37 : 98–125. DOI : 10.1016 / j.inffus.2017.02.003 . ЛВП : 1893/25490 .

[Multimodal_sentiment_analysis_s5-27] «Google AI, чтобы звонить за вас» . BBC News . 8 мая 2018 . Проверено 12 июня 2018 .

[Multimodal_sentiment_analysis_s4-28] Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьорн; Вс, конгкай; Сагаэ, Кендзи; Моренси, Луи-Филипп (май 2013 г.). «Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте». Интеллектуальные системы IEEE . 28 (3): 46–53. DOI : 10.1109 / MIS.2013.34 . S2CID 12789201 .

[29] Перейра, Мойзес HR; Падуа, Флавио LC; Перейра, Адриано С.М.; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv : 1604.02612 [ cs.CL ].

[Multimodal_sentiment_analysis_s6-30] Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). Анализ настроений и аффективные вычисления для мониторинга депрессии . 2017 IEEE Международная конференция по биоинформатике и биомедицине (BIBM) . IEEE. С. 1988–1995. DOI : 10.1109 / bibm.2017.8217966 . ISBN 978-1-5090-3050-7. S2CID 24408937 .

[31] Панг, Бо; Ли, Лилиан (2008). Извлечение мнений и анализ настроений . Ганновер, Массачусетс: Теперь издатели. ISBN 978-1601981509.

[Multimodal_sentiment_analysis_s7-32] Сунь, Шилян; Ло, Чен; Чен, Джуньюй (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа». Информационный фьюжн . 36 : 10–25. DOI : 10.1016 / j.inffus.2016.10.004 .

[33] Oviatt, S. (2002), «Мультимодальные интерфейсы», в Jacko, J .; Sears, A (eds.), The Human-Computer Interaction Handbook (PDF) , Lawrence Erlbaum.

[34] Bauckhage, C .; Fritsch, J .; Rohlfing, KJ; Wachsmuth, S .; Сейджерер, Г. (2002). «Оценка комплексного понимания речи и изображений». Int. Конф. о мультимодальных интерфейсах . DOI : 10.1109 / ICMI.2002.1166961 .

[35] Исмаил, штат Северная Каролина; О'Брайен, EA (2008). «Включение мультимодального взаимодействия при просмотре персональных цифровых фотографий через Интернет» (PDF) . Int. Конф. по компьютерной и коммуникационной технике . Архивировано из оригинального (PDF) 18 июля 2011 года . Проверено 3 марта 2010 .

[sarter-36] а б в Сартер, Н.Б. (2006). «Мультимодальное представление информации: рекомендации по проектированию и исследовательские задачи». Международный журнал промышленной эргономики . 36 (5): 439–445. DOI : 10.1016 / j.ergon.2006.01.007 .

[37] Гелдар, Ф.А. (1957). «Приключения тактильной грамотности». Американский психолог . 12 (3): 115–124. DOI : 10.1037 / h0040416 .

[38] Brooks, A .; Петерссон, Э. (2007). «SoundScapes: неформальные возможности обучения с помощью интерактивных виртуальных машин» . СИГГРАФ . DOI : 10.1145 / 1282040.1282059 .

[Vo2-39] а б Во, MT (1998). « Фреймворк и инструментарий для построения мультимодальных обучающих интерфейсов », доктор философии. Диссертация, Университет Карнеги-Меллона, Питтсбург, США.

[Cohen-40] Коэн, PR; Johnston, M .; McGee, D .; Oviatt, SL; Pittman, J .; Smith, IA; Chen, L .; Клоу, Дж. (1997). «Quickset: мультимодальное взаимодействие для распределенных приложений», ACM Multimedia, стр. 31-40.

[Johnston1-41] Джонстон, М. (1998). « Мультимодальный анализ на основе унификации ». Материалы 36-го ежегодного собрания Ассоциации компьютерной лингвистики и 17-й Международной конференции по компьютерной лингвистике (COLING-ACL '98), 10–14 августа, Университет Монреаля, Монреаль, Квебек, Канада. С. 624-630.

[Nigay1-42] а б Нигай, Л .; Коутаз, Дж. (1995). « Универсальная платформа для решения проблемы мультимодальных перевозок ». Материалы конференции по человеческому фактору в вычислительных системах, ACM Press.

[Bouchet1-43] Bouchet, J .; Nigay, L .; Ганилл, Т. (2004). « Программные компоненты Icare для динамично развивающихся мультимодальных интерфейсов ». ICMI '04: Материалы 6-й международной конференции по мультимодальным интерфейсам (Нью-Йорк, Нью-Йорк, США), ACM, стр. 251-258.

[Dulizia3-44] D'Ulizia, A .; Ferri, F .; Грифони П. (2007). « Гибридный подход к спецификации мультимодальных языков на основе грамматики », Протоколы семинаров OTM 2007, 25–30 ноября 2007 г., Виламура, Португалия, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.

[Johnston2-45] Джонстон, М .; Бангалор, С. (2000). « Мультимодальный анализ и понимание с конечным числом состояний », В трудах Международной конференции по компьютерной лингвистике, Саарбрюккен, Германия.

[Sun2-46] Вс, Y .; Chen, F .; Shi, YD; Чанг, В. (2006). « Новый метод слияния мультисенсорных данных в мультимодальном взаимодействии человека с компьютером ». В материалах 20-й конференции группы специальных интересов по взаимодействию компьютера и человека (CHISIG) Австралии по теме «Взаимодействие компьютера и человека: дизайн: действия, артефакты и окружающая среда», Сидней, Австралия, стр. 401-404.

[Shimazu-47] Shimazu, H .; Такашима Ю. (1995). "Мультимодальная грамматика с определенными предложениями", Системы и компьютеры в Японии, вып. 26, № 3, с. 93-102.

[Johnston3-48] а б Джонстон, М .; Бангалор, С. (2005). « Мультимодальная интеграция и понимание с конечным числом состояний », Нац. Lang. Eng, Vol. 11, вып. 2. С. 159–187.

[Reitter-49] Reitter, D .; Panttaja, EM; Камминс, Ф. (2004). «Пользовательский интерфейс на лету: создание мультимодального пользовательского интерфейса» в Proc. HLT-NAACL-2004, Бостон, Массачусетс, США.

[:0-50] а б Гуань, Лин. «Методы и методы объединения мультимодальной информации» (PDF) . Общество схем и систем .

[51] D'Ulizia, A .; Ferri, F .; Грифони П. (2011). «Алгоритм обучения для мультимодального вывода грамматики», IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), с. 1495 - 1510.

[52] Перес, G .; Amores, G .; Манчон, П. (2005). «Две стратегии мультимодального слияния». In Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italy, 26–32.

[53] Мартин, JC (1997). «К интеллектуальному сотрудничеству между модальностями: пример системы, обеспечивающей мультимодальное взаимодействие с картой», Труды Международной совместной конференции по искусственному интеллекту (IJCAI'97), семинар «Интеллектуальные мультимодальные системы», Нагоя, Япония

[54] Аллен, JF; Фергюсон, Г. (1994). «Действия и события в интервальной временной логике», Журнал логики и вычислений, Vol. 4, No. 5, pp.531–579

[55] Беллик, Y. (2001). « Технические требования для успешного мультимодального взаимодействия », Международный семинар по представлению информации и естественному мультимодальному диалогу, Верона, Италия, 14–15 декабря.

[56] Ли, YC; Чин, Ф. (1995). «Иконический язык запросов для топологических отношений в ГИС». Международный журнал географических информационных систем 9 (1). стр. 25-46

[57] Calcinelli, D .; Mainguenaud, М. (1994). «Cigales, визуальный язык для геоинформационной системы: пользовательский интерфейс». Журнал визуальных языков и вычислений 5 (2). стр.113-132

[58] Ферри, Ф .; Рафанелли, М. (2005). « GeoPQL: географический графический язык запросов, устраняющий двусмысленность в интерпретации запросов ». J. Семантика данных III. стр.50-80

[59] Suhm, Б. Майерс, Б. и Waibel, A. (1999). « Модельная и эмпирическая оценка мультимодального интерактивного исправления ошибок ». В Proc. Of CHI'99, май 1999 г., стр. 584-591.

[1].