Распознавание жестов


Распознавание жестов — это тема компьютерных наук и языковых технологий , целью которой является интерпретация человеческих жестов с помощью математических алгоритмов . [1] Это субдисциплина компьютерного зрения . Жесты могут исходить из любого телесного движения или состояния, но обычно исходят от лица или руки . Текущий [ когда? ] фокусы в этой области включают распознавание эмоцийот распознавания жестов лица и рук. Пользователи могут использовать простые жесты для управления устройствами или взаимодействия с ними, не прикасаясь к ним физически. Многие подходы были сделаны с использованием камер и алгоритмов компьютерного зрения для интерпретации языка жестов . Однако идентификация и распознавание позы, походки, проксемики и поведения человека также являются предметом методов распознавания жестов. [2] Распознавание жестов можно рассматривать как способ, с помощью которого компьютеры начинают понимать язык человеческого тела , тем самым создавая более прочный мост между машинами и людьми, чем примитивные текстовые пользовательские интерфейсы или даже графические интерфейсы.(графические пользовательские интерфейсы), которые по-прежнему ограничивают большую часть ввода с помощью клавиатуры и мыши и взаимодействуют естественным образом без каких-либо механических устройств.

Литература включает текущую работу в области компьютерного зрения по захвату жестов или более общих человеческих поз и движений камерами, подключенными к компьютеру. [6] [7] [8] [9]

Распознавание жестов и перьевые вычисления. Перьевые вычисления снижают нагрузку на аппаратное обеспечение системы, а также расширяют диапазон объектов физического мира, которые можно использовать для управления, помимо традиционных цифровых объектов, таких как клавиатуры и мыши. Такие реализации могут позволить использовать новый диапазон аппаратных средств, не требующих мониторов. Эта идея может привести к созданию голографического дисплея. Термин «распознавание жестов» используется для более узкого обозначения символов рукописного ввода, не предназначенных для ввода текста, таких как рисование на графическом планшете , мультитач- жесты и распознавание жестов мышью . Это взаимодействие с компьютером посредством рисования символов курсором манипулятора. [10] [11] [12] (см.Перьевое вычисление )

В компьютерных интерфейсах выделяют два типа жестов: [13] Мы рассматриваем онлайн-жесты, которые также можно рассматривать как прямые манипуляции, такие как масштабирование и вращение. Напротив, автономные жесты обычно обрабатываются после завершения взаимодействия; например, круг рисуется для активации контекстного меню .

Бесконтактный пользовательский интерфейс — это новая технология управления жестами. Бесконтактный пользовательский интерфейс (TUI) — это процесс управления компьютером с помощью движений тела и жестов без прикосновения к клавиатуре, мыши или экрану. [14] Бесконтактный интерфейс в дополнение к управлению жестами становится все более популярным, поскольку он дает возможность взаимодействовать с устройствами, не касаясь их физически.

Существует ряд устройств, использующих этот тип интерфейса, таких как смартфоны, ноутбуки, игры, телевизор и музыкальное оборудование.


Ребенок воспринимается простым алгоритмом распознавания жестов, определяющим местоположение и движение руки.
Распознавание жестов обычно обрабатывается в промежуточном программном обеспечении , результаты передаются в пользовательские приложения.
Существуют различные способы отслеживания и анализа жестов, и некоторые основные схемы приведены на диаграмме выше. Например, объемные модели передают необходимую информацию, необходимую для тщательного анализа, однако они оказываются очень интенсивными с точки зрения вычислительной мощности и требуют дальнейшего технологического развития, чтобы быть реализованными для анализа в реальном времени. С другой стороны, модели, основанные на внешнем виде, легче обрабатывать, но им обычно не хватает общности, необходимой для взаимодействия человека с компьютером.
Настоящая рука (слева) интерпретируется как набор вершин и линий в версии 3D-сетки (справа), и программное обеспечение использует их относительное положение и взаимодействие для определения жеста.
Скелетная версия (справа) эффективно моделирует руку (слева). У него меньше параметров, чем у объемной версии, и его проще вычислять, что делает его подходящим для систем анализа жестов в реальном времени.
Эти бинарные изображения силуэта (слева) или контура (справа) представляют собой типичные входные данные для алгоритмов, основанных на внешнем виде. Они сравниваются с разными шаблонами рук, и если они совпадают, делается вывод о соответствующем жесте.