Эта статья содержит подробный перефразирование источника, защищенного авторским правом, не являющегося бесплатным, https://ui.adsabs.harvard.edu/abs/2016arXiv161101599A/abstract . ( Февраль 2021 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
LipNet - это глубокая нейронная сеть для визуального распознавания речи . Его создали Яннис Ассаэль, Брендан Шиллингфорд , Шимон Уайтсон и Нандо де Фрейтас , исследователи из Оксфордского университета . Техника, описанная в статье, опубликованной в ноябре 2016 г. [1] , позволяет расшифровать текст по движению рта говорящего. Традиционные подходы к визуальному распознаванию речи разделяют проблему на два этапа: проектирование или изучение визуальных функций и прогнозирование. LipNet была первой сквозной моделью чтения по губам на уровне предложения, которая одновременно изучала пространственно-временные визуальные особенности и модель последовательности. [2]Аудио-визуальное распознавание речи имеет огромный практический потенциал, с приложениями в улучшенных слуховых аппаратах, медицинские применения, такие как улучшение восстановления и благополучие больных в критическом состоянии, [3] и распознавание речи в шумной обстановке, [4] , такие как Nvidia S» автономные транспортные средства. [5]
Ссылки [ править ]
- ^ Assael, Yannis M .; Шиллингфорд, Брендан; Уайтсон, Шимон; де Фрейтас, Нандо (16 декабря 2016 г.). «LipNet: непрерывное чтение по губам на уровне предложения». arXiv : 1611.01599 [ cs.LG ].
- ^ «AI, который читает по губам« лучше, чем люди » » . 8 ноября 2016 г. - на сайте www.bbc.com.
- ^ "Домашний элементор" . Лиопа .
- ^ Винсент, Джеймс (7 ноября 2016 г.). «Может ли глубокое обучение помочь в чтении по губам?» . Грань .
- ^ Quach, Katyanna. «Выявлено: как ИИ« водителя на заднем сиденье »Nvidia научился читать по губам» . www.theregister.com .