Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

LipNet - это глубокая нейронная сеть для визуального распознавания речи . Его создали Яннис Ассаэль, Брендан Шиллингфорд , Шимон Уайтсон и Нандо де Фрейтас , исследователи из Оксфордского университета . Техника, описанная в статье, опубликованной в ноябре 2016 г. [1] , позволяет расшифровать текст по движению рта говорящего. Традиционные подходы к визуальному распознаванию речи разделяют проблему на два этапа: проектирование или изучение визуальных функций и прогнозирование. LipNet была первой сквозной моделью чтения по губам на уровне предложения, которая одновременно изучала пространственно-временные визуальные особенности и модель последовательности. [2]Аудио-визуальное распознавание речи имеет огромный практический потенциал, с приложениями в улучшенных слуховых аппаратах, медицинские применения, такие как улучшение восстановления и благополучие больных в критическом состоянии, [3] и распознавание речи в шумной обстановке, [4] , такие как Nvidia S» автономные транспортные средства. [5]

Ссылки [ править ]

  1. ^ Assael, Yannis M .; Шиллингфорд, Брендан; Уайтсон, Шимон; де Фрейтас, Нандо (16 декабря 2016 г.). «LipNet: непрерывное чтение по губам на уровне предложения». arXiv : 1611.01599 [ cs.LG ].
  2. ^ «AI, который читает по губам« лучше, чем люди » » . 8 ноября 2016 г. - на сайте www.bbc.com.
  3. ^ "Домашний элементор" . Лиопа .
  4. ^ Винсент, Джеймс (7 ноября 2016 г.). «Может ли глубокое обучение помочь в чтении по губам?» . Грань .
  5. ^ Quach, Katyanna. «Выявлено: как ИИ« водителя на заднем сиденье »Nvidia научился читать по губам» . www.theregister.com .