Из Википедии, бесплатной энциклопедии
  (Перенаправлено с машинного прослушивания )
Перейти к навигации Перейти к поиску

Компьютерное прослушивание (CA) или машинное прослушивание - это общая область изучения алгоритмов и систем для понимания звука машиной. [1] [2] Поскольку понятие «слышать» для машины очень широкое и несколько расплывчатое, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально имели дело с конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис , опрошенный журналом Technology Review , говорит об этих системах - «программном обеспечении, которое использует звук для определения местоположения людей, движущихся по комнатам, контроля оборудования на предмет надвигающихся поломок или активации дорожных камер для записи происшествий». [3]

Вдохновленная моделями человеческого слуха , CA занимается вопросами представления, преобразования , группирования, использования музыкальных знаний и общей семантики звука для выполнения компьютерных интеллектуальных операций со звуковыми и музыкальными сигналами. Технически это требует комбинации методов из областей обработки сигналов , слухового моделирования , восприятия и познания музыки , распознавания образов и машинного обучения , а также более традиционных методов искусственного интеллекта для представления музыкальных знаний. [4] [5]

Приложения [ править ]

Подобно компьютерному зрению и обработке изображений, компьютерное прослушивание и звуковая инженерия имеют дело с пониманием звука, а не с обработкой. Он также отличается от проблем понимания речи машиной, поскольку имеет дело с общими звуковыми сигналами, такими как естественные звуки и музыкальные записи.

Приложения компьютерного прослушивания широко разнообразны и включают поиск звуков , распознавание жанров , акустический мониторинг , транскрипцию музыки , отслеживание партитуры, звуковую текстуру , музыкальную импровизацию , эмоции в звуке и так далее.

Связанные дисциплины [ править ]

Computer Audition пересекается со следующими дисциплинами:

  • Поиск музыкальной информации : методы поиска и анализа сходства музыкальных сигналов.
  • Анализ слуховой сцены: понимание и описание источников звука и событий.
  • Машинное прослушивание: методы извлечения значимых звуковых параметров из звуковых сигналов.
  • Вычислительное музыковедение и математическая теория музыки: использование алгоритмов, использующих музыкальные знания для анализа музыкальных данных.
  • Компьютерная музыка : использование компьютеров в творческих музыкальных приложениях.
  • Машинная музыка: интерактивные музыкальные системы, управляемые прослушиванием.

Направления обучения [ править ]

Поскольку аудиосигналы интерпретируются системой ухо-мозг человека, этот сложный механизм восприятия следует каким-то образом смоделировать в программном обеспечении для «машинного прослушивания». Другими словами, чтобы работать наравне с людьми, компьютер должен слышать и понимать аудиоконтент так же, как люди. Точный анализ звука включает несколько областей: электротехника (анализ спектра, фильтрация и преобразование звука); искусственный интеллект (машинное обучение и классификация звуков); [6] психоакустика (звуковосприятие); когнитивные науки (нейробиология и искусственный интеллект); [7]акустика (физика звукоизвлечения); и музыка (гармония, ритм и тембр). Кроме того, преобразования звука, такие как смещение высоты тона, растяжение по времени и фильтрация звуковых объектов, должны быть значимыми с точки зрения восприятия и музыки. Для достижения наилучших результатов эти преобразования требуют перцептивного понимания спектральных моделей, выделения высокоуровневых функций и анализа / синтеза звука. Наконец, для структурирования и кодирования содержимого аудиофайла (звука и метаданных) могут быть полезны эффективные схемы сжатия, которые отбрасывают неслышную информацию в звуке. [8] Вычислительные модели музыки и восприятия звука и познания могут привести к более значимому представлению, более интуитивному цифровому манипулированию и генерации звука и музыки в музыкальных человеко-машинных интерфейсах.

Изучение CA можно условно разделить на следующие подзадачи:

  1. Представление: сигнальное и символическое. Этот аспект имеет дело с частотно-временными представлениями, как с точки зрения нот, так и спектральных моделей, включая воспроизведение паттернов и звуковую текстуру.
  2. Извлечение функций : звуковые дескрипторы, сегментация, начало, определение высоты тона и огибающей , цветность и слуховые представления.
  3. Структуры музыкальных знаний: анализ тональности , ритма и гармоний .
  4. Сходство звука: методы сравнения звуков, идентификация звука, обнаружение новизны, сегментация и кластеризация.
  5. Моделирование последовательности: сопоставление и выравнивание между сигналами и последовательностями нот.
  6. Разделение источников: методы группировки одновременных звуков, такие как определение нескольких звуков и методы частотно-временной кластеризации.
  7. Слуховое познание: моделирование эмоций, ожидание и знакомство, слуховое удивление и анализ музыкальной структуры.
  8. Мультимодальный анализ: поиск соответствий между текстовыми, визуальными и звуковыми сигналами.

Проблемы с представительством [ править ]

Компьютерное прослушивание имеет дело со звуковыми сигналами, которые могут быть представлены различными способами, от прямого кодирования цифрового звука в двух или более каналах до символьно представленных инструкций синтеза. Аудиосигналы обычно представлены в виде аналоговых или цифровых записей. Цифровые записи - это образцы формы акустической волны или параметров алгоритмов сжатия звука . Одним из уникальных свойств музыкальных сигналов является то, что они часто сочетают в себе различные типы представлений, такие как графические партитуры и последовательности действий исполнения, которые кодируются как файлы MIDI .

Поскольку аудиосигналы обычно содержат несколько источников звука, то в отличие от речевых сигналов, которые можно эффективно описать в терминах конкретных моделей (таких как модель источника-фильтра), сложно разработать параметрическое представление для общего звука. Параметрические представления звука обычно используют банки фильтров или синусоидальные модели для захвата нескольких параметров звука, иногда увеличивая размер представления, чтобы захватить внутреннюю структуру сигнала. Дополнительные типы данных, которые актуальны для компьютерного прослушивания, - это текстовые описания аудиоконтента, такие как аннотации, обзоры и визуальная информация в случае аудиовизуальных записей.

Особенности [ править ]

Описание содержимого общих аудиосигналов обычно требует извлечения функций, которые фиксируют определенные аспекты аудиосигнала. Вообще говоря, можно разделить характеристики на сигналы или математические дескрипторы, такие как энергия, описание формы спектра и т. Д., Статистические характеристики, такие как обнаружение изменений или новизны, специальные представления, которые лучше приспособлены к природе музыкальных сигналов или слуховой системе, например, логарифмический рост чувствительности ( полосы пропускания ) по частоте или октавной инвариантности (цветности).

Поскольку параметрические модели в аудио обычно требуют очень многих параметров, функции используются для обобщения свойств нескольких параметров в более компактном или заметном представлении.

Музыкальные знания [ править ]

Найти конкретные музыкальные структуры можно, используя музыкальные знания, а также контролируемые и неконтролируемые методы машинного обучения. Примеры этого включают обнаружение тональности в соответствии с распределением частот, которое соответствует образцам появления нот в музыкальных гаммах, распределение времени начала нот для обнаружения структуры ударов, распределение энергии на разных частотах для обнаружения музыкальных аккордов и так далее.

Сходство звука и моделирование последовательности [ править ]

Сравнение звуков может быть выполнено путем сравнения характеристик со временем или без него. В некоторых случаях общее сходство можно оценить по близким значениям характеристик между двумя звуками. В других случаях, когда важна временная структура, необходимо применять методы динамической деформации времени для «корректировки» акустических событий в различных временных масштабах. Поиск повторов и подобных подпоследовательностей звуковых событий важен для таких задач, как синтез текстур и машинная импровизация .

Разделение источников [ править ]

Поскольку одной из основных характеристик обычного звука является то, что он включает несколько одновременно звучащих источников, таких как несколько музыкальных инструментов, говорящие люди, машинные шумы или вокализация животных, очень желательна способность идентифицировать и разделять отдельные источники. К сожалению, не существует методов , которые могут решить эту проблему в прочном моды. Существующие методы разделения источников иногда полагаются на корреляцию между различными аудиоканалами в многоканальных записях.. Способность отделять источники от стереосигналов требует методов, отличных от тех, которые обычно применяются в связи, где доступно несколько датчиков. Другие методы разделения источников основаны на обучении или кластеризации функций в моно записи, например, отслеживании гармонически связанных частей для обнаружения множественного тона. Некоторые методы до явного распознавания полагаются на выявление структур в данных без знания структур (например, распознавание объектов на абстрактных изображениях без присвоения им значимых меток) путем поиска наименее сложных представлений данных, например, описания звуковых сцен, созданных с помощью нескольких шаблонов тонов. и их траектории (полифонические голоса) и акустические контуры, нарисованные по тону (аккорды). [9]

Слуховое познание [ править ]

Прослушивание музыки и обычных звуков обычно не является целенаправленной деятельностью. Людям нравится музыка по разным непонятным причинам, которые обычно называют эмоциональным воздействием музыки из-за создания ожиданий и их реализации или нарушения. Животные обращают внимание на признаки опасности в звуках, которые могут быть как частными, так и общими представлениями об удивительных и неожиданных изменениях. Как правило, это создает ситуацию, когда компьютерное прослушивание не может полагаться исключительно на обнаружение определенных характеристик или звуковых свойств и должно предлагать общие методы адаптации к изменяющейся слуховой среде и мониторинга ее структуры. Он состоит из анализа более крупных повторений и структур самоподобия в аудио для обнаружения нововведений, а также способности прогнозировать динамику локальных характеристик.

Мультимодальный анализ [ править ]

Среди доступных данных для описания музыки есть текстовые представления, такие как заметки, обзоры и критические замечания, которые описывают аудиоконтент словами. В других случаях человеческие реакции, такие как эмоциональные суждения или психофизиологические измерения, могут дать представление о содержании и структуре звука. Computer Audition пытается найти взаимосвязь между этими различными представлениями, чтобы обеспечить это дополнительное понимание аудиоконтента.

См. Также [ править ]

  • Локализация 3D звука
  • Обработка аудиосигнала
  • Список новых технологий
  • Лаборатория медицинской разведки и языковой инженерии
  • Музыка и искусственный интеллект
  • Распознавание звука

Внешние ссылки [ править ]

  • Лаборатория компьютерного прослушивания UCSD
  • Ресурсы по компьютерному прослушиванию Джорджа Цанетакиса
  • Учебник Шломо Дубнова по компьютерному прослушиванию
  • Департамент электротехники, ИИТ (Бангалор)
  • Звук и музыкальные вычисления, Университет Ольборга, Копенгаген, Дания

Ссылки [ править ]

  1. ^ «Машинное прослушивание: принципы, алгоритмы и системы» .
  2. ^ "Машинное прослушивание: принципы, алгоритмы и системы" (PDF) .
  3. Пэрис Смарагдис научила компьютеры играть более реалистичную музыку.
  4. ^ Tanguiane (Тангиан), Андраник (1993). Искусственное восприятие и распознавание музыки . Конспект лекций по искусственному интеллекту. 746 . Берлин-Гейдельберг: Springer. ISBN 978-3-540-57394-4.
  5. ^ Тангян (Тангян), Andranick (1994). «Принцип коррелятивности восприятия и его приложение к распознаванию музыки». Восприятие музыки . 11 (4): 465–502. DOI : 10.2307 / 40285634 .
  6. ^ Келли, Дэниел; Колфилд, Брайан (февраль 2015 г.). «Распространенное звуковое восприятие: подход к обучению под слабым контролем». IEEE Transactions по кибернетике . 46 (1): 123–135. DOI : 10.1109 / TCYB.2015.2396291 . ЛВП : 10197/6853 . PMID 25675471 . 
  7. ^ Хендрик Purwins, Perfecto Herrera, Маартен Grachten, Амори Хазан, Ricard Марксер и Xavier Серра. Вычислительные модели восприятия музыки и познания I: цепочка восприятия и когнитивной обработки. Physics of Life Reviews, vol. 5, вып. 3, pp. 151–168, 2008. [1]
  8. ^ Веб-страница курса машинного прослушивания в Массачусетском технологическом институте
  9. ^ Тангян (Tangian), Andranick (1995). «К аксиоматизации восприятия музыки». Журнал новых музыкальных исследований . 24 (3): 247–281. DOI : 10.1080 / 09298219508570685 .