Семантическое аудио

Семантический звук — это извлечение смысла из звуковых сигналов . Область семантического звука в основном основана на анализе звука для создания некоторых значимых метаданных, которые затем можно использовать различными способами.

Семантический анализ аудио выполняется для выявления более глубокого понимания аудиосигнала. Обычно это приводит к высокоуровневым дескрипторам метаданных , таким как музыкальные аккорды и темп, или к идентификации человека, говорящего, для облегчения управления аудиозаписями на основе контента. В последние годы значительно вырос рост методов автоматического анализа данных.

С разработкой приложений, которые используют эту семантическую информацию для поддержки пользователя в идентификации, организации и изучении звуковых сигналов и взаимодействии с ними. Эти приложения включают поиск музыкальной информации, семантические веб-технологии, производство звука, воспроизведение звука, образование и игры. Семантическая технология предполагает некоторое понимание значения информации, с которой она имеет дело, и с этой целью может включать машинное обучение, цифровую обработку сигналов, обработку речи, разделение источников, перцептивные модели слуха, музыковедческие знания, метаданные и онтологии.

Помимо технологий поиска и рекомендации аудио, семантика аудиосигналов также становится все более важной, например, в объектно-ориентированном кодировании аудио, а также при интеллектуальном редактировании и обработке аудио. Недавние выпуски продуктов уже демонстрируют это в значительной степени, однако более инновационные функции, основанные на семантическом аудиоанализе и управлении, неизбежны. Эти функции могут использовать, например, (информированное) разделение источников звука, сегментацию и идентификацию говорящих, структурную музыкальную сегментацию или социальные и семантические веб- технологии, включая онтологии и связанные открытые данные.

Распознавание речи является важным семантическим аудиоприложением. Но для речи другие семантические операции включают идентификацию языка , идентификацию говорящего или гендерную идентификацию. Для более общего аудио или музыки это включает в себя идентификацию музыкального произведения (например, Shazam (услуга) ) или саундтрека к фильму.

Области исследований в области семантического звука включают возможность маркировать форму звуковой волны, указывая, где меняются гармонии и что они из себя представляют, где материал повторяется и какие инструменты играют.