Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Акустический отпечаток палец является конденсируют цифровое резюме, отпечатки пальцев , детерминировано генерируется из звукового сигнала , который может быть использован для идентификации аудио образца или быстро найти подобные элементы в аудио базы данных . [1]

Практическое использование акустической дактилоскопии включает идентификацию песен , мелодий , мелодий или рекламы ; управление библиотекой звуковых эффектов ; и идентификация видеофайлов . Идентификация носителей с помощью акустических отпечатков пальцев может использоваться для отслеживания использования определенных музыкальных произведений и выступлений в радиопередачах , записях , компакт-дисках , потоковых медиа и одноранговых сетях. Этот идентификатор использовался в схемах соблюдения авторских прав, лицензирования и других схем монетизации .

Атрибуты [ править ]

Надежный алгоритм акустического отпечатка пальца должен учитывать характеристики восприятия звука. Если два файла звучат одинаково для человеческого уха, их акустические отпечатки пальцев должны совпадать, даже если их двоичное представление сильно различается. Акустические отпечатки пальцев - это не хэш-функции , которые должны быть чувствительны к любым небольшим изменениям данных. Акустические отпечатки пальцев больше похожи на отпечатки пальцев человека, где допускаются небольшие вариации, несущественные для функций, которые использует отпечаток пальца. Можно представить себе случай размазанного отпечатка отпечатка пальца человека, который можно точно сопоставить с другим образцом отпечатка пальца в справочной базе данных; акустические отпечатки пальцев работают аналогичным образом.

Характеристики восприятия, часто используемые звуковыми отпечатками пальцев, включают среднюю частоту пересечения нуля , расчетный темп , средний спектр , спектральную ровность , заметные тона в наборе частотных диапазонов и полосу пропускания .

Большинство методов сжатия звука вносят радикальные изменения в двоичное кодирование аудиофайла, не влияя радикально на то, как он воспринимается человеческим ухом. Надежный акустический отпечаток пальца позволит идентифицировать запись после того, как она прошла такое сжатие, даже если качество звука значительно снизилось. Для использования в мониторинге радиовещания акустические отпечатки пальцев также должны быть нечувствительными к артефактам аналоговой передачи .

Спектрограмма [ править ]

Создание сигнатуры из аудио важно для поиска по звуку . Один из распространенных методов - создание частотно-временного графика, называемого спектрограммой .

Любой фрагмент аудио можно преобразовать в спектрограмму. Каждый фрагмент звука со временем разбивается на несколько сегментов. В некоторых случаях смежные сегменты имеют общую временную границу, в других случаях смежные сегменты могут перекрываться. Результатом является график, который отображает три измерения звука: частота против амплитуды (интенсивности) против времени.

Shazam [ править ]

Алгоритм Shazam выбирает точки, где есть пики на спектрограмме, которые представляют более высокое содержание энергии. [2] Сосредоточение внимания на пиках звука значительно снижает влияние фонового шума на идентификацию звука. Shazam строит свой каталог отпечатков пальцев в виде хэш-таблицы , где ключом является частота. Они не просто отмечают одну точку на спектрограмме, скорее они отмечают пару точек: пиковую интенсивность плюс вторую точку привязки . [3] Таким образом, их ключ базы данных - это не просто одна частота, это хэш частот обеих точек. Это приводит к меньшему количеству хэш-коллизий, улучшая производительность хеш-таблицы.[4]

См. Также [ править ]

  • Хромапринт
  • Автоматическое распознавание контента
  • Цифровое видео отпечатков пальцев
  • Извлечение признаков
  • Кодекс Парсонса
  • Перцептивное хеширование
  • Поиск по звуку
  • Распознавание звука

Ссылки [ править ]

  1. ^ ISO IEC TR 21000-11 (2004), Мультимедийная структура (MPEG-21) - Часть 11: Инструменты оценки для технологий постоянных ассоциаций
  2. ^ Surdu Николай (20 января 2011). "Как Shazam распознает песню?" . Архивировано из оригинального по 2016-10-24 . Проверено 12 февраля 2018 .
  3. ^ Ли-Чун Ван, Эйвери, Промышленный алгоритм поиска аудио (PDF) , Колумбийский университет , получено 2 апреля 2018 г.
  4. ^ «Как работает Shazam» . Проверено 2 апреля 2018 .

Внешние ссылки [ править ]

  • Обзор алгоритмов снятия отпечатков пальцев (П. Кано и др., На Международном семинаре по обработке мультимедийных сигналов, Виргинские острова США, декабрь 2002 г.)
  • Контентное извлечение музыки и аудио, Джонатан Фут, ISS, Национальный университет Сингапура.