Мел-частотный кепстр


В обработке звука мел-частотный кепстр ( MFC ) представляет собой представление краткосрочного спектра мощности звука, основанное на линейном косинусном преобразовании логарифмического спектра мощности по нелинейной мел -шкале частоты.

Кепстральные коэффициенты Mel-частоты ( MFCC ) - это коэффициенты, которые в совокупности составляют MFC. [1] Они получены из типа кепстрального представления аудиоклипа (нелинейный «спектр спектра»). Разница между кепстром и мел-частотным кепстром заключается в том, что в MFC полосы частот равномерно распределены по мел-шкале, что более точно приближает реакцию слуховой системы человека, чем полосы частот с линейным интервалом, используемые в нормальном спектре. Это искажение частоты может обеспечить лучшее представление звука, например, при сжатии звука .

В этом процессе могут быть вариации, например: различия в форме или интервалах между окнами, используемыми для отображения масштаба, [3] или добавление динамических характеристик, таких как «дельта» и «дельта-дельта» (первое и второе). разность между кадрами) коэффициенты. [4]

Европейский институт телекоммуникационных стандартов в начале 2000-х годов определил стандартизированный алгоритм MFCC для использования в мобильных телефонах . [5]

MFCC обычно используются в качестве функций в системах распознавания речи [6] , таких как системы, которые могут автоматически распознавать числа, произнесенные по телефону.

MFCC также все чаще находят применение в приложениях для поиска музыкальной информации , таких как классификация жанров , измерения сходства звука и т. Д. [7]