Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Спектрограмма произнесенного слова «девятнадцатый век». Частоты показаны в возрастании по вертикальной оси, а время по горизонтальной оси. Легенда справа показывает, что интенсивность цвета увеличивается с увеличением плотности.
Трехмерная спектрограмма: радиочастотный спектр зарядного устройства отображается с течением времени.

Спектрограмма представляет собой визуальное представление спектра на частотах сигнала , как он меняется со временем. При применении к звуковому сигналу , спектрограммы иногда называют sonographs , Голосовые метки , или voicegrams . Когда данные представлены в виде трехмерного графика, их можно назвать водопадами .

Спектрограммы широко используются в области музыки , лингвистики , сонара , радаров , обработки речи , [1] сейсмологии и других. Спектрограммы звука могут использоваться для фонетической идентификации произносимых слов и для анализа различных криков животных .

Спектрограмма может быть сгенерирована оптическим спектрометром , набором полосовых фильтров , преобразованием Фурье или вейвлет-преобразованием (в этом случае она также известна как скалограмма или скалограмма ). [2]

Масштабные диаграммы DWT и CWT для аудиосэмпла

Спектрограмма обычно изображается как тепловая карта , т. Е. Как изображение с интенсивностью, отображаемой путем изменения цвета или яркости .

Форматировать [ редактировать ]

Обычный формат - это график с двумя геометрическими измерениями: одна ось представляет время , а другая - частоту ; третье измерение, указывающее амплитуду конкретной частоты в конкретное время, представлено интенсивностью или цветом каждой точки изображения.

Существует множество вариантов формата: иногда вертикальная и горизонтальная оси меняются местами, поэтому время идет вверх и вниз; иногда в виде графика водопада, где амплитуда представлена ​​высотой трехмерной поверхности вместо цвета или интенсивности. Оси частоты и амплитуды могут быть линейными или логарифмическими , в зависимости от того, для чего используется график. Аудио обычно будет представлено с логарифмической осью амплитуды (вероятно, в децибелах или дБ), а частота будет линейной, чтобы подчеркнуть гармонические отношения, или логарифмической, чтобы подчеркнуть музыкальные, тональные отношения.

Поколение [ править ]

Спектрограммы света могут быть созданы непосредственно с помощью оптического спектрометра с течением времени.

Спектрограммы могут быть созданы из сигнала во временной области одним из двух способов: аппроксимированы как набор фильтров, который получается из серии полосовых фильтров (это был единственный способ до появления современной цифровой обработки сигналов), или вычислены из сигнал времени с использованием преобразования Фурье . Эти два метода фактически формируют два разных частотно-временных представления , но при некоторых условиях эквивалентны.

Метод полосовых фильтров обычно использует аналоговую обработку для разделения входного сигнала на полосы частот; величина выходного сигнала каждого фильтра управляет преобразователем, который записывает спектрограмму в виде изображения на бумаге. [3]

Создание спектрограммы с использованием БПФ - это цифровой процесс . Данные с цифровой выборкой во временной области разбиваются на фрагменты, которые обычно перекрываются, и преобразуются по Фурье для вычисления величины частотного спектра для каждого фрагмента. Каждый фрагмент соответствует вертикальной линии на изображении; измерение величины в зависимости от частоты в определенный момент времени (средняя точка фрагмента). Эти спектры или временные графики затем «накладываются бок о бок», чтобы сформировать изображение или трехмерную поверхность [4], или слегка перекрываются различными способами, то есть с помощью окон . Этот процесс , по существу , соответствует вычислению квадрата величины изкороткое время преобразования Фурье (STFT) сигнала - то есть, для ширины окна , . [5]

Ограничения и ресинтез [ править ]

Из приведенной выше формулы видно, что спектрограмма не содержит информации о точной или даже приблизительной фазе сигнала, который она представляет. По этой причине невозможно обратить процесс и сгенерировать копию исходного сигнала из спектрограммы, хотя в ситуациях, когда точная начальная фаза не важна, может быть возможно сгенерировать полезную аппроксимацию исходного сигнала. Спектрограф звука для анализа и ресинтеза [6] является примером компьютерной программы, которая пытается сделать это. Шаблон воспроизведения был ранним синтезатор речи, разработанный в Хэскинсом Laboratories в конце 1940 - х годов, что преобразованные фотографии акустических моделей речи (спектрограммы) обратно в звук.

На самом деле, есть некоторая фаза информация , содержащиеся в спектрограмме, но он появляется в другой форме, как задержка времени (или групповой задержка) , который является двойным от мгновенной частоты [ править ] .

Размер и форму окна анализа можно изменять. Меньшее (более короткое) окно даст более точные результаты по времени за счет точности представления частоты. Более крупное (более длинное) окно обеспечит более точное представление частоты за счет точности представления времени. Это пример принципа неопределенности Гейзенберга, согласно которому произведение точности двух сопряженных переменных больше или равно константе (B * T> = 1 в обычных обозначениях). [7]

Приложения [ править ]

  • Ранние аналоговые спектрограммы применялись в широком диапазоне областей, включая изучение криков птиц (например, большой синицы ), а текущие исследования продолжаются с использованием современного цифрового оборудования [8] и применяются ко всем звукам животных. Современное использование цифровой спектрограммы особенно полезно для изучения частотной модуляции (FM) в криках животных. В частности, отличительные характеристики FM-чириканья, широкополосных щелчков и социальной гармонии легче всего визуализировать с помощью спектрограммы.
  • Спектрограммы полезны для помощи в преодолении дефицита речи и в обучении речи для части населения, которая глубоко глухая [9]
  • Изучение фонетики и синтеза речи часто облегчается с помощью спектрограмм. [10] [11]
  • При синтезе речи на основе глубокого обучения спектрограмма (или спектрограмма в масштабе mel) сначала предсказывается моделью seq2seq, затем спектрограмма подается на нейронный вокодер для получения синтезированной необработанной формы волны.
  • Путем обращения процесса создания спектрограммы можно создать сигнал, спектрограмма которого представляет собой произвольное изображение. Этот метод можно использовать для скрытия изображения в аудиозаписи, и его использовали несколько исполнителей электронной музыки . [12] См. Также стеганографию .
  • Некоторая современная музыка создается с использованием спектрограмм в качестве промежуточного носителя; изменение интенсивности различных частот с течением времени или даже создание новых путем их рисования и последующего обратного преобразования. См. Раздел « Изменение звуковой шкалы и высоты звука» и « Фазовый вокодер» .
  • Спектрограммы могут использоваться для анализа результатов прохождения тестового сигнала через сигнальный процессор, такой как фильтр, с целью проверки его производительности. [13]
  • Спектрограммы высокого разрешения используются при разработке систем ВЧ и СВЧ [14]
  • Спектрограммы теперь используются для отображения параметров рассеяния, измеренных с помощью векторных анализаторов цепей [15]
  • Геологическая служба США и консорциум IRIS обеспечивают практически в режиме реального времени спектрограммы дисплеи для мониторинга сейсмических станций [16] [17]
  • Спектрограммы могут использоваться с рекуррентными нейронными сетями для распознавания речи. [18]

См. Также [ править ]

  • Акустическая подпись
  • Хромаграмма
  • Обобщенная спектрограмма
  • Список необъяснимых звуков
  • Метод переназначения
  • Кратковременное преобразование Фурье
  • Спектральная музыка
  • Спектрометр
  • Спектр
  • Тюнер стробоскопа
  • Частотно-временное представление
  • Сюжет водопада
  • Форма волны
  • Вейвлет-преобразование

Ссылки [ править ]

  1. ^ JL Flanagan, Анализ речи, синтез и восприятие, Springer-Verlag, Нью-Йорк, 1972
  2. ^ Sejdic, E .; Джурович, И .; Станкович, Л. (август 2008 г.). "Количественный анализ характеристик скалограммы как мгновенного оценщика частоты". Транзакции IEEE по обработке сигналов . 56 (8): 3837–3845. Bibcode : 2008ITSP ... 56.3837S . DOI : 10.1109 / TSP.2008.924856 . ISSN  1053-587X . S2CID  16396084 .
  3. ^ "Спектрограф" . www.sfu.ca . Проверено 7 апреля 2018 .
  4. ^ «Спектрограммы» . ccrma.stanford.edu . Проверено 7 апреля 2018 .
  5. ^ "Спектрограммы STFT VI - Справка по NI LabVIEW 8.6" . zone.ni.com . Проверено 7 апреля 2018 .
  6. ^ "Спектрограф звука анализа и ресинтеза" . arss.sourceforge.net . Проверено 7 апреля 2018 .
  7. ^ http://fourier.eng.hmc.edu/e161/lectures/fourier/node2.html
  8. ^ "ПТИЦЫ ПЕСНИ И ЗВОНКИ СО СПЕКТРОГРАММАМИ (СОНОГРАММАМИ) ЮЖНОЙ ТОСКАНЫ (Тоскана - Италия)" . www.birdsongs.it . Проверено 7 апреля 2018 .
  9. ^ Сондерс, Фрэнк А .; Hill, William A .; Франклин, Барбара (1 декабря 1981 г.). «Носимое тактильное сенсорное средство для глухих детей». Журнал медицинских систем . 5 (4): 265–270. DOI : 10.1007 / BF02222144 . PMID 7320662 . S2CID 26620843 .  
  10. ^ «Чтение спектрограммы» . ogi.edu . Архивировано из оригинального 27 апреля 1999 года . Проверено 7 апреля 2018 .
  11. ^ «Praat: фонетика на компьютере» . www.fon.hum.uva.nl . Проверено 7 апреля 2018 .
  12. ^ "Лицо Афекса - луба" . www.bastwood.com . Проверено 7 апреля 2018 .
  13. ^ «Сравнение SRC» . src.infinitewave.ca . Проверено 7 апреля 2018 .
  14. ^ "constantwave.com - ресурсы и информация constantwave" . www.constantwave.com . Проверено 7 апреля 2018 .
  15. ^ «Спектрограммы для векторных анализаторов цепей» . Архивировано из оригинала на 2012-08-10.
  16. ^ «Дисплеи спектрограммы в реальном времени» . earthquake.usgs.gov . Проверено 7 апреля 2018 .
  17. ^ "IRIS: MUSTANG: Шум-спектрограмма: Docs: v. 1: Help" .
  18. ^ Гейтгей, Адам (2016-12-24). «Машинное обучение - это весело, часть 6: как распознавать речь с помощью глубокого обучения» . Средний . Проверено 21 марта 2018 .

Внешние ссылки [ править ]

  • Просматривайте онлайн-спектрограмму речи или других звуков, записываемых микрофоном вашего компьютера.
  • Генерация последовательности тонов, спектрограмма которой соответствует произвольному тексту, онлайн
  • Дополнительная информация о создании сигнала, спектрограмма которого представляет собой произвольное изображение
  • Статья с описанием разработки программной спектрограммы
  • История спектрограмм и развитие аппаратуры
  • Как идентифицировать слова в спектрограмме из публикации « Ежемесячная таинственная спектрограмма» профессора лингвистики .
  • Sonogram Visible Speech GPL Бесплатная лицензионная программа для создания спектрограмм файлов сигналов.