Из Википедии, бесплатной энциклопедии
  (Перенаправлено из модификации шкалы времени аудио )
Перейти к навигации Перейти к поиску

Растяжение по времени - это процесс изменения скорости или продолжительности звукового сигнала без изменения его высоты тона . Масштабирование высоты тона противоположное: процесс изменения высоты звука без влияния на скорость. Pitch shift - это масштабирование высоты тона, реализованное в блоке эффектов и предназначенное для живого исполнения. Управление высотой звука - это более простой процесс, который одновременно влияет на высоту звука и скорость, замедляя или ускоряя запись.

Эти процессы часто используются для согласования высоты звука и темпа двух предварительно записанных клипов для микширования, когда клипы не могут быть воспроизведены или пересэмплированы. Растяжение времени часто используется для настройки радиорекламы [1] и звука телевизионной рекламы [2] так, чтобы она точно соответствовала имеющимся 30 или 60 секундам. Его можно использовать для согласования более длинного материала с определенным временным интервалом, например, для 1-часовой трансляции.

Передискретизация [ править ]

Самый простой способ изменить продолжительность или высоту звука цифрового аудиоклипа - это преобразовать частоту дискретизации . Это математическая операция, которая эффективно воссоздает непрерывную форму волны из ее дискретных выборок, а затем повторно производит повторную выборку этой формы волны с другой скоростью. Когда новые сэмплы воспроизводятся с исходной частотой дискретизации, аудиоклип звучит быстрее или медленнее. К сожалению, частоты в сэмпле всегда масштабируются в том же соотношении, что и скорость, транспонируя воспринимаемую высоту тона вверх или вниз в процессе. Другими словами, замедление записи снижает высоту звука, а увеличение скорости - повышает высоту звука. Это аналогично ускорению или замедлению аналоговой записи, такой как запись фонографа илилента , создающая эффект бурундука . Таким образом, при использовании этого метода нельзя разделить два эффекта. Драм-трек, не содержащий звуковых инструментов, может быть преобразован в темп с умеренной частотой дискретизации без отрицательных эффектов, а дорожка с тональной настройкой - нет.

Частотный домен [ править ]

Фазовый вокодер [ править ]

Один из способов увеличить длину сигнала, не влияя на высоту звука, - это построить фазовый вокодер по образцу Фланагана, Голдена и Портноффа.

Основные шаги:

  1. вычислить мгновенную зависимость частоты / амплитуды сигнала с помощью STFT , который представляет собой дискретное преобразование Фурье короткого, перекрывающегося и плавно обработанного окнами блока выборок;
  2. применить некоторую обработку к модулям и фазам преобразования Фурье (например, передискретизация блоков БПФ); и
  3. выполнить обратный STFT, взяв обратное преобразование Фурье для каждого фрагмента и добавив полученные фрагменты сигнала, также называемые перекрытием и сложением (OLA). [3]

Фазовый вокодер хорошо обрабатывает синусоидальные компоненты, но ранние реализации вводили значительное размытие переходных («биений») сигналов при всех нецелочисленных скоростях сжатия / расширения, что делало результаты фазовыми и размытыми. Недавние улучшения позволяют получить более качественные результаты при всех степенях сжатия / расширения, но эффект остаточного смазывания все еще сохраняется.

Технику фазового вокодера можно также использовать для выполнения сдвига высоты тона, хоруса, манипуляции тембром, гармонизации и других необычных модификаций, все из которых могут быть изменены в зависимости от времени.

Система синусоидального анализа / синтеза (на основе McAulay & Quatieri 1988 , стр. 161) [4]

Синусоидальное спектральное моделирование [ править ]

Другой метод растяжения во времени основан на спектральной модели сигнала. В этом методе пики идентифицируются в кадрах с использованием STFT сигнала, а синусоидальные «дорожки» создаются путем соединения пиков в соседних кадрах. Затем треки повторно синтезируются в новом масштабе времени. Этот метод может дать хорошие результаты как для полифонического, так и для ударного материала, особенно когда сигнал разделен на поддиапазоны. Однако этот метод более требователен к вычислениям, чем другие методы. [ необходима цитата ]

Моделирование монофонического звука как наблюдение по спирали функции с цилиндрической областью

Временная область [ править ]

СОЛА [ править ]

Рабинер и Шафер в 1978 году предложили альтернативное решение, которое работает во временной области : попытаться найти период (или, что эквивалентно, основную частоту ) заданного участка волны, используя некоторый алгоритм обнаружения основного тона (обычно пик автокорреляции сигнала , или иногда кепстральная обработка) и переходят от одного периода к другому.

Это называется гармоническим масштабированием во временной области [5] или методом синхронизированного сложения с перекрытием (SOLA) и работает несколько быстрее, чем фазовый вокодер на более медленных машинах, но терпит неудачу, когда автокорреляция неверно оценивает период сигнала со сложными гармониками (такими как как оркестровые пьесы).

Adobe Audition (ранее Cool Edit Pro), похоже, решает эту проблему, ища период, ближайший к центральному периоду, указанному пользователем, который должен быть целым числом, кратным темпу, и находиться между 30 Гц и самой низкой частотой низких частот.

Он гораздо более ограничен по объему, чем обработка на основе фазового вокодера, но может быть значительно менее интенсивен для процессора для приложений реального времени. Он обеспечивает наиболее последовательные результаты [ необходима цитата ] для однотонных звуков, таких как голос или музыкально-монофонические записи инструментов.

Высококачественные коммерческие пакеты обработки звука либо комбинируют эти два метода (например, путем разделения сигнала на синусоидальные и переходные формы волны), либо используют другие методы, основанные на вейвлет- преобразовании или обработке искусственной нейронной сети [ необходима цитата ] , обеспечивая высочайшее качество качественная растяжка времени.

Фреймовый подход [ править ]

Основанный на кадрах подход многих процедур TSM

Чтобы сохранить высоту звука звукового сигнала при растяжении или сжатии его длительности, многие процедуры модификации шкалы времени (TSM) следуют подходу на основе кадров. [6] Учитывая исходный аудиосигнал с дискретным временем, первым шагом этой стратегии является разделение сигнала на короткие кадры анализа фиксированной длины. Кадры анализа разделены фиксированным числом образцов, называемым размером скачка анализа . Чтобы достичь фактического изменения шкалы времени, кадры анализа затем перемещаются по времени, чтобы иметь размер скачкообразного синтеза . Этот кадр перемещение приводит к изменению продолжительности сигнала путем растяжения фактора из . Однако простое наложение немодифицированных кадров анализа обычно приводит к нежелательным артефактам, таким как скачки фазы или флуктуации амплитуды. Чтобы предотвратить такие виды артефактов, кадры анализа адаптированы для формирования кадров синтеза до реконструкции выходного сигнала с измененной шкалой времени.

Стратегия получения кадров синтеза из кадров анализа является ключевым различием между различными процедурами TSM.

Скоростной слух и скоростная речь [ править ]

Для конкретного случая речи растяжение по времени может быть выполнено с помощью PSOLA .

Хотя можно было ожидать, что ускорение уменьшит понимание, Херб Фридман говорит: «Эксперименты показали, что мозг работает наиболее эффективно, если скорость передачи информации через уши - посредством речи - равна« средней »скорости чтения, которая составляет около 200–300 слов в минуту. (слов в минуту), но средняя скорость речи находится в районе 100–150 слов в минуту ». [7]

Ускорение звука считается эквивалентом скорочтения . [8] [9]

Масштабирование звука [ править ]

Сдвиг частоты, обеспечиваемый Bode Frequency Shifter , не сохраняет соотношение частот и гармонию.

Эти методы также можно использовать для транспонирования аудиосэмпла, сохраняя постоянную скорость или длительность. Это может быть достигнуто путем растягивания по времени, а затем повторной выборки до исходной длины. В качестве альтернативы, частота синусоид в синусоидальной модели может быть изменена напрямую, а сигнал восстановлен в соответствующем масштабе времени.

Транспонирование можно назвать масштабированием частоты или сдвигом высоты тона , в зависимости от перспективы.

Например, можно поднять высоту звука каждой ноты на одну квинту, сохраняя при этом темп. Эту транспозицию можно рассматривать как «смещение высоты тона», «смещение» каждой ноты вверх на 7 клавиш на клавиатуре пианино, или добавление фиксированной величины по шкале Mel , или добавление фиксированной величины в линейном пространстве высоты тона . Можно рассматривать такое же транспонирование, как «масштабирование частоты», «масштабирование» (умножение) частоты каждой ноты на 3/2.

Музыкальное транспонирование сохраняет соотношение гармонических частот, определяющих тембр звука , в отличие от частотного сдвига, выполняемого амплитудной модуляцией , которая добавляет фиксированный частотный сдвиг к частоте каждой ноты. (Теоретически можно было бы выполнить буквальное масштабирование высоты тона, при котором масштабируется местоположение музыкального пространства основного тона [более высокая нота будет смещена с большим интервалом в линейном пространстве основного тона, чем более низкая нота], но это очень необычно и не музыкально. [ необходима цитата ] )

Обработка во временной области работает здесь намного лучше, так как размытие менее заметно, но масштабирование вокальных сэмплов искажает форманты в своего рода эффект Элвина и бурундуков , который может быть желательным или нежелательным. Процесс, который сохраняет форманты и характер голоса, включает анализ сигнала с помощью канального вокодера или вокодера LPC плюс любой из нескольких алгоритмов обнаружения основного тона с последующим его повторным синтезом на другой основной частоте.

Подробное описание старых аналоговых методов записи для изменения высоты тона можно найти в статье Элвина и бурундуков .

См. Также [ править ]

  • Обработка аудиосигнала
  • Динамическая тональность - изменение настройки и тембра в реальном времени
  • Звуковые эффекты
  • Речь с сжатием во времени

Ссылки [ править ]

  1. ^ https://web.archive.org/web/20080527184101/http://www.tvtechnology.com/features/audio_notes/f_audionotes.shtml
  2. ^ http://www.atarimagazines.com/creative/v9n7/122_Variable_speech.php
  3. ^ Jont Б. Аллен (июнь 1977). «Кратковременный спектральный анализ, синтез и модификация с помощью дискретного преобразования Фурье». Транзакции IEEE по акустике, речи и обработке сигналов . АССП-25 (3): 235–238.
  4. ^ McAulay, RJ; Quatieri, TF (1988), «Обработка речи на основе синусоидальной модели» (PDF) , The Lincoln Laboratory Journal , 1 (2): 153–167, заархивировано из оригинала (PDF) 21 мая 2012 г. , извлечено в 2014 г. -09-07
  5. ^ Дэвид Malah (апрель 1979). «Алгоритмы временной области для уменьшения гармонической полосы пропускания и временного масштабирования речевых сигналов». Транзакции IEEE по акустике, речи и обработке сигналов . АССП-27 (2): 121–133.
  6. ^ Джонатан Дридгер и Мейнард Мюллер (2016). "Обзор модификации музыкальных сигналов в масштабе времени" . Прикладные науки . 6 (2): 57. DOI : 10,3390 / app6020057 .
  7. ^ Переменная речь , Creative Computing Vol. 9, No. 7 / июль 1983 г. / стр. 122
  8. ^ http://www.nevsblog.com/2006/06/23/listen-to-podcasts-in-half-the-time/
  9. ^ https://web.archive.org/web/20060902102443/http://cid.lib.byu.edu/?p=128

Внешние ссылки [ править ]

  • Обзор времени растяжения и изменения высоты тона Исчерпывающий обзор методов изменения текущего времени и высоты звука, сделанный Стефаном Бернзее.
  • Исходный код smbPitchShift C Стефана Бернзее Исходный код C для выполнения манипуляции с высотой тона в частотной области
  • pitchshift.js от KievII - питчшифтер Javascript на основе кода smbPitchShift из библиотеки KievII с открытым исходным кодом.
  • Фазовый вокодер: Учебное пособие - Хорошее описание фазового вокодера
  • Новые техники фазового вокодера для изменения высоты звука, гармонизации и других экзотических эффектов
  • Новый подход к обработке переходных процессов в фазовом вокодере
  • PICOLA и TDHS
  • Как построить питч-шифтер Теория, уравнения, рисунки и характеристики гитарного питч-шифтера в реальном времени, работающего на микросхеме DSP
  • Библиотека растяжения времени ZTX Бесплатные и коммерческие версии популярной сторонней библиотеки растяжения времени для iOS, Linux, Windows и Mac OS X
  • Коммерческая кроссплатформенная библиотека Elastique от zplane , в основном используется производителями диджеев и DAW.
  • Voice Synth от Qneo - специализированный синтезатор для творческой обработки голоса
  • Набор инструментов TSM Бесплатные реализации MATLAB различных процедур модификации шкалы времени
  • Pitch Shifter Audio Tool Онлайн-инструмент для изменения высоты звука, реализованный на алгоритме SoundTouch.