Обработка аудиосигнала

Обработка аудиосигналов - это подполе обработки сигналов , которое связано с электронной обработкой аудиосигналов . Аудиосигналы - это электронные представления звуковых волн - продольных волн, распространяющихся в воздухе, состоящих из сжатий и разрежений. Энергия, содержащаяся в аудиосигналах, обычно измеряется в децибелах . Поскольку аудиосигналы могут быть представлены в цифровом или аналоговом формате, обработка может происходить в любом домене. Аналоговые процессоры оперируют непосредственно электрическим сигналом, а цифровые процессоры математически оперируют его цифровым представлением.

История

Мотивация к обработке аудиосигналов началась в начале 20 века с таких изобретений, как телефон , фонограф и радио, которые позволили передавать и хранить аудиосигналы. Обработка звука была необходима для раннего радиовещания , так как было много проблем со связью между студией и передатчиком . ^[1] Теория обработки сигналов и ее применение к звуку в значительной степени были разработаны в Bell Labs в середине 20 века. Клода Шеннона и Найквист ранние работы «ы по теории связи , отбора проб теория и импульсно-кодовой модуляции (PCM) , были заложены основы для поля. В 1957 году Макс Мэтьюз стал первым человеком, синтезировавшим звук с компьютера , что породило компьютерную музыку .

Аналоговые сигналы

Аналоговый аудиосигнал - это непрерывный сигнал, представленный электрическим напряжением или током, который «аналогичен» звуковым волнам в воздухе. Затем обработка аналогового сигнала включает физическое изменение непрерывного сигнала путем изменения напряжения, тока или заряда через электрические цепи .

Исторически до появления широко распространенной цифровой технологии аналоговый был единственным методом манипулирования сигналом. С того времени, когда компьютеры и программное обеспечение стали более функциональными и доступными, предпочтительным методом стала цифровая обработка сигналов. Однако в музыкальных приложениях аналоговая технология часто по-прежнему желательна, поскольку часто дает нелинейные отклики, которые трудно воспроизвести с помощью цифровых фильтров.

Цифровые сигналы

Цифровое представление выражает звуковую волну как последовательность символов, обычно двоичных чисел . Это позволяет обрабатывать сигналы с использованием цифровых схем, таких как процессоры цифровых сигналов , микропроцессоры и универсальные компьютеры . В большинстве современных аудиосистем используется цифровой подход, поскольку методы цифровой обработки сигналов намного мощнее и эффективнее, чем обработка сигналов в аналоговой области. ^[11]

Области применения

Способы обработки и области применения включают хранение , сжатие данных , поиск музыкальной информации , обработку речи , локализацию , акустическое обнаружение , передачу , шумоподавление , акустические отпечатки пальцев , распознавание звука , синтез и улучшение (например, эквализацию , фильтрацию , сжатие уровня , эхо и реверберацию). удаление или добавление и т. д.).

Аудиотрансляция

Обработка аудиосигнала используется при трансляции аудиосигналов для повышения их точности или оптимизации полосы пропускания или задержки. В этой области наиболее важная обработка звука происходит непосредственно перед передатчиком. Аудиопроцессор здесь должен предотвращать или минимизировать перемодуляцию , компенсировать нелинейные передатчики (потенциальную проблему со средневолновым и коротковолновым вещанием) и регулировать общую громкость до желаемого уровня.

Активный контроль шума

Активный контроль шума - это метод, разработанный для уменьшения нежелательного звука. Создавая сигнал, идентичный нежелательному шуму, но с противоположной полярностью, два сигнала нейтрализуются из-за деструктивных помех .

Аудио синтез

Аудиосинтез - это электронная генерация аудиосигналов. Музыкальный инструмент, который выполняет это, называется синтезатором. Синтезаторы могут имитировать звуки или генерировать новые. Аудиосинтез также используется для генерации человеческой речи с помощью синтеза речи .

Звуковые эффекты

Звуковые эффекты - это системы, предназначенные для изменения звучания аудиосигнала. Необработанный звук метафорически называется сухим , а обработанный звук - влажным . ^[12]

задержка или эхо - чтобы имитировать эффект реверберации в большом зале или пещере, к исходному сигналу добавляются один или несколько задержанных сигналов. Чтобы восприниматься как эхо, задержка должна быть порядка 35 миллисекунд или больше. За исключением фактического воспроизведения звука в желаемой среде, эффект эха может быть реализован с использованием цифровых или аналоговых методов. Аналоговые эхо-эффекты реализуются с использованием ленточных задержек или устройств типа bucket-brigade . Когда смешивается большое количество задержанных сигналов, возникаетэффект реверберации ; В результате звук воспроизводится в большом помещении.
фленджер - для создания необычного звука к исходному сигналу добавляется задержанный сигнал с плавно регулируемой задержкой (обычно менее 10 мс). Этот эффект теперь выполняется в электронном виде с использованием DSP , но первоначально эффект создавался воспроизведением одной и той же записи на двух синхронизированных магнитофонах с последующим смешением сигналов. Пока машины были синхронизированы, микс будет звучать более или менее нормально, но если оператор приложит палец к фланцу одного из проигрывателей (отсюда «флэнджер»), этот аппарат замедлится, и его сигнал будет не совпадают по фазе со своим партнером, создаваяэффектфазирующего гребенчатого фильтра . Как только оператор убирал палец, игрок увеличивал скорость до тех пор, пока он не возвращался в фазу с мастером, и когда это происходило, эффект фазирования, казалось, сдвигался вверх по частотному спектру. Это повышение и понижение регистра может выполняться ритмично.
фазер - еще один способ создания необычного звука; сигнал разделяется, часть фильтруется переменным всепроходным фильтром для получения фазового сдвига, а затем нефильтрованные и отфильтрованные сигналы смешиваются для создания гребенчатого фильтра. Эффект фазера изначально был более простой реализацией эффекта фленджера, поскольку задержки было трудно реализовать с помощью аналогового оборудования.
хорус - к исходному сигналу добавляется задержанная версия сигнала. Задержка должна быть короткой, чтобы не восприниматься как эхо, но должна быть более 5 мс, чтобы ее можно было слышать. Если задержка слишком короткая, это будет деструктивно мешать сигналу без задержки и создаватьэффект флэнджера . Часто задержанные сигналы будут немного сдвинуты по высоте, чтобы более реалистично передать эффект нескольких голосов.
эквализация - частотная характеристика регулируется с помощью звукового фильтра (ов) для получения желаемых спектральных характеристик. Диапазоны частот можно выделить или ослабленыпомощью нижних частот , верхних частот , полосовой или группа-стоп фильтров. Умеренное использование эквализации можно использовать для точной настройки тонального качества записи; чрезмерное использование эквализации, например резкое срезание определенной частоты, может создавать более необычные эффекты. Полосовая фильтрация голоса может имитировать эффект телефона, поскольку в телефонах используются полосовые фильтры.
Эффекты перегрузки могут использоваться для создания искаженных звуков и увеличения громкости . Самый простой эффект овердрайва заключается в ограничении сигнала, когда его абсолютное значение превышает определенный порог.
изменение шкалы времени-высоты тона - этот эффект сдвигает сигнал вверх или вниз по высоте тона. Например, сигнал может быть сдвинут на октаву вверх или вниз. Смешивание исходного сигнала со смещенными дубликатами может создать гармонизацию . Еще одно применение изменения высоты звука - коррекция высоты звука, при которой музыкальный сигнал настраивается для улучшения интонации . Дополнением к сдвигу высоты тона является модификация шкалы времени, то есть процесс изменения скорости звукового сигнала без изменения его высоты тона.
резонаторы - подчеркивают содержание гармоник на указанных частотах. Они могут быть созданы из параметрического уравнения или из гребенчатых фильтров на основе задержки.
Роботизированные голосовые эффекты используются для того, чтобы голос актера звучал как синтезированный человеческий голос.
Кольцо модуляция представляет собой эффект сделанного известного врача , который «ы Далеков и широко используютсяпротяжении научной фантастики.
Сжатие динамического диапазона - контроль динамического диапазона звука во избежание непреднамеренных или нежелательных колебаний уровня. Сжатие динамического диапазона не следует путать со сжатием аудиоданных , когда объем данных уменьшается без влияния на амплитуду звука, который они представляют.
Трехмерные звуковые эффекты - размещение звуков за пределами пространственного диапазона, доступного через стерео или объемное изображение.
синтез волнового поля - метод пространственного воспроизведения звука для создания виртуальных акустических сред.
Де-эссер - контроль шипения в речи и пении.

Смотрите также

Звуковая карта
Звуковой эффект

дальнейшее чтение

Роккессо, Давиде (20 марта 2003 г.). Введение в обработку звука (PDF) .
Вилмеринг, Томас; Моффат, Дэвид; Майло, Алессия; Сэндлер, Марк Б. (2020). «История звуковых эффектов» . Прикладные науки . 10 (3): 791. DOI : 10,3390 / app10030791 .

[1] Атти, Андреас Spanias, Тед Painter, Venkatraman (2006). Обработка и кодирование аудиосигналов ([Online-Ausg.] Ред.). Хобокен, Нью-Джерси: Джон Уайли и сыновья. п. 464. ISBN 0-471-79147-4.

[DPCM-2] Патент США 2605361 , C. Чэпин Катлер, «Дифференциальная Квантование сигналов связи», выданный 1952-07-29

[3] Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и Интернет-протокола» (PDF) . Нашел. Тенденции сигнального процесса . 3 (4): 203–303. DOI : 10.1561 / 2000000036 . ISSN 1932-8346 .

[4] П. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, "Адаптивное квантование в дифференциальном кодировании речи с ИКМ", Bell Syst. Tech. J. , т. 52, стр. 1105–1118, сентябрь 1973 г.

[5] Cummiskey, P .; Джаянт, Никил С .; Фланаган, JL (1973). «Адаптивное квантование в дифференциальном кодировании речи с ИКМ». Технический журнал Bell System . 52 (7): 1105–1118. DOI : 10.1002 / j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .

[DCT-6] Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. DOI : 10.1109 / TC.1974.223784 .

[7] JP Princen, AW Johnson и AB Bradley: Кодирование поддиапазонов / преобразований с использованием схем банка фильтров, основанных на отмене наложения спектров во временной области , IEEE Proc. Intl. Конференция по акустике, речи и обработке сигналов (ICASSP), 2161–2164, 1987.

[Schroeder2014-8] Шредер, Манфред Р. (2014). "Bell Laboratories" . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. п. 388. ISBN. 9783319056609.

[Guckert-9] Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 .

[brandenburg-10] Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 года.

[11] Zölzer, Удо (1997). Цифровая обработка аудиосигнала . Джон Вили и сыновья. ISBN 0-471-97226-6.

[12] Ходжсон, Джей (2010). Понимание записей , стр.95. ISBN 978-1-4411-5607-5 .

[1]