Функция головы , связанная передачи ( HRTF ), иногда также известная как анатомическая передаточная функция (ATF) [ править ] , является ответом , который характеризует , каким образ ухаполучает звук из точки в пространстве. Когда звук поражает слушателя, размер и форма головы, ушей, слухового прохода, плотность головы, размер и форма носовых и ротовых полостей - все это преобразует звук и влияет на его восприятие, повышая одни частоты и ослабляя другие. . Вообще говоря, HRTF повышает частоты с 2–5 кГц с первичным резонансом +17 дБ на частоте 2700 Гц. Но кривая отклика более сложна, чем одиночный выступ, влияет на широкий частотный спектр и значительно варьируется от человека к человеку.
Пара HRTF для двух ушей может использоваться для синтеза бинаурального звука, который, кажется, исходит из определенной точки в пространстве. Это передаточная функция , описывающая, как звук из определенной точки попадает в ухо (обычно на внешний конец слухового прохода ). Некоторые бытовые продукты для домашних развлечений, предназначенные для воспроизведения объемного звука через стереонаушники (с двумя динамиками), используют HRTF. Некоторые формы HRTF-обработки также были включены в компьютерное программное обеспечение для имитации воспроизведения объемного звука из динамиков.
У людей всего два уха , но они могут определять местонахождение звуков в трех измерениях - в диапазоне (расстояние), в направлении вверх и вниз (высота), спереди и сзади, а также в любую сторону (азимут). Это возможно, потому что мозг, внутреннее ухо и наружное ухо ( ушная раковина ) работают вместе, чтобы сделать выводы о местоположении. Эта способность локализовать источники звука могла развиться у людей и предков как эволюционная необходимость, поскольку глаза могут видеть только часть мира вокруг зрителя, а зрение затруднено в темноте, в то время как способность локализовать источник звука работает в во всех направлениях с различной точностью [1] независимо от окружающего освещения.
Люди оценивают местонахождение источника, принимая сигналы, поступающие от одного уха ( монофонические сигналы ), и сравнивая сигналы, полученные обоими ушами ( сигналы различий или бинауральные сигналы ). Среди сигналов различия - разница во времени прибытия и разница в интенсивности. Монауральные сигналы возникают из-за взаимодействия между источником звука и анатомией человека, при котором исходный исходный звук изменяется до того, как он попадает в слуховой проход для обработки слуховой системой. Эти модификации кодируют местоположение источника и могут быть зафиксированы посредством импульсной характеристики, которая связывает местоположение источника и местоположение уха. Этот импульсный отклик называется импульсным откликом, связанным с головой (HRIR). Свертка произвольного источника звука с помощью HRIR преобразует звук в звук, который слушатель мог бы услышать, если бы он воспроизводился в месте источника, а ухо слушателя находилось в месте приема. HRIR использовались для создания виртуального объемного звука. [2] [3] [ нужен пример ]
HRTF - это преобразование Фурье HRIR.
HRTF для левого и правого уха (выраженные выше как HRIR) описывают фильтрацию источника звука ( x ( t )) до того, как он будет восприниматься левым и правым ухом как x L ( t ) и x R ( t ), соответственно.
HRTF также можно описать как модификации звука от направления в свободном воздухе до звука, когда он достигает барабанной перепонки . Эти изменения включают форму внешнего уха слушателя, форму головы и тела слушателя, акустические характеристики пространства, в котором воспроизводится звук, и так далее. Все эти характеристики будут влиять на то, как (и сможет ли) слушатель точно определить, с какого направления исходит звук.
В AES69-2015 стандарте, [4] Audio Engineering Society (AES) , определил формат файла для хранения SOFA пространственно ориентированных акустических данных , как функции относящихся к голове (HRTF , ). Библиотеки и файлы программного обеспечения SOFA собраны на веб-сайте Sofa Conventions. [5]
Как работает HRTF
Связанный с этим механизм различается у разных людей, поскольку их голова и форма ушей различаются.
HRTF описывает, как входная звуковая волна (параметризованная как частота и местоположение источника) фильтруется за счет свойств дифракции и отражения головы , ушной раковины и туловища , прежде чем звук достигнет трансдукционного механизма барабанной перепонки и внутреннего уха (см. Слуховая система ). С биологической точки зрения, эффекты предварительной фильтрации этих внешних структур, зависящие от местоположения источника , помогают в нейронном определении местоположения источника , в частности, в определении высоты источника (см. Вертикальную локализацию звука ). [6]
Техническое происхождение
Анализ линейных систем определяет передаточную функцию как комплексное соотношение между спектром выходного сигнала и спектром входного сигнала как функцию частоты. Blauert (1974; цитируется по Blauert, 1981) первоначально определил передаточную функцию как передаточную функцию в свободном поле (FFTF). Другие термины включают функцию передачи свободного поля в барабанную перепонку и преобразование давления из свободного поля в барабанную перепонку. Менее конкретные описания включают передаточную функцию ушной раковины, передаточную функцию наружного уха , реакцию ушной раковины или функцию направленной передачи (DTF).
Передаточная функция H ( f ) любой линейной инвариантной во времени системы на частоте f равна:
- H ( f ) = Выход ( f ) / Вход ( f )
Таким образом, один метод, используемый для получения HRTF из заданного местоположения источника, заключается в измерении связанной с головой импульсной характеристики (HRIR), h ( t ), в барабанной перепонке для импульса Δ ( t ), помещенного в источник. HRTF H ( f ) - это преобразование Фурье HRIR h ( t ).
Даже при измерении для «манекена» идеализированной геометрии HRTF являются сложными функциями частоты и трех пространственных переменных . Однако для расстояний более 1 м от головы можно сказать, что HRTF затухает обратно пропорционально дальности. Именно это далеко поле HRTF, Н ( F , θ , φ ), который чаще всего были измерены. На более близком расстоянии разница в уровнях, наблюдаемая между ушами, может стать довольно большой даже в низкочастотной области, в которой наблюдаются незначительные различия в уровнях в дальней зоне.
HRTF обычно измеряются в безэховой камере, чтобы минимизировать влияние ранних отражений и реверберации на измеряемый отклик. HRTF измеряются с небольшими приращениями θ, такими как 15 ° или 30 ° в горизонтальной плоскости, с интерполяцией, используемой для синтеза HRTF для произвольных положений θ . Однако даже с небольшими приращениями интерполяция может привести к путанице спереди и сзади, и оптимизация процедуры интерполяции является активной областью исследований.
Чтобы максимизировать отношение сигнал / шум (SNR) в измеряемой HRTF, важно, чтобы генерируемый импульс был большой громкости. На практике, однако, может быть сложно генерировать импульсы с большой громкостью, и, если они сгенерированы, они могут повредить человеческий слух, поэтому чаще всего HRTF рассчитываются непосредственно в частотной области с использованием синусоидальной волны с разверткой по частоте. или с использованием последовательностей максимальной длины . Однако усталость пользователя по-прежнему является проблемой, что подчеркивает необходимость возможности интерполировать на основе меньшего количества измерений.
Связанная с головой передаточная функция участвует в разрешении конуса замешательства , ряда точек, в которых ITD и ILD идентичны для источников звука из многих мест вокруг нулевой части конуса. Когда звук воспринимается ухом, он может либо идти прямо вниз по уху в слуховой проход, либо отражаться от ушных раковин в слуховой проход через долю секунды. Звук будет содержать много частот, поэтому многие копии этого сигнала будут проходить вниз по уху в разное время в зависимости от их частоты (в зависимости от отражения, дифракции и их взаимодействия с высокими и низкими частотами, а также размера структур звука). ухо.) Эти копии накладываются друг на друга, и во время этого некоторые сигналы усиливаются (где фазы сигналов совпадают), в то время как другие копии отменяются (когда фазы сигнала не совпадают). По сути, мозг ищет в сигнале частотные отметки, соответствующие определенным известным направлениям звука. [ необходима цитата ]
Если бы уши другого человека были заменены, человек не смог бы сразу локализовать звук, поскольку модели усиления и отмены были бы отличны от тех моделей, к которым привыкла слуховая система человека. Однако через несколько недель слуховая система адаптировалась к новой передаточной функции головы. [7] Межсубъектная изменчивость спектров HRTF была изучена с помощью кластерного анализа. [8]
Оценивая вариации через изменения между ухом человека, мы можем ограничить нашу перспективу степенями свободы головы и ее соотношением с пространственной областью. Благодаря этому мы устраняем наклон и другие параметры координат, которые добавляют сложности. В целях калибровки нас интересует только уровень направления к нашим ушам, следовательно, определенная степень свободы. Вот некоторые из способов, которыми мы можем вывести выражение для калибровки HRTF:
- Локализация звука в виртуальном слуховом пространстве [9]
- Фазовый синтез HRTF [10]
- HRTF Magnitude синтез [11]
Локализация звука в виртуальном слуховом пространстве [9]
Основное предположение при создании виртуального слухового пространства состоит в том, что если акустические колебания, присутствующие в барабанных перепонках слушателя, в наушниках такие же, как и в свободном поле, то ощущения слушателя также должны быть такими же.
Обычно звуки, издаваемые наушниками, воспринимаются как исходящие изнутри головы. В виртуальном слуховом пространстве наушники должны иметь возможность «экстернализировать» звук. Используя HRTF, звуки можно пространственно позиционировать, используя технику, описанную ниже.
Пусть x 1 ( t ) представляет электрический сигнал, управляющий громкоговорителем, а y 1 ( t ) представляет сигнал, принимаемый микрофоном внутри барабанной перепонки слушателя. Аналогично, пусть x 2 ( t ) представляет электрический сигнал, управляющий наушниками, а y 2 ( t ) представляет реакцию микрофона на сигнал. Цель виртуального слухового пространства - выбрать x 2 ( t ) так, чтобы y 2 ( t ) = y 1 ( t ). Применяя преобразование Фурье к этим сигналам, мы получаем следующие два уравнения:
- Y 1 = X 1 LFM и
- Y 2 = X 2 HM,
где L - передаточная функция громкоговорителя в свободном поле, F - HRTF, M - передаточная функция микрофона, а H - передаточная функция от наушников к барабанной перепонке. Устанавливая Y 1 = Y 2 и решая для X 2, получаем
- Х 2 = Х 1 НЧ / Н.
По наблюдениям, желаемая передаточная функция равна
- Т = LF / Н .
Следовательно, теоретически, если x 1 ( t ) проходит через этот фильтр и полученный x 2 ( t ) воспроизводится в наушниках, он должен давать такой же сигнал на барабанной перепонке. Поскольку фильтр применяется только к одному уху, другой должен быть получен для другого уха. Этот процесс повторяется для многих мест в виртуальной среде, чтобы создать массив передаточных функций, связанных с головой, для каждой позиции, которую необходимо воссоздать, при этом гарантируя, что условия выборки устанавливаются критериями Найквиста .
Фазовый синтез HRTF [10]
В очень низкой части полосы частот менее надежная оценка фазы, а в верхних частотах на фазовую характеристику влияют особенности ушной раковины. Более ранние исследования также показывают, что фазовая характеристика HRTF в основном линейна, и что слушатели нечувствительны к деталям межурального фазового спектра, пока сохраняется межуральная временная задержка (ITD) объединенной низкочастотной части формы волны. Это смоделированная фазовая характеристика HRTF объекта в виде временной задержки, зависящая от направления и высоты.
Коэффициент масштабирования зависит от антропометрических характеристик. Например, обучающий набор из N субъектов будет рассматривать каждую фазу HRTF и описывать один масштабный коэффициент ITD как среднюю задержку группы. Этот вычисленный коэффициент масштабирования может оценивать временную задержку как функцию направления и высоты для любого конкретного человека. Преобразование временной задержки в фазовую характеристику для левого и правого уха тривиально.
Фазу HRTF можно описать масштабным коэффициентом ITD . Это, в свою очередь, количественно оценивается антропометрическими данными конкретного человека, взятыми за основу. Для общего случая мы рассматриваем β как разреженный вектор
который представляет антропометрические особенности объекта как линейную суперпозицию антропометрических характеристик из обучающих данных (y ' = β T X), а затем применяет тот же разреженный вектор непосредственно к вектору масштабирования H. Мы можем записать эту задачу как задачу минимизации , для неотрицательного параметра усадки λ :
Исходя из этого, значение масштабного коэффициента ITD H ' оценивается как:
где масштабные коэффициенты ITD для всех людей в наборе данных сложены в вектор H ∈ R N , поэтому значение H n соответствует масштабному коэффициенту n-го человека.
Синтез величины HRTF [11]
Мы решаем указанную выше задачу минимизации с помощью оператора наименьшей абсолютной усадки и выбора (LASSO). Мы предполагаем, что HRTF представлены тем же соотношением, что и антропометрические характеристики. Следовательно, как только мы узнаем разреженный вектор β из антропометрических характеристик, мы напрямую применим его к данным тензора HRTF и значениям HRTF H ' субъекта, заданным следующим образом:
где HRTF для каждого субъекта описываются тензором размера D × K , где D - количество направлений HRTF, а K - количество элементов разрешения по частоте. Все H n , d , k соответствуют всем HRTF обучающего набора, укладываются в новый тензор H ∈ R N × D × K , поэтому значение H n, d, k соответствует k -ому интервалу частот для d -го HRTF направление n-го человека. Также H ' d , k соответствует k -й частоте для каждого d-го направления HRTF синтезированной HRTF.
Технология записи
Записи, обработанные через HRTF, например, в компьютерной игровой среде (см. A3D , EAX и OpenAL ), которая приблизительно соответствует HRTF слушателя, могут быть услышаны через стереонаушники или динамики и интерпретированы так, как будто они содержат звуки, исходящие со всех сторон. а не просто две точки по бокам головы. Воспринимаемая точность результата зависит от того, насколько точно набор данных HRTF соответствует характеристикам собственного уха.
Смотрите также
- Реконструкция 3D звука
- A3D
- Бинауральная запись
- Запись фиктивной головы
- Расширения звукового окружения
- OpenAL
- Система поиска звука
- Звуковая локализация
- Звуковая панель
- Sensaura
- Функция передачи
Рекомендации
- ^ Даниэль Старч (1908). Периметрия локализации звука . Государственный университет Айовы. п. 35 сл.
- ^ Begault, DR (1994) 3Dзвук для виртуальной реальности и мультимедиа. AP Professional.
- ^ Итак, RHY, Leung, NM, Braasch, J. и Leung, KL (2006) Недорогая неиндивидуализированная система объемного звука, основанная на передаточных функциях головы. Исследование эргономики и разработка прототипа. Прикладная эргономика, 37, стр. 695–707.
- ^ «Стандарт AES AES69-2015: Стандарт AES для обмена файлами - формат файлов пространственных акустических данных» . www.aes.org . Проверено 30 декабря 2016 .
- ^ "Сайт" Диван-Конвеншн " . Институт акустических исследований, научно-исследовательский институт Австрийской академии наук.
- ^ Blauert, J. (1997) Пространственный слух: психофизика локализации звука человека. MIT Press.
- ^ Hofman, Paul M .; Ван Рисвик, Дж. Г.; Ван Опсталь, AJ (сентябрь 1998 г.). «Повторное обучение локализации звука новыми ушами» (PDF) . Природа Неврологии . 1 (5): 417–421. DOI : 10,1038 / 1633 . PMID 10196533 . S2CID 10088534 .
- ^ Итак, RHY, Ngan, B., Horner, A., Leung, KL, Braasch, J. и Blauert, J. (2010) К ортогональным неиндивидуализированным передаточным функциям головы для прямого и обратного направленного звука: кластерный анализ и экспериментальное исследование. Эргономика, 53 (6), стр. 767-781.
- ^ а б Карлайл, С. (1996). Виртуальное слуховое пространство и приложения . Остин, Техас: Спрингер. ISBN 9783662225967.
- ^ а б Ташев, Иван (2014). «Фазовый синтез HRTF через разреженное представление антропометрических характеристик». Семинар по информационным технологиям и приложениям, Сан-Диего, Калифорния, США, доклад конференции : 1–5. DOI : 10.1109 / ITA.2014.6804239 . ISBN 978-1-4799-3589-5. S2CID 13232557 .
- ^ а б Билинский, Петр; Аренс, Йенс; Томас, Марк Р.П.; Ташев, Иван; Платт, Джон C (2014). «Синтез величины HRTF через разреженное представление антропометрических характеристик» (PDF) . IEEE ICASSP, Флоренция, Италия : 4468–4472. DOI : 10.1109 / ICASSP.2014.6854447 . ISBN 978-1-4799-2893-4. S2CID 5619011 .
Внешние ссылки
- Учебник по пространственному звуку
- База данных CIPIC HRTF
- Слушайте базу данных HRTF
- HRTF высокого разрешения и база данных трехмерных моделей уха (48 субъектов)
- База данных AIR (база данных HRTF в реверберирующих средах)
- База данных Full Sphere HRIR / HRTF для Neumann KU100
- База данных MIT (один набор данных)
- База данных ARI (Институт акустических исследований) (более 90 наборов данных)