Локализация трехмерного звука относится к акустической технологии, которая используется для определения местоположения источника звука в трехмерном пространстве . Местоположение источника обычно определяется направлением входящих звуковых волн (горизонтальный и вертикальный углы) и расстоянием между источником и датчиками. Он включает в себя конструкцию конструкции датчиков и методы обработки сигналов .
Большинство млекопитающих (включая людей) используют бинауральный слух для локализации звука, сравнивая информацию, полученную от каждого уха, в сложном процессе, который включает в себя значительный синтез. Сложно локализовать с помощью монофонического слуха, особенно в трехмерном пространстве .
Технология
Технология локализации звука используется в некоторых областях звука и акустики , таких как слуховые аппараты , наблюдение [1] и навигация . Существующие системы пассивной локализации звука в реальном времени в основном основаны на подходе с разницей во времени прихода ( TDOA ), ограничивая локализацию звука в двухмерном пространстве , и непрактичны в шумных условиях.
Приложения
Приложения локализации источника звука включают разделение источников звука, отслеживание источников звука и улучшение речи. Сонар использует методы определения местоположения источника звука для определения местоположения цели. Локализация 3D-звука также используется для эффективного взаимодействия человека с роботом. В связи с растущим спросом на слуховые аппараты, исследуются некоторые приложения трехмерной локализации звука, такие как интерфейс человек-машина, помощь инвалидам и военные приложения. [2]
Подсказки для локализации звука
Сигналы локализации [3] - это функции, которые помогают локализовать звук. Признаки локализации звука включают бинауральные и моноауральные сигналы.
- Монофонические реплики могут быть получены с помощью спектрального анализа и обычно используются при вертикальной локализации.
- Бинауральные сигналы генерируются разницей в слухе между левым и правым ухом. Эти различия включают межураральную разницу во времени (ITD) и межураральную разницу интенсивности (IID). Бинауральные сигналы используются в основном для горизонтальной локализации.
Как локализовать звук?
Первый признак, который использует наш слух, - это разница во времени между слухами. Звук от источника, находящегося прямо перед нами или позади нас, будет одновременно поступать в оба уха. Если источник перемещается влево или вправо, наши уши улавливают звук от одного и того же источника, поступающий в оба уха, но с определенной задержкой. Другими словами, два уха улавливают разные фазы одного и того же сигнала. [4]
Методы
Существует множество различных методов локализации 3D-звука. Например:
- Различные типы сенсорных структур, такие как микрофонная решетка и бинауральная головка слухового робота. [5]
- Различные методы для достижения оптимальных результатов, такие как нейронная сеть , максимальное правдоподобие и классификация множественных сигналов (MUSIC).
- Методы в реальном времени с использованием массива векторных акустических датчиков (AVS) [6]
- Автономные методы (по своевременности)
- Подход к микрофонной решетке
Подход с управляемым формирователем луча
В этом подходе используются восемь микрофонов в сочетании с управляемым формирователем луча, улучшенным за счет взвешенного фазового преобразования по надежности (RWPHAT). Окончательные результаты фильтруются через фильтр частиц, который отслеживает источники и предотвращает ложные направления.
Мотивация использования этого метода основана на предыдущих исследованиях. Этот метод используется для отслеживания и локализации нескольких источников звука, несмотря на то, что звуковое сопровождение и локализация применяются только для одного источника звука.
Локализация звука на основе Beamformer
Чтобы максимизировать выходную энергию формирователя луча с задержкой и суммированием , чтобы найти максимальное значение выходной мощности формирователя луча, управляемого во всех возможных направлениях. Используя метод взвешенного фазового преобразования (RWPHAT), выходная энергия формирователя диаграммы направленности M-микрофона с задержкой и суммированием равна
Где E указывает энергию, а K - постоянная величина, - взаимная корреляция микрофонных пар, определяемая взвешенным фазовым преобразованием по надежности:
взвешенный фактор отражают надежность каждого частотного компонента и определяются как коэффициент усиления фильтра Винера. , где это оценка предшествующего отношения сигнал / шум при микрофон, во временном интервале , для частоты , рассчитывается с использованием подхода, ориентированного на принятие решений. [7]
В это сигнал от микрофон и это задержка прибытия для этого микрофона. Более конкретная процедура этого метода предложена Валином и Мишо [8].
Преимущество этого метода заключается в том, что он определяет направление звука и определяет расстояние до источников звука. Основным недостатком подхода формирования луча является несовершенный характер точности и возможностей локализации звука по сравнению с подходом нейронной сети, в котором используются движущиеся динамики.
Подход с совмещенной микрофонной решеткой
Этот подход относится к локализации звука в реальном времени с использованием массива акустических векторных датчиков (AVS).
Акустическая векторная матрица
• Содержит три ортогонально установленных микрофона с градиентом скорости акустических частиц (показаны как массивы X, Y и Z) и один всенаправленный акустический микрофон (O).
• Обычно используется под водой.
• Использует автономный процесс калибровки [9] для измерения и интерполяции импульсной характеристики массивов X, Y, Z и O для получения их вектора управления.
Звуковой сигнал сначала обрабатывается с использованием прямоугольного окна, затем каждый результирующий сегментный сигнал создается в виде кадра. 4 параллельных кадра обнаруживаются из массива XYZO и используются для оценки DOA. 4 кадра разделяются на небольшие блоки равного размера, затем окно Хэмминга и БПФ используются для преобразования каждого блока из временной области в частотную. Затем выходной сигнал этой системы представлен горизонтальным углом и вертикальным углом источников звука, который определяется пиком в объединенном трехмерном пространственном спектре.
Преимущества этого массива по сравнению с предыдущим набором микрофонов заключаются в том, что это устройство имеет высокую производительность даже при небольшой апертуре, и оно может одновременно локализовать несколько низкочастотных и высокочастотных широкополосных источников звука. Применение массива O может сделать более доступной акустическую информацию, такую как амплитуда и разница во времени. Самое главное, что массив XYZO имеет лучшую производительность при небольшом размере.
AVS - это один из видов совместно размещенных множеств микрофонов, он использует подход множественных микрофонных массивов для оценки направлений звука множественными массивами, а затем находит местоположения, используя информацию об отражении, например, где обнаруживается направление, где пересекаются разные массивы.
Мотивация передового набора микрофонов
Звуковые отражения всегда происходят в реальной среде, и микрофонные решетки [10] не могут избежать их наблюдения. Этот подход с несколькими массивами был протестирован с использованием фиксированных массивов в потолке; Работоспособность движущегося сценария еще предстоит проверить.
Изучение того, как применять массив из нескольких микрофонов
Неопределенность угла (AU) будет возникать при оценке направления, а неопределенность положения (PU) также будет увеличиваться с увеличением расстояния между антенной решеткой и источником. Мы знаем это:
Где r - расстояние между центром решетки и источником, а AU - угол с неопределенностью. Измерение используется для определения того, пересекаются ли два направления в каком-либо месте или нет. Минимальное расстояние между двумя линиями:
гдеа также два направления, - векторы, параллельные обнаруженному направлению, и положение массивов.
Если
Две линии считаются пересекающимися. Когда две линии пересекаются, мы можем вычислить местоположение источника звука, используя следующее:
оценка положения источника звука, - позиция, в которой каждое направление пересекает линию с минимальным расстоянием, а - это взвешенные факторы. В качестве весового коэффициента, мы определили использование или же от массива до линии с минимальным расстоянием.
Методика обучения бинауральному слуху
Обучение бинауральному слуху [5] - это бионический метод. Датчик представляет собой макет головы робота с двумя сенсорными микрофонами и искусственной ушной раковиной (отражателем). Головка робота имеет 2 оси вращения и может вращаться горизонтально и вертикально. Отражатель вызывает изменение спектра в определенную картину для входящей звуковой волны белого шума, и эта картина используется для определения вертикальной локализации. Признаком горизонтальной локализации является ITD. Система использует процесс обучения с использованием нейронных сетей , вращая голову с установленным источником звука белого шума и анализируя спектр. Эксперименты показывают, что система может хорошо определять направление источника в определенном диапазоне углов прихода. Он не может идентифицировать звук, выходящий за пределы диапазона, из-за свернутой спектральной картины отражателя. Бинауральный слух использует только 2 микрофона и способен сконцентрироваться на одном источнике среди множества источников шума.
В реальной локализации звука, помимо двух ушных раковин, функциональную роль играют голова и туловище робота. Это функционирует как пространственная линейная фильтрация, и фильтрация всегда количественно выражается в терминах передаточной функции, связанной с головой (HRTF). [11] HRTF также использует датчик головы робота, который является бинауральной моделью слуха. HRTF может быть получен на основе различных сигналов для локализации. Локализация звука с помощью HRTF - это фильтрация входного сигнала с помощью фильтра, который разработан на основе HRTF. Вместо использования нейронных сетей используется передаточная функция, относящаяся к голове, а локализация основана на простом подходе корреляции.
Подробнее: Передаточная функция головы .
Анализ фазы спектра мощности (CSP)
Метод CSP [12] также используется для бинауральной модели. Идея состоит в том, что угол прихода может быть получен через временную задержку прихода (TDOA) между двумя микрофонами, а TDOA может быть оценен путем нахождения максимальных коэффициентов CSP. Коэффициенты CSP выводятся с помощью:
Где а также сигналы, поступающие в микрофон а также соответственно
Время задержки прибытия (), то можно оценить следующим образом:
Направление источника звука
Где - скорость распространения звука, частота дискретизации и это расстояние с максимальной временной задержкой между 2 микрофонами.
Метод CPS не требует данных импульсной характеристики системы, которые необходимы HRTF. Алгоритм ожидания Максимизации также используется для локализации несколько источников звука и уменьшить ошибки локализации. Система способна идентифицировать несколько движущихся источников звука с помощью всего двух микрофонов.
Линейный массив датчиков 2D
Чтобы оценить местоположение источника в трехмерном пространстве, две линейные матрицы датчиков могут быть размещены горизонтально и вертикально. Примером может служить линейный массив 2D, используемый для определения местоположения подводного источника. [13] Обработка данных из двух массивов с использованием метода максимального правдоподобия позволяет одновременно определять направление, дальность и глубину источника. В отличие от бинауральной модели слуха, этот метод аналогичен методу спектрального анализа . Метод может быть использован для локализации удаленного источника.
Самовращающийся бимикрофонный массив
Вращение решетки из двух микрофонов (также называемой решеткой из двух микрофонов [14] ) приводит к синусоидальному сигналу межканальной разницы во времени (ICTD). Фазовый сдвиг результирующего синусоидального сигнала можно напрямую сопоставить с азимутальным углом источника звука, а амплитуду сигнала ICTD можно представить как функцию угла места источника звука и расстояния между двумя микрофонами. [15]
Подход с использованием иерархических нечетких искусственных нейронных сетей
Система локализации звука Hierarchical Fuzzy Artificial Neural Networks Approach была смоделирована на основе биологической бинауральной локализации звука. Некоторые примитивные животные с двумя ушами и маленьким мозгом могут воспринимать трехмерное пространство и обрабатывать звуки, хотя этот процесс полностью не изучен. Некоторым животным трудно определить местонахождение трехмерного звука из-за небольшого размера головы. Кроме того, длина волны звука связи может быть намного больше диаметра их головы, как в случае с лягушками .
Основанная на предыдущих методах локализации бинаурального звука, иерархическая нечеткая система искусственной нейронной сети сочетает в себе методы локализации звука с межуральной разницей во времени (на основе ITD) и с разницей в интенсивности (на основе IID) для более высокой точности, аналогичной человеческой. Иерархические нечеткие искусственные нейронные сети [16] использовались с целью достижения той же точности локализации звука, что и человеческие уши.
Методы локализации звука на основе IID или ITD имеют основную проблему, называемую путаницей спереди и сзади. [17] В этой звуковой локализации, основанной на системе иерархической нейронной сети, для решения этой проблемы оценка IID выполняется с помощью оценки ITD. Эта система использовалась для широкополосных звуков и может применяться в нестационарных сценариях.
Локализация 3D звука для монофонического источника звука
Обычно локализация звука выполняется с помощью двух (или более) микрофонов. Используя разницу во времени прихода звука на два микрофона, можно математически оценить направление источника звука. Однако точность, с которой массив микрофонов может локализовать звук (используя разницу во времени между аудиосистемами ), в основном ограничена физическим размером массива. Если массив слишком мал, то микрофоны расположены слишком близко друг к другу, так что все они записывают по существу один и тот же звук (с ITF, близким к нулю), что чрезвычайно затрудняет оценку ориентации. Таким образом, нередки случаи, когда массивы микрофонов имеют длину от десятков сантиметров (для настольных приложений) до многих десятков метров (для подводной локализации). Однако микрофонные решетки такого размера становятся непрактичными для использования на небольших роботах. даже для больших роботов такие массивы микрофонов могут быть неудобными для установки и маневрирования. Напротив, возможность локализовать звук с помощью одного микрофона (который можно сделать очень маленьким) имеет потенциал значительно более компактных, а также более дешевых и мощных устройств для локализации.
• Стандартный подход HRTF
Общий способ реализовать локализацию трехмерного звука - использовать HRTF ( функция передачи, относящаяся к голове ). Во-первых, вычислите HRTF для локализации трехмерного звука, сформулировав два уравнения; один представляет сигнал данного источника звука, а другой указывает выходной сигнал микрофонов головы робота для звука, передаваемого от источника. Монофонические входные данные обрабатываются этими HRTF, а результаты выводятся через стереонаушники. Недостатком этого метода является то, что для всего набора фильтров необходимо множество параметрических операций для реализации локализации трехмерного звука, что приводит к высокой вычислительной сложности.
• DSP реализация локализации 3D звука
Реализация подхода локализации трехмерного звука в реальном времени на основе DSP с использованием встроенного DSP может снизить вычислительную сложность Как показано на рисунке, процедура реализации этого алгоритма в реальном времени разделена на три фазы: (i) Частотное деление, ( ii) локализация звука и (iii) микширование. В случае локализации трехмерного звука для источника монофонического звука входные аудиоданные делятся на два: левый и правый каналы, а входные аудиоданные во временных рядах обрабатываются один за другим. [18]
Отличительной особенностью этого подхода является то, что звуковая полоса частот разделена на три части, так что для каждого из трех поддиапазонов можно использовать отдельную процедуру трехмерной локализации звука.
• Подход с одним микрофоном
Монофоническая локализация стала возможной благодаря структуре ушной раковины (наружного уха), которая изменяет звук в зависимости от его угла падения. Подход машинного обучения адаптирован для монофонической локализации с использованием только одного микрофона и «искусственной ушной раковины» (которая искажает звук в зависимости от направления). Этот подход моделирует типичное распределение естественных и искусственных звуков, а также зависимые от направления изменения звуков, производимых ушной раковиной. [19] Результаты экспериментов также показывают, что алгоритм может довольно точно локализовать широкий спектр звуков, таких как человеческая речь, лай собаки, водопад, гром и т. Д. В отличие от микрофонных решеток, этот подход также предлагает возможности значительно более компактных, а также более дешевых и мощных устройств для локализации звука.
Смотрите также
- Реконструкция 3D звука
- Локализация источника звука
- Бинауральная запись
- Передаточная функция, относящаяся к голове
- Перцепционная локализация 3D-звука
- Звуковая локализация
- Вертикальная локализация звука
Рекомендации
- ^ Keyrouz, Fakheredine; Дипольд, Клаус; Keyrouz, Shady (сентябрь 2007 г.). Высокопроизводительная локализация 3D-звука для приложений видеонаблюдения . Конференция IEEE 2007 года по расширенному видеонаблюдению и видеонаблюдению на основе сигналов, AVSS 2007 . С. 563–6. DOI : 10,1109 / AVSS.2007.4425372 . ISBN 978-1-4244-1695-0. S2CID 11238184 .
- ^ Kjr, Брюль. «Идентификация источника шума» . bksv.com . Brüel & Kjr.
- ^ Гольдштейн, Э. Брюс (13 февраля 2009 г.). Ощущение и восприятие (Восьмое изд.). Cengage Learning. С. 293–297. ISBN 978-0-495-60149-4.
- ^ Kjr, Брюль. «Слушать в 3D» . Brüel & Kjr . Brüel & Kjr.
- ^ а б Nakashima, H .; Мукаи, Т. (2005). «Система локализации трехмерного источника звука на основе обучения бинауральному слуху». 2005 Международная конференция IEEE по системам, человеку и кибернетике . 4 . С. 3534–3539. DOI : 10.1109 / ICSMC.2005.1571695 . ISBN 0-7803-9298-1. S2CID 7446711 .
- ^ Лян, Юнь; Цуй, Чжэн; Чжао, Шэнкуй; Рупнов, Кайл; Чжан, Ихао; Джонс, Дуглас Л .; Чен, Деминг (2012). «Реализация в реальном времени и оптимизация производительности локализации 3D-звука на графических процессорах». Конференция и выставка «Автоматизация и испытания в Европе» : 832–5. ISSN 1530-1591 .
- ^ Ефрем, Й .; Малах Д. (декабрь 1984 г.). «Улучшение речи с использованием краткосрочной спектральной оценки амплитуды с минимальной среднеквадратической ошибкой». Акустика, обработка речи и сигналов . 32 (6): 1109–21. DOI : 10,1109 / TASSP.1984.1164453 . ISSN 0096-3518 .
- ^ Валин, JM; Michaud, F .; Руа, Жан (14–19 мая 2006 г.). Надежная трехмерная локализация и отслеживание источников звука с помощью формирования луча и фильтрации частиц . Акустика, обработка речи и сигналов . 4 . п. IV. arXiv : 1604.01642 . DOI : 10.1109 / ICASSP.2006.1661100 . ISBN 978-1-4244-0469-8. ISSN 1520-6149 . S2CID 557491 .
- ^ Салас Натера, Массачусетс; Martinez Rodriguez-Osorio, R .; de Haro Ariet, L .; Сьерра Перес, М. (2012). «Предложение по калибровке новых архитектур антенных решеток и технологий для космической связи» . Антенны IEEE и письма о беспроводном распространении . 11 : 1129–32. Bibcode : 2012IAWPL..11.1129S . DOI : 10,1109 / LAWP.2012.2215952 . ISSN 1536-1225 .
- ^ Иши, Коннектикут; Even, J .; Хагита, Н. (ноябрь 2013 г.). Использование нескольких микрофонных решеток и отражений для трехмерной локализации источников звука . Международная конференция IEEE / RSJ по интеллектуальным роботам и системам, 2013 г. (IROS 2013) . С. 3937–42. DOI : 10.1109 / IROS.2013.6696919 . ISBN 978-1-4673-6358-7. S2CID 16043629 .
- ^ Кейруз, Факередин; Дипольд, Клаус (2006). «Улучшенный алгоритм локализации бинаурального трехмерного звука» . 2006 Международный симпозиум IEEE по обработке сигналов и информационным технологиям . С. 662–665. DOI : 10.1109 / ISSPIT.2006.270883 . ISBN 0-7803-9754-1. S2CID 14042947 .
- ^ Хён-Дон Ким; Komatani, K .; Огата, Т .; Окуно, HG (январь 2008 г.). Оценка локализации двухканального источника звука с помощью 3D Moving Sound Creation Tool . Ичери 2008. DOI : 10,1109 / ICKS.2008.25 .
- ^ Tabrikian, J .; Мессер, Х. (Январь 1996 г.). «Трехмерная локализация источника в волноводе». Транзакции IEEE по обработке сигналов . 44 (1): 1–13. Bibcode : 1996ITSP ... 44 .... 1T . DOI : 10.1109 / 78.482007 .
- ^ Гала, Дипак; Линдси, Натан; Сунь, Лян (июль 2018 г.). «Локализация активного источника звука в реальном времени для беспилотных наземных роботов с помощью самовращающейся бимикрофонной решетки». Журнал интеллектуальных и робототехнических систем . 95 (3): 935–954. arXiv : 1804.03372 . DOI : 10.1007 / s10846-018-0908-3 .
- ^ Гала, Дипак; Линдси, Натан; Сунь, Лян (июнь 2018 г.). Трехмерная локализация источника звука для беспилотных наземных транспортных средств с помощью самовращающейся двухмикрофонной решетки . CDSR 2018. DOI : 10,11159 / cdsr18.104 .
- ^ Кейруз, Факередин; Дипольд, Клаус (май 2008 г.). «Новое решение нейронной сети, основанное на биологическом опыте, для роботизированного распознавания источника звука в трехмерном пространстве». Мягкие вычисления . 12 (7): 721–9. DOI : 10.1007 / s00500-007-0249-9 . ISSN 1432-7643 . S2CID 30037380 .
- ^ Хилл, Пенсильвания; Нельсон, Пенсильвания; Киркеби, О .; Хамада, Х. (декабрь 2000 г.). «Разрешение путаницы спереди и сзади в виртуальных акустических системах визуализации». Журнал Акустического общества Америки . 108 (6): 2901–10. Bibcode : 2000ASAJ..108.2901H . DOI : 10.1121 / 1.1323235 . ISSN 0001-4966 . PMID 11144583 .
- ^ Нориаки, Сакамото; ватару, Кобаяши; Такао, Оное; Исао, Сиракава (2001). Реализация DSP алгоритма локализации трехмерного звука для монофонического источника звука . 8-я Международная конференция IEEE по электронике, схемам и системам, 2001 г. ICECS 2001 . 2 . С. 1061–1064. DOI : 10.1109 / ICECS.2001.957673 . ISBN 978-0-7803-7057-9. S2CID 60528168 .
- ^ Saxena, A .; Нг, AY (2009). «Изучение местоположения звука с одного микрофона». 2009 Международная конференция IEEE по робототехнике и автоматизации . С. 1737–1742. DOI : 10.1109 / ROBOT.2009.5152861 . ISBN 978-1-4244-2788-8. S2CID 14665341 .
Внешние ссылки
- Трехмерная локализация виртуальных источников звука