Вычислительный анализ слуховой сцены

Вычислительный анализ слуховой сцены ( CASA ) — это изучение анализа слуховой сцены с помощью вычислительных средств. ^[1] По сути, системы CASA представляют собой системы «машинного прослушивания», целью которых является разделение смесей источников звука так же, как это делают люди-слушатели. CASA отличается от области слепого разделения сигналов тем, что она (по крайней мере, в некоторой степени) основана на механизмах слуховой системы человека и, таким образом, использует не более двух микрофонных записей акустической среды. Это связано с проблемой коктейльной вечеринки .

Поскольку CASA служит для моделирования функциональных частей слуховой системы, необходимо рассматривать части биологической слуховой системы с точки зрения известных физических моделей. Слуховая периферия, состоящая из трех областей: наружного, среднего и внутреннего уха, действует как сложный преобразователь, преобразующий звуковые колебания в потенциалы действия в слуховом нерве. Наружное ухо состоит из наружного уха, слухового прохода и барабанной перепонки . Наружное ухо, как акустическая воронка, помогает найти источник звука. ^[2] Ушной канал действует как резонансная труба (как органная труба) для усиления частот в диапазоне 2–5,5 кГц с максимальным усилением около 11 дБ, возникающим в районе 4 кГц. ^[3] Являясь органом слуха,улитка состоит из двух мембран, Рейснера и базилярной мембраны . Базилярная мембрана движется к звуковым раздражителям за счет того, что частота определенного стимула соответствует резонансной частоте определенной области базилярной мембраны. Движение базилярной мембраны смещает внутренние волосковые клетки в одном направлении, что кодирует полуволновой выпрямленный сигнал потенциалов действия в клетках спирального ганглия. Аксоны этих клеток образуют слуховой нерв, кодирующий выпрямленный раздражитель. Реакции слухового нерва выбирают определенные частоты, подобные базилярной мембране. Для более низких частот волокна демонстрируют «фазовую синхронизацию». Нейроны в центрах высших слуховых путей настроены на определенные характеристики стимулов, такие как периодичность, интенсивность звука, амплитудная и частотная модуляция.^[1] Существуют также нейроанатомические ассоциации ASA через задние области коры , включая задние верхние височные доли и заднюю часть поясной извилины . Исследования показали, что у пациентов с болезнью Альцгеймера страдают нарушения в ASA, а также в операциях сегрегации и группировки . ^[4]

В качестве первого этапа обработки CASA кохлеаграмма создает частотно-временное представление входного сигнала. Имитируя компоненты наружного и среднего уха, сигнал разбивается на разные частоты, которые естественным образом выбираются улиткой и волосковыми клетками. Из-за частотной избирательности базилярной мембраны для моделирования мембраны используется банк фильтров , где каждый фильтр связан с определенной точкой на базилярной мембране. ^[1]