Перцепционный объективный анализ качества слушания


Из Википедии, бесплатной энциклопедии
  (Перенаправлено из POLQA )
Перейти к навигации Перейти к поиску

Perceptual Objective Listening Quality Analysis ( POLQA ) был рабочим названием стандарта ITU-T, который охватывает модель для прогнозирования качества речи посредством анализа цифровых речевых сигналов. [1] Модель была стандартизирована как Рекомендация ITU-T P.863 (Перцепционная объективная оценка качества прослушивания) в 2011 году. Второе издание стандарта появилось в 2014 году, а третье, действующее в настоящее время издание, было принято в 2018 году в соответствии с title Перцептивное объективное прогнозирование качества прослушивания. [2]

Объем измерений

POLQA охватывает модель для прогнозирования качества речи [3] [4] посредством анализа цифрового речевого сигнала. Прогнозы этих объективных показателей должны быть как можно ближе к субъективным оценкам качества, полученным в ходе субъективных тестов на слушание. Обычно прогнозируется средняя оценка мнения (MOS). POLQA использует реальную речь в качестве тестового стимула для оценки телефонных сетей.

Технологические возможности

POLQA является преемником PESQ (Рекомендация ITU-T P.862). [5] POLQA избегает слабых мест текущей модели P.862 и расширен для обработки аудиосигналов с более широкой полосой пропускания. Дальнейшие улучшения нацелены на обработку сигналов времени, называемых сигналами, и сигналами со многими вариациями задержки. Подобно P.862, POLQA поддерживает измерения в общей полосе частот телефонии (300–3400 Гц), но, кроме того, имеет второй рабочий режим для оценки HD-Voice в широкополосных и сверхширокополосных речевых сигналах (50–14000 Гц). POLQA также нацелена на оценку речевых сигналов, записанных акустически с помощью искусственной головы с имитаторами рта и уха.

История развития

Деятельность POLQA началась в ITU-T в начале 2006 года под рабочим названием P.OLQA. В середине 2009 года был начат конкурс для оценки нескольких моделей-кандидатов. В мае 2010 года ITU-T выбрал модели-кандидаты от трех компаний (OPTICOM, SwissQual / Rohde & Schwarz и TNO ( Нидерландская организация прикладных научных исследований )). Три компании объединили свои подходы в одну модель, которая была принята как Рекомендация ITU-T P.863. [2]

Генеалогия родственных стандартов

Семейство полных эталонных объективных измерений качества голоса МСЭ-Т началось в 1997 году с Рекомендации МСЭ-Т P.861 (PSQM), которая была заменена МСЭ-Т P.862 (PESQ) [5] в 2001 году. дополнен Рекомендациями ITU-T P.862.1 [6] (сопоставление оценок PESQ со шкалой MOS), ITU-T P.862.2 [7] (широкополосные измерения) и ITU-T P.862.3 [8] (руководство по применению) . Первое издание ITU-T P.863 (POLQA) [2] вступило в силу в 2011 году. Руководство по применению Рекомендации ITU-T P.863 было утверждено в 2019 году и опубликовано как ITU-T P.863.1. [9]

Помимо перечисленных выше полных эталонных методов, список объективных стандартов измерения качества голоса ITU-T также включает ITU-T P.563 [10] (алгоритм без эталона).

Типология тестирования

POLQA, аналогичный P.862 PESQ, представляет собой алгоритм Full Reference (FR), который оценивает ухудшенный или обработанный речевой сигнал по отношению к исходному сигналу. Он сравнивает каждую выборку опорного сигнала (сторона говорящего) с каждой соответствующей выборкой ухудшенного сигнала (сторона слушателя). Различия в восприятии обоих сигналов оцениваются как различия. Перцептивная психоакустическая модель основана на аналогичных моделях человеческого восприятия, как MP3 или AAC. В основном, сигналы анализируются в частотной области (в критических полосах) после применения функций маскирования. Незамаскированные различия между двумя представлениями сигналов будут считаться искажениями. Наконец, накопленные искажения в речевом файле отображаются по шкале качества от 1 до 5, как обычно для тестов MOS.Измерения FR обеспечивают высочайшую точность и повторяемость, но могут применяться только для специальных тестов в реальных сетях (например, инструменты для тестирования мобильных сетей).

POLQA - это полный эталонный алгоритм, который анализирует речевой сигнал выборка за выборкой после временного выравнивания соответствующих выборок эталонного и тестового сигналов. POLQA может применяться для обеспечения сквозной оценки качества (E2E) сети или для характеристики отдельных компонентов сети.

Результаты POLQA в основном моделируют средние оценки мнений (MOS), которые охватывают шкалу от 1 (плохо) до 5 (отлично).

Описание алгоритма POLQA

Входами в алгоритм являются две формы волны, представленные двумя векторами данных, содержащими 16-битные выборки ИКМ. Первый вектор содержит выборки (неискаженного) опорного сигнала, тогда как второй вектор содержит выборки ухудшенного сигнала. Алгоритм POLQA состоит из блока временного выравнивания, блока оценки частоты дискретизации преобразователя частоты дискретизации, который используется для компенсации различий в частоте дискретизации входных сигналов, и реальной модели ядра, которая выполняет вычисление MOS. На первом этапе определяется задержка между двумя входными сигналами и оценивается частота дискретизации двух сигналов относительно друг друга. Оценка частоты дискретизации основана на информации о задержке, вычисленной посредством временного выравнивания. Если частота дискретизации отличается более чем примерно на 1%,сигнал с более высокой частотой дискретизации подвергается понижающей дискретизации. После каждого шага результаты сохраняются вместе со средним показателем надежности задержки, который является мерой качества оценки задержки. Окончательно выбирается результат шага повторной выборки, который дал наивысшую общую надежность. После определения правильной задержки и компенсации различий в частотах дискретизации сигналы и информация о задержке передаются в базовую модель, которая вычисляет воспринимаемость, а также степень раздражения искажений и отображает их в шкале MOS. Более подробное и исчерпывающее описание алгоритма можно найти в.Окончательно выбирается результат шага повторной выборки, который дал наивысшую общую надежность. После определения правильной задержки и компенсации различий в частотах дискретизации сигналы и информация о задержке передаются в базовую модель, которая вычисляет воспринимаемость, а также степень раздражения искажений и отображает их в шкале MOS. Более подробное и исчерпывающее описание алгоритма можно найти в.Окончательно выбирается результат шага повторной выборки, который дал наивысшую общую надежность. После определения правильной задержки и компенсации различий в частотах дискретизации сигналы и информация о задержке передаются в базовую модель, которая вычисляет воспринимаемость, а также степень раздражения искажений и отображает их в шкале MOS. Более подробное и исчерпывающее описание алгоритма можно найти в.Более подробное и исчерпывающее описание алгоритма можно найти в.Более подробное и исчерпывающее описание алгоритма можно найти в.[2] Следующие несколько разделов предназначены только для обзора основ внутренней структуры POLQA.

Основная модель

Основным элементом базовой модели является модель восприятия, которая рассчитывается четыре раза с использованием разных параметров, чтобы справиться с различными основными типами искажений. Эти типы искажений можно разделить на аддитивные искажения и вычитаемые искажения. Для обоих типов дополнительно проводится различие между очень сильными и более слабыми эффектами. Входными данными для моделей восприятия являются формы сигналов и информация о задержке. На выходе получается плотность возмущений, которая является мерой восприятия искажений в сигналах. Модель восприятия для основной ветви также производит индикаторы частотных искажений, шумов и реверберационных искажений. Последующее переключение, которое запускается детектором при очень сильных искажениях, снижает четыре значения плотности возмущений до двух: одно для добавленных и одно для вычитаемых искажений.Пока что плотность возмущения является индикатором только воспринимаемости искажений, а когнитивные эффекты еще не принимаются во внимание. Однако когнитивные аспекты важны, когда людей просят оценить качество того, что они могут воспринимать. По сути, они преобразуют меру восприятия Плотность возмущения в меру раздражения. Это преобразование выполняется путем корректировки значений плотности возмущений для ситуаций с:Это преобразование выполняется путем корректировки значений плотности возмущений для ситуаций с:Это преобразование выполняется путем корректировки значений плотности возмущений для ситуаций с:

  • Значительные вариации уровня
  • Множество повторов кадров
  • Сильный тембр
  • Спектральная плоскостность
  • Переключение шума во время пауз речи
  • Множество вариаций задержки
  • Сильные колебания плотности возмущений с течением времени
  • Сильные колебания громкости сигналов

На этом этапе также рассчитываются два дополнительных индикатора: один для спектральной равномерности, а другой - для вариаций уровня.

До сих пор все операции выполнялись с кадрами длительностью приблизительно 32 и 43 мс (в зависимости от частоты дискретизации и с использованием перекрытия 50%) и для каждой полосы Барка отдельно. На последнем этапе все индикаторы интегрируются по времени и частоте, чтобы вычислить окончательное значение MOS LQO.

Модель восприятия

Ключевым понятием модели восприятия является идеализация. Идея заключается в том, что POLQA должен имитировать абсолютный рейтинг категории.(ACR) тесты. Однако в тесте ACR у испытуемых нет сравнения с реальным эталонным сигналом, когда они оценивают речевой сигнал. Вместо этого предполагается, что испытуемые понимают, как звучит идеальный сигнал, и используют его в качестве справочного материала. Следовательно, если их попросят оценить эталонный сигнал, который не является абсолютно идеальным (например, он имеет неправильную громкость или содержит слишком много тембра, шума или реверберации), он будет оценен хуже, чем идеальный. Таким образом, на этапе идеализации POLQA исправляет небольшие дефекты опорных сигналов, чтобы получить такой же идеальный эталон для сравнения с ухудшенным сигналом, который человеческие субъекты использовали бы в своем сознании. Подобно идеализации опорного сигнала,некоторые искажения, присутствующие в ухудшенном сигнале, которые едва заметны в тесте ACR, будут частично компенсированы (например, небольшие сдвиги основного тона, линейные частотные искажения). Модель восприятия начинается с масштабирования опорного сигнала до идеального среднего уровня активной речи примерно -26 дБов. Для ухудшенного сигнала такое масштабирование не выполняется. Предполагается, что любое отклонение уровня ухудшенного сигнала от идеального -26 дБov должно оцениваться как ухудшение сигнала. Затем спектры обоих сигналов вычисляются с использованием БПФ с 50% перекрывающимися кадрами с длительностью от 32 мс до 43 мс (в зависимости от частоты дискретизации). Впоследствии небольшие сдвиги основного тона ухудшенного сигнала будут устранены (уменьшение искажений частоты). Теперь спектры будут преобразованы в психоакустически мотивированную тональную шкалу,путем объединения отдельных спектральных линий (элементов разрешения БПФ) в так называемые критические полосы. Используемая шкала высоты тона аналогична шкале Барка со средним разрешением 0,3 Барка на полосу. Результат - плотность мощности звука. На этом этапе рассчитываются первые три показателя искажения для искажений частотной характеристики, аддитивного шума и реверберации помещения. После этого выводится возбуждение каждой полосы. Это включает моделирование эффектов маскировки как в частотной, так и во временной области. В результате для каждого кадра каждого сигнала создается внутреннее представление, которое приблизительно указывает, насколько громко будет восприниматься каждый частотный компонент. Теперь следующий этап идеализации опорного сигнала происходит путем фильтрации избыточного тембра и стационарного шума низкого уровня. В то же время,линейные частотные искажения и стационарный шум частично удаляются из ухудшенного сигнала. Вычитание идеализированных возбуждений в конечном итоге приводит к плотности искажения, которая является мерой слышимости искажений.

POLQA в исследованиях

Документ, в котором используется POLQA для исследования влияния тонального языка и неродного слушания на измерение качества речи, можно найти в [11].

Смотрите также

использованная литература

  1. ^ «POLQA - Стандарт тестирования качества мобильного голоса нового поколения» . www.polqa.info . Проверено 11 апреля 2021 .
  2. ^ a b c d "P.863: Перцепционное объективное прогнозирование качества прослушивания" . www.itu.int . Проверено 11 апреля 2021 .
  3. ^ http://www.aes.org/e-lib/browse.cfm?elib=16829 Perceptual Objective Listening Quality Assessment (POLQA), Стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть I— Временное выравнивание
  4. ^ http://www.aes.org/e-lib/browse.cfm?elib=16830 Perceptual Objective Listening Quality Assessment (POLQA), Стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть II— Модель восприятия
  5. ^ a b «P.862: Перцепционная оценка качества речи (PESQ): объективный метод сквозной оценки качества речи в узкополосных телефонных сетях и речевых кодеках» . www.itu.int . Проверено 11 апреля 2021 .
  6. ^ «P.862.1: Функция отображения для преобразования необработанных результатов P.862 в MOS-LQO» . www.itu.int . Проверено 11 апреля 2021 .
  7. ^ «P.862.2: Широкополосное расширение Рекомендации P.862 для оценки широкополосных телефонных сетей и речевых кодеков» . www.itu.int . Проверено 11 апреля 2021 .
  8. ^ «P.862.3: Руководство по применению для объективного измерения качества на основе Рекомендаций P.862, P.862.1 и P.862.2» . www.itu.int . Проверено 11 апреля 2021 .
  9. ^ «P.863.1: Руководство по применению Рекомендации ITU-T P.863» . www.itu.int . Проверено 11 апреля 2021 .
  10. ^ "P.563: Несимметричный метод объективной оценки качества речи в узкополосных телефонных приложениях" . www.itu.int . Проверено 11 апреля 2021 .
  11. ^ Д. Эбем (Университет Нигерии); и другие. (2011). «Влияние тонального языка и прослушивания на неродном языке на измерение качества речи» (PDF) . Журнал Общества звукорежиссеров . 59 (9 сентября 2011 г.): 9.


Источник « https://en.wikipedia.org/w/index.php?title=Perceptual_Objective_Listening_Quality_Analysis&oldid=1023709968 »