ABX тест

Тест ABX - это метод сравнения двух вариантов сенсорных стимулов для выявления обнаруживаемых различий между ними. Субъекту предъявляют два известных образца (образец A , первый эталон и образец B , второй эталон), за которым следует один неизвестный образец X, который случайным образом выбирается из A или B. Затем субъекту требуется идентифицировать X как A или B.Если X не может быть надежно идентифицирован с низким значением p в заранее определенном количестве испытаний, тогда нулевая гипотеза не может быть отклонена, и нельзя доказать, что существует ощутимая разница между A и B.

Тесты ABX могут быть легко выполнены в виде двойных слепых испытаний , что исключает любое возможное бессознательное влияние со стороны исследователя или руководителя тестирования. Поскольку выборки A и B предоставляются непосредственно перед выборкой X, различие не нужно различать из предположений, основанных на долговременной памяти или прошлом опыте. Таким образом, тест ABX дает ответ на вопрос, можно ли при идеальных обстоятельствах обнаружить разницу в восприятии.

Тесты ABX обычно используются при оценке методов сжатия цифровых аудиоданных ; образец A обычно является несжатым образцом, а образец B - сжатой версией A. Звуковые артефакты сжатия , указывающие на недостаток алгоритма сжатия, могут быть выявлены при последующем тестировании. Тесты ABX также могут использоваться для сравнения различных степеней потери точности между двумя разными аудиоформатами при заданном битрейте .

Тесты ABX можно использовать для прослушивания компонентов ввода, обработки и вывода, а также кабельной разводки: практически любой аудиопродукт или прототип.

История [ править ]

История тестирования и присвоения имен ABX восходит к 1950 году в статье, опубликованной двумя исследователями Bell Labs, У. А. Мансоном и Марком Б. Гарднером, под названием « Стандартизация слуховых тестов» . ^[1]

Целью настоящей статьи является описание процедуры тестирования, которая показала себя многообещающей в этом направлении, и описание оборудования, которое было признано полезным для минимизации изменчивости результатов тестирования. Процедура, которую мы назвали тестом «ABX», является модификацией метода парных сравнений. Наблюдателю предоставляется временная последовательность из трех сигналов для каждого суждения, которое его просят сделать. В течение первого интервала времени он слышит сигнал A, во время второго - сигнал B и, наконец, сигнал X. Его задача состоит в том, чтобы указать, был ли звук, услышанный во время интервала X, больше похож на звук во время интервала A или более похож на звук во время B интервал. Для порогового теста интервал A - тихий, интервал B - сигнал, а интервал X - тихий или сигнальный.

Тест превратился в другие варианты, такие как контроль субъекта над продолжительностью и последовательностью тестирования. Одним из таких примеров был аппаратный компаратор ABX в 1977 году, построенный компанией ABX в Трое, штат Мичиган, и задокументированный одним из ее основателей Дэвидом Кларком. ^[2]

Доработки A / B-теста
Первый опыт автора с двойным слепым тестированием слышимости был в качестве члена SMWTMS Audio Club в начале 1977 года. Была предусмотрена кнопка, которая выбирала случайным образом компонент A или B. При идентификации одного из них компонент X был сильно затруднен из-за отсутствия имея известные A и B, доступные для справки.
Это было исправлено с помощью трех взаимосвязанных кнопок: A, B и X. После выбора X он останется тем конкретным A или B до тех пор, пока не будет решено перейти к другому случайному выбору.
Однако вскоре стала очевидной другая проблема. При переключении с A на B всегда была слышимая задержка времени перехода реле. Однако при переключении с A на X задержка по времени отсутствовала бы, если бы X действительно был A, и присутствовал бы, если бы X был действительно B. вставка фиксированного времени отключения при любых изменениях. Время отключения было выбрано равным 50 мс, что дает легкий последовательный щелчок, позволяя субъективно мгновенное сравнение.

Компания ABX в настоящее время прекратила свое существование, а аппаратные компараторы в целом исчезли из коммерческого предложения. Существует множество программных инструментов, таких как плагин Foobar ABX для сравнения файлов. Но тестирование аппаратного оборудования требует создания индивидуальных реализаций.

Аппаратные тесты [ править ]

Два компаратора QSC ABX в передвижной стойке

Испытательное оборудование ABX, использующее реле для переключения между двумя разными аппаратными путями, может помочь определить, есть ли различия в восприятии кабелей и компонентов. Можно сравнить пути передачи видео, звука и цифрового сигнала. Если переключение управляется микропроцессором, возможны двойные слепые тесты.

Уровень Громкоговоритель и линейный аудио сравнения могут быть выполнены на испытательном устройстве ABX выставленного на продажу в качестве ABX Компаратор по QSC Audio Products с 1998 по 2004 г. Другие аппаратные решения были сфабрикованы в частном порядке отдельными лицами или организациями для внутреннего тестирования.

Уверенность [ править ]

Если бы было выполнено только одно испытание ABX, случайное угадывание повлекло бы за собой 50% -ный шанс выбора правильного ответа, как при подбрасывании монеты. Чтобы сделать заявление, имеющее некоторую степень уверенности , необходимо провести множество испытаний. Увеличивая количество испытаний, вероятность статистического подтверждения способности человека различать A и B увеличивается для данного уровня достоверности. Уровень достоверности 95% обычно считается статистически значимым . ^[2] Компания QSC в руководстве пользователя ABX Comparator рекомендовала как минимум десять прослушиваний в каждом раунде испытаний. ^[3]

Результаты, необходимые для уровня достоверности 95% ^[4] (см .: P-значение )
Количество испытаний	10	11	12	13	14	15	16	17	18	19	20	21 год	22	23	24	25
Минимальное количество правильное	9	9	10	10	11	12	12	13	13	14	15	15	16	16	17	18

QSC рекомендовал провести не более 25 испытаний, поскольку субъект может утомиться, что сделает тест менее чувствительным (с меньшей вероятностью покажет реальную способность различать разницу между A и B). ^[3] Однако более чувствительный тест может быть получен путем объединения результатов ряда таких тестов с использованием отдельных лиц или тестов с одним и тем же субъектом, проводимых между перерывами на отдых. Для большого количества испытаний N может быть заявлен значимый результат (один с достоверностью 95%), если количество правильных ответов превышает . Важные решения обычно основываются на более высоком уровне уверенности, поскольку ошибочный «значительный результат» будет заявлен в одном из 20 таких тестов просто случайно. ${\ displaystyle N / 2 + {\ sqrt {N}}}$

Программные тесты [ править ]

Foobar2000 и Amarok тестирование ABX поддержка аудиоплееры на основе программного обеспечения, последний с помощью сценария третьей стороной. Lacinato ABX - это кроссплатформенный инструмент для тестирования звука для Linux, Windows и 64-битного Mac. Lacinato WebABX - это кроссбраузерный веб-инструмент ABX для аудио. Открытый исходный код aveX был в основном разработан для Linux, который также обеспечивает мониторинг тестирования с удаленного компьютера. Патчер ABX - это реализация ABX для Max / MSP . Дополнительное программное обеспечение ABX можно найти на заархивированном веб-сайте PCABX.

Тесты прослушивания кодеков [ править ]

Тест кодека прослушивания является научным исследованием предназначены для сравнения два или более потерь аудио кодеков , как правило , относительно предполагаемой точности и эффективности сжатия.

Возможные недостатки [ править ]

ABX - это тип тестирования с принудительным выбором . Выбор субъекта может быть основан на его достоинствах, то есть субъект действительно честно пытался определить, кажется ли X ближе к A или B. Но незаинтересованные или уставшие субъекты могут выбирать случайным образом, даже не пытаясь. Если его не выявить, это может ослабить результаты других субъектов, которые намеренно прошли тест, и подвергнуть результат парадоксу Симпсона , что приведет к ложным итоговым результатам. Простой просмотр итоговых результатов теста ( m из n правильных ответов) не может выявить возникновения этой проблемы.

Эта проблема становится более острой, если различия невелики. Пользователь может расстроиться и просто попытаться завершить тест, проголосовав случайным образом. В этом отношении тесты принудительного выбора, такие как ABX, имеют тенденцию отдавать предпочтение отрицательным результатам, когда различия незначительны, если не используются надлежащие протоколы для защиты от этой проблемы.

Передовой опыт требует как включения элементов управления, так и проверки субъектов: ^[5]

Основное внимание уделяется включению соответствующих условий контроля. Как правило, контрольные условия включают представление неискаженных аудиоматериалов, представленных непредсказуемыми для испытуемых способами. Именно различия между суждением об этих управляющих стимулах и потенциально нарушенных стимулах позволяют сделать вывод, что оценки являются фактическими оценками нарушений.

3.2.2 Пост-скрининг субъектов
Методы пост-скрининга можно условно разделить как минимум на два класса; один основан на несоответствиях по сравнению со средним результатом, а другой основан на способности субъекта делать правильные идентификации. Первый класс никогда не оправдан. Всякий раз, когда проводится субъективный тест на слушание с использованием рекомендованного здесь метода тестирования, автоматически становится доступной необходимая информация для второго класса пост-скрининга. Предлагаемый статистический метод для этого описан в Приложении 1. '
Эти методы в основном используются для устранения субъектов, которые не могут проводить соответствующие различия. Применение метода пост-скрининга может прояснить тенденции в результатах теста. Однако, принимая во внимание вариабельность чувствительности субъектов к разным артефактам, следует проявлять осторожность.

К другим недостаткам можно отнести отсутствие предметной подготовки и ознакомления с выбранным тестом и содержанием:

4.1 Фаза ознакомления или обучения
Перед формальной оценкой испытуемые должны быть хорошо знакомы с тестовыми средствами, тестовой средой, процессом выставления оценок, оценочными шкалами и методами их использования. Испытуемые также должны хорошо ознакомиться с исследуемыми артефактами. Что касается наиболее чувствительных тестов, они должны быть ознакомлены со всем материалом, который они будут оценивать позже, во время формальных выставочных сессий. Во время ознакомления или обучения субъекты должны быть предпочтительно вместе в группах (скажем, состоящих из трех субъектов), чтобы они могли свободно взаимодействовать и обсуждать обнаруженные ими артефакты друг с другом.

Другие проблемы могут возникнуть из-за самого оборудования ABX, как указано Кларком ^[2], где оборудование дает сигнал , позволяющий субъекту идентифицировать источник. Непрозрачность светильника ABX создает аналогичные проблемы.

Поскольку слуховые тесты и многие другие сенсорные тесты полагаются на кратковременную память , которая длится всего несколько секунд, очень важно, чтобы тестовое приспособление позволяло испытуемому идентифицировать короткие сегменты, которые можно было быстро сравнить. Точно так же должны быть устранены хлопки и сбои в коммутационном аппарате, поскольку они могут доминировать или иным образом влиять на тестируемые стимулы в том, что хранится в кратковременной памяти субъекта.

Альтернативы [ править ]

Оценка алгоритмического сжатия звука [ править ]

Поскольку тестирование ABX требует людей для оценки аудиокодеков с потерями, это требует много времени и средств. Поэтому были разработаны более дешевые подходы, например PEAQ , который является реализацией ODG .

МУШРА [ править ]

В MUSHRA субъекту предоставляется ссылка (помеченная как таковая), определенное количество тестовых образцов, скрытая версия ссылки и один или несколько якорей. Шкала 0-100 RATING позволяет оценивать очень небольшие различия, а скрытая версия по-прежнему обеспечивает проверку дискриминации.

Тестирование на дискриминацию [ править ]

В тестировании на дискриминацию используются альтернативные общие методы , такие как парное сравнение, двойное-тройное и треугольное тестирование . Из них тестирование «дуэт – трио» и «треугольник» особенно близко к тестированию ABX. Схематично:

Дуэт – трио: AXY - один известный, два неизвестных (один равен A, другой равен B), тест - какое неизвестное является известным: X = A (и Y = B), или Y = A (и X = B).
Треугольник: XXY - три неизвестных (два - A и один - B или один - A и два - B), тест, который является нечетным: Y = 1, Y = 2 или Y = 3.

В этом контексте тестирование ABX также известно как «дуэт – трио» в режиме «сбалансированного эталона» - оба известных значения представлены как ссылки, а не одно по отдельности. ^[6]

См. Также [ править ]

Тест прослушивания кодека
Прозрачность (сжатие данных)
Психофизика
Психоакустика

Ссылки [ править ]

^ Мансон, Вашингтон; Гарднер, Марк Б. (1950). «Стандартизация слуховых тестов». Журнал акустического общества Америки . Акустическое общество Америки (ASA). 22 (5): 675–675. DOI : 10.1121 / 1.1917190 . ISSN 0001-4966 .
^ a b c Кларк, Дэвид (1 мая 1982 г.). «Субъективное тестирование высокого разрешения с использованием двойного слепого компаратора» . Журнал Общества звукорежиссеров . 30 (5): 330–338 . Проверено 8 октября +2016 .
^ a b Руководство пользователя компаратора QSC ABX. (1998) стр. 10
^ Дэвид Карлстром. «Вероятность совпадения экспериментального результата со случайными предположениями» . Веб-страница ABX . Проверено 14 декабря 2011 .] в
^ "Рекомендация МСЭ-R BS.1116-2" (PDF) . Проверено 8 октября +2016 .
^ Meilgaard, Мортен; Гейл Вэнс Сивилль; Б. Томас Карр (1999). Техники сенсорной оценки (3-е изд.). CRC Press. С. 68–70. ISBN 0-8493-0276-5.

[1] Мансон, Вашингтон; Гарднер, Марк Б. (1950). «Стандартизация слуховых тестов». Журнал акустического общества Америки . Акустическое общество Америки (ASA). 22 (5): 675–675. DOI : 10.1121 / 1.1917190 . ISSN 0001-4966 .

[Clark-2] Кларк, Дэвид (1 мая 1982 г.). «Субъективное тестирование высокого разрешения с использованием двойного слепого компаратора» . Журнал Общества звукорежиссеров . 30 (5): 330–338 . Проверено 8 октября +2016 .

[QSCABX-3] Руководство пользователя компаратора QSC ABX. (1998) стр. 10

[ABX_Web_Page-4] Дэвид Карлстром. «Вероятность совпадения экспериментального результата со случайными предположениями» . Веб-страница ABX . Проверено 14 декабря 2011 .] в

[Methods_for_the_subjective_assessment_of_small_impairments_in_audio_systems-5] "Рекомендация МСЭ-R BS.1116-2" (PDF) . Проверено 8 октября +2016 .

[6] Meilgaard, Мортен; Гейл Вэнс Сивилль; Б. Томас Карр (1999). Техники сенсорной оценки (3-е изд.). CRC Press. С. 68–70. ISBN 0-8493-0276-5.

[1]