Субъективное качество видео это видео качество , как испытываемые людьми. Он касается того, как видео воспринимается зрителем (также называемым «наблюдателем» или «субъектом»), и определяет его мнение о конкретной видеопоследовательности . Это связано с областью качества опыта . Измерение субъективного качества видео необходимо, поскольку было показано, что алгоритмы объективной оценки качества, такие как PSNR , плохо коррелируют с субъективными оценками. Субъективные оценки также могут использоваться в качестве основы для разработки новых алгоритмов.
Субъективные тесты качества видео - это психофизические эксперименты, в которых ряд зрителей оценивают определенный набор стимулов. Эти тесты довольно дороги с точки зрения времени (подготовка и выполнение) и человеческих ресурсов и поэтому должны быть тщательно спроектированы.
В субъективных тестах качества видео, как правило, SRC («Источники», то есть исходные видеопоследовательности) обрабатываются с различными условиями ( HRC для «Гипотетических эталонных схем») для генерации PVS («Обработанные видеопоследовательности »). [1]
Основная идея измерения субъективного качества видео аналогична оценке аудио по средней оценке мнений (MOS) . Чтобы оценить субъективное качество видео системы обработки видео, обычно предпринимаются следующие шаги:
Многие параметры условий просмотра могут влиять на результаты, такие как освещение комнаты, тип дисплея, яркость, контрастность, разрешение, расстояние просмотра, а также возраст и уровень образования зрителей. Поэтому рекомендуется сообщать эту информацию вместе с полученными рейтингами.
Как правило, система должна быть протестирована с репрезентативным количеством различного содержимого и характеристик содержимого. Например, можно выбрать отрывки из контента разных жанров, например боевиков, новостных шоу и мультфильмов. Длина исходного видео зависит от цели теста, но обычно используются последовательности не менее 10 секунд.
Количество движения и пространственная детализация также должны охватывать широкий диапазон. Это гарантирует, что тест будет содержать последовательности разной сложности.
Источники должны быть безупречного качества. Не должно быть видимых артефактов кодирования или других свойств, которые снижали бы качество исходной последовательности.
Конструкция HRC зависит от исследуемой системы. Как правило, на этом этапе вводится несколько независимых переменных, и они меняются на нескольких уровнях. Например, для проверки качества видеокодека независимыми переменными могут быть программное обеспечение кодирования видео, целевой битрейт и целевое разрешение обрабатываемой последовательности.
Рекомендуется выбирать настройки, которые приводят к рейтингам, охватывающим весь диапазон качества. Другими словами, при использовании абсолютной рейтинговой шкалы, тест должен показывать последовательности, которые зрители оценили бы от плохих до отличных.
Зрителей также называют «наблюдателями» или «субъектами». Определенное минимальное количество зрителей должно быть приглашено на исследование, поскольку большее количество испытуемых повышает надежность результатов эксперимента, например, за счет уменьшения стандартного отклонения усредненных оценок. Кроме того, существует риск исключения испытуемых за ненадежное поведение во время оценки.
Минимальное количество субъектов, необходимое для субъективного исследования качества видео, строго не определено. Согласно ITU-T, возможно любое число от 4 до 40, где 4 является абсолютным минимумом по статистическим причинам, а приглашение более 40 субъектов не имеет дополнительной ценности. В целом в эксперименте должно участвовать не менее 15 наблюдателей. Они не должны принимать непосредственного участия в оценке качества изображения в рамках своей работы и не должны быть опытными оценщиками. [2] В других документах также утверждается, что для получения значимых усредненных оценок необходимо как минимум 10 предметов. [3]
Однако большинство рекомендаций по количеству субъектов было разработано для измерения качества видео, с которым сталкивается пользователь домашнего телевидения или ПК, где диапазон и разнообразие искажений имеют тенденцию быть ограниченными (например, только для артефактов кодирования). Учитывая большой диапазон и разнообразие искажений, которые могут возникнуть на видео, снятом с помощью мобильных устройств и / или передаваемом по беспроводным сетям, обычно может потребоваться большее количество людей.
Бруннстрем и Барковски представили расчеты для оценки минимального количества необходимых предметов на основе существующих субъективных тестов. [4] Они утверждают, что для обеспечения статистически значимых различий при сравнении оценок может потребоваться большее количество предметов, чем обычно рекомендуется.
Зрители должны быть неспециалистами в том смысле, что они не должны быть профессионалами в области кодирования видео или смежных областях. Это требование вводится, чтобы избежать потенциальной предвзятости. [2]
Как правило, у зрителей проверяется нормальное зрение или зрение с поправкой на нормальное с помощью диаграмм Снеллена . Дальтонизм часто проверяют с помощью пластин Исихара . [2]
В сообществе QoE продолжается дискуссия о том, оказывает ли культурное, социальное или экономическое влияние зрителя существенное влияние на получаемые субъективные результаты качества видео. Систематическое исследование с участием шести лабораторий в четырех странах не выявило статистически значимого влияния языка и культуры / страны происхождения испытуемых на рейтинги качества видео. [5]
Субъективные тесты качества можно проводить в любой среде. Однако из-за возможных факторов влияния из разнородных контекстов обычно рекомендуется проводить тесты в нейтральной среде, например в специальной лабораторной комнате. Такое помещение может быть звуконепроницаемым, со стенами, окрашенными в нейтральный серый цвет, и с использованием правильно откалиброванных источников света. Эти условия уточняются в нескольких рекомендациях. [6] [7] Было показано, что контролируемая среда приводит к меньшей изменчивости полученных оценок. [5]
Краудсорсинг в последнее время используется для субъективной оценки качества видео и, в более общем плане, в контексте качества восприятия . [8] Здесь зрители выставляют оценки на собственном компьютере дома, а не принимают участие в субъективном тестировании качества в лабораторных помещениях. Хотя этот метод позволяет получить больше результатов, чем при традиционных субъективных тестах, при меньших затратах, достоверность и надежность собранных ответов необходимо тщательно проверять. [9]
Крупнейшая в мире база данных по качеству изображений, созданная с помощью краудсорсинга, стала общедоступной как база данных LIVE In the Wild Image Quality Challenge . Он содержит более 350 000 оценок человеческого качества от более чем 8 000 человек. Человеческие суждения были сделаны на основе более чем 1100 фотографий, сделанных с помощью мобильной камеры, с разной степенью достоверных искажений, а не искусственно внесенных искажений, как это было сделано почти во всех предыдущих базах данных.
Мнения зрителей обычно усредняются в средний балл мнений (MOS). Для этого метки категориальных шкал могут быть переведены в числа. Например, ответы «плохо» на «отлично» можно сопоставить со значениями от 1 до 5, а затем усреднить. Значения MOS всегда следует сообщать с указанием их статистических доверительных интервалов, чтобы можно было оценить общее согласие между наблюдателями.
Часто перед оценкой результатов принимаются дополнительные меры. Тематический отбор - это процесс, при котором зрители, чьи оценки считаются недействительными или ненадежными, исключаются из дальнейшего анализа. Недействительные оценки трудно обнаружить, поскольку испытуемые могли выставлять оценки, не просматривая видео, или жульничать во время теста. Общая надежность объекта может быть определена с помощью различных процедур, некоторые из которых описаны в рекомендациях ITU-R и ITU-T. [2] [7] Например, корреляция между индивидуальными оценками человека и общей MOS, оцененной для всех последовательностей, является хорошим показателем их надежности по сравнению с остальными участниками теста.
Оценивая стимулы, люди подвержены предубеждениям. Это может привести к различным и неточным оценкам и, как следствие, к значениям MOS, которые не отражают «истинное качество» стимула. В последние годы были предложены продвинутые модели, нацеленные на формальное описание рейтингового процесса и последующее восстановление зашумленности субъективных оценок. Согласно Яновски и др., Субъекты могут иметь предвзятость во мнении, которая обычно приводит к изменению их оценок, а также неточность выставления оценок, которая зависит от объекта и стимула, подлежащего оценке. [10] Ли и др. предложили различать несоответствие темы и неоднозначность содержания . [11]
Есть много способов выбрать правильную последовательность, системные настройки и методики тестирования. Некоторые из них стандартизированы. Они подробно описаны в нескольких рекомендациях ITU-R и ITU-T, среди которых ITU-R BT.500 [7] и ITU-T P.910. [2] Несмотря на то, что некоторые аспекты частично совпадают, рекомендация BT.500 имеет свои корни в вещании, тогда как P.910 фокусируется на мультимедийном контенте.
Стандартизированный метод тестирования обычно описывает следующие аспекты:
Другая рекомендация, ITU-T P.913, [6] дает исследователям больше свободы для проведения субъективных тестов качества в средах, отличных от типичной испытательной лаборатории, при этом от них требуется сообщать все детали, необходимые для воспроизводимости таких тестов.
Ниже объясняются некоторые примеры стандартизированных процедур тестирования.
Какой метод выбрать, во многом зависит от цели теста и возможных ограничений по времени и другим ресурсам. Некоторые методы могут иметь меньше контекстных эффектов (например, когда порядок стимулов влияет на результаты), что является нежелательной ошибкой теста. [12] В ITU-T P.910 отмечается, что для проверки точности передачи следует использовать такие методы, как DCR, особенно в системах высокого качества. ACR и ACR-HR лучше подходят для квалификационных испытаний и - из-за получения абсолютных результатов - для сравнения систем. Метод ПК обладает высокой дискриминационной способностью, но требует более длительных сеансов тестирования.
Результаты субъективных тестов качества, включая использованные стимулы, называются базами данных . Ряд баз данных о субъективном качестве изображений и видео, основанных на таких исследованиях, был опубликован исследовательскими институтами. Эти базы данных - некоторые из которых стали де-факто стандартами - используются во всем мире телевизионными, кинематографическими и видеоинженерами по всему миру для разработки и тестирования моделей объективного качества, поскольку разработанные модели могут быть обучены на основе полученных субъективных данных.
Примеры этих баз данных включают популярную коллекцию общедоступных баз данных субъективного качества изображения, доступную на веб-сайте Лаборатории инженерии изображений и видео (LIVE) . Базы данных LIVE были первыми высококачественными крупными базами данных субъективного качества изображения, которые были доступны для общественности бесплатно и без утаивания какой-либо части данных. Последние работы включают базы данных Института исследований в области коммуникаций и кибернетики Нанта (IRCCyN) . Список европейских баз данных, относящихся к области качества опыта, можно найти в базах данных QUALINET .
|journal=
( помощь )