Структурное сходство индекс мера ( SSIM ) представляет собой метод прогнозирования воспринимаемого качества цифрового телевидения и кинематографических изображений, а также других видов цифровых изображений и видео. SSIM используется для измерения сходства между двумя изображениями. Индекс SSIM - это полная справочная метрика ; другими словами, измерение или прогноз качества изображения основывается на исходном несжатом или свободном от искажений изображении в качестве эталона.
SSIM - это модель, основанная на восприятии, которая рассматривает деградацию изображения как воспринимаемое изменение структурной информации , а также включает важные явления восприятия, включая как маскирование яркости, так и условия маскирования контраста. Отличие от других методов, таких как MSE или PSNR, заключается в том, что эти подходы оценивают абсолютные ошибки . Структурная информация - это идея о том, что пиксели сильно взаимозависимы, особенно когда они пространственно близки. Эти зависимости несут важную информацию о структуре объектов визуальной сцены. Маскирование яркости - это явление, при котором искажения изображения (в данном контексте) имеют тенденцию быть менее заметными в ярких областях, в то время как маскирование контраста - это явление, при котором искажения становятся менее заметными там, где есть значительная активность или «текстура» в изображении.
История
Предшественник SSIM назывался Универсальный индекс качества (UQI), или индекс Ванга-Бовика , который был разработан Чжоу Ван и Алан Бовик в 2001 году. Благодаря их сотрудничеству с Хамидом Шейхом и Ээро Симончелли он превратился в текущую версию SSIM. , который был опубликован в апреле 2004 года в IEEE Transactions on Image Processing . [1] В дополнение к определению индекса качества SSIM, в документе приводится общий контекст для разработки и оценки показателей качества восприятия, включая связь с визуальной нейробиологией и восприятием человека, а также прямую проверку индекса по отношению к оценкам людей.
Базовая модель была разработана в Лаборатории инженерии изображений и видео (LIVE) Техасского университета в Остине и доработана совместно с Лабораторией компьютерного зрения (LCV) Нью-Йоркского университета . Дальнейшие варианты модели были разработаны в Лаборатории графических и визуальных вычислений Университета Ватерлоо и поступили на коммерческий рынок.
Впоследствии SSIM нашла широкое распространение в сообществе обработки изображений. 2004 SSIM бумага была процитирована более 20 000 раз согласно Google Scholar , [2] , что делает его одним из самых цитируемых работ в области обработки изображений и видео инженерии. Он был удостоен награды IEEE Signal Processing Society Best Paper Award за 2009 год. [3] Он также получил награду IEEE Signal Processing Society Sustained Impact Award за 2016 год, что свидетельствует о том, что статья имела необычно высокое влияние в течение как минимум 10 лет после ее публикации.
Алгоритм
Индекс SSIM рассчитывается для различных окон изображения. Расстояние между двумя окнами а также обычного размера N × N : [4]
с участием:
- среднее из;
- среднее из;
- дисперсия из;
- дисперсия из;
- ковариации из а также ;
- , две переменные для стабилизации деления со слабым знаменателем;
- динамический диапазон пиксельных значений ( как правило , это);
- а также по умолчанию.
Компоненты формулы
Формула SSIM основана на трех сравнительных измерениях между выборками а также : яркость (), контраст () и структура (). Отдельные функции сравнения: [4]
с, в дополнение к приведенным выше определениям:
Тогда SSIM представляет собой взвешенную комбинацию этих сравнительных показателей:
Установка весов к 1 формулу можно привести к форме, показанной выше.
Математические свойства
SSIM удовлетворяет тождеству неразличимости и свойствам симметрии, но не неравенству треугольника или неотрицательности, и, следовательно, не является функцией расстояния . Однако при определенных условиях SSIM может быть преобразован в нормированную корневую меру MSE, которая является функцией расстояния. [5] Квадрат такой функции не является выпуклым, а является локально выпуклым и квазивыпуклым , [5] что делает SSIM приемлемой целью для оптимизации.
Применение формулы
Для оценки качества изображения эта формула обычно применяется только к яркости , хотя она также может применяться к значениям цвета (например, RGB ) или хроматическим (например, YCbCr ) значениям. Результирующий индекс SSIM представляет собой десятичное значение от 0 до 1, а значение 1 доступно только в случае двух идентичных наборов данных и, следовательно, указывает на полное структурное сходство. Значение 0 указывает на отсутствие структурного сходства. Для изображения он обычно вычисляется с использованием скользящего гауссова окна размером 11x11 или блочного окна размером 8x8. Окно можно перемещать попиксельно на изображении, чтобы создать карту качества изображения SSIM. В случае оценки качества видео [6] авторы предлагают использовать только подгруппу возможных окон, чтобы упростить расчет.
Варианты
Мультимасштабный SSIM
Более продвинутая форма SSIM, называемая Multiscale SSIM (MS-SSIM) [4] , проводится в нескольких масштабах посредством процесса нескольких этапов субдискретизации, напоминающего многомасштабную обработку в ранних системах технического зрения. Было показано, что он работает одинаково хорошо или лучше, чем SSIM, с различными базами данных субъективных изображений и видео. [4] [7] [8]
Многокомпонентный SSIM
Трехкомпонентный SSIM (3-SSIM) - это форма SSIM, которая учитывает тот факт, что человеческий глаз может более точно видеть различия на текстурированных или краевых областях, чем на гладких областях. [9] Результирующая метрика вычисляется как средневзвешенное значение SSIM для трех категорий областей: края, текстуры и гладкие области. Предлагаемый весовой коэффициент составляет 0,5 для краев, 0,25 для текстурированных и гладких областей. Авторы отмечают, что взвешивание 1/0/0 (игнорирование чего-либо, кроме искажений краев) приводит к результатам, которые ближе к субъективным оценкам. Это говорит о том, что краевые области играют доминирующую роль в восприятии качества изображения.
Авторы 3-SSIM также расширили модель на четырехкомпонентный SSIM (4-SSIM). Типы кромок далее подразделяются на сохраненные и измененные кромки по их статусу искажения. Предлагаемый весовой коэффициент составляет 0,25 для всех четырех компонентов. [10]
Структурное несходство
Структурное несходство (DSSIM) может быть получено из SSIM, хотя оно не является функцией расстояния, поскольку неравенство треугольника не обязательно выполняется.
Метрики качества видео и временные варианты
Стоит отметить, что исходная версия SSIM была разработана для измерения качества неподвижных изображений. Он не содержит никаких параметров, напрямую связанных с временными эффектами человеческого восприятия и человеческого суждения. [7] Обычной практикой является вычисление среднего значения SSIM по всем кадрам в видеопоследовательности. Однако было разработано несколько временных вариантов SSIM. [11] [6] [12]
Комплексный вейвлет SSIM
Вариант SSIM со сложным вейвлет-преобразованием (CW-SSIM) разработан для решения проблем масштабирования, трансляции и поворота изображения. Вместо того, чтобы давать низкие оценки изображениям с такими условиями, CW-SSIM использует преимущества комплексного вейвлет-преобразования и, следовательно, дает более высокие оценки упомянутым изображениям. CW-SSIM определяется следующим образом:
Где - комплексное вейвлет-преобразование сигнала а также - комплексное вейвлет-преобразование для сигнала . Кроме того,- небольшое положительное число, используемое для стабильности функции. В идеале он должен быть нулевым. Как и SSIM, CW-SSIM имеет максимальное значение 1. Максимальное значение 1 указывает, что два сигнала полностью структурно подобны, а значение 0 указывает на отсутствие структурного сходства. [13]
SSIMPLUS
Индекс SSIMPLUS основан на SSIM и является коммерчески доступным инструментом. [14] Он расширяет возможности SSIM, в основном, для целевых видеоприложений. Он обеспечивает оценку в диапазоне от 0 до 100, линейно сопоставленную с субъективными оценками человека. Это также позволяет адаптировать оценки к предполагаемому устройству просмотра, сравнивая видео в разных разрешениях и содержимом.
По словам его авторов, SSIMPLUS обеспечивает более высокую точность и более высокую скорость, чем другие показатели качества изображения и видео. Однако независимая оценка SSIMPLUS не проводилась, так как сам алгоритм не является общедоступным.
cSSIM
Для дальнейшего исследования стандартного дискретного SSIM с теоретической точки зрения, непрерывный SSIM (cSSIM) [15] был введен и изучен в контексте интерполяции радиальной базисной функции .
Другие простые модификации
Показатель взаимной корреляции r * основан на показателях дисперсии SSIM. Он определяется как r * ( x , y ) =σ xy/σ x σ yкогда σ x σ y ≠ 0 , 1, когда оба стандартных отклонения равны нулю, и 0, когда только одно равно нулю. Он нашел применение при анализе реакции человека на фантомы с контрастными деталями. [16]
SSIM также использовался для градиента изображений, что сделало его «G-SSIM». G-SSIM особенно полезен для размытых изображений. [17]
Вышеуказанные модификации можно комбинировать. Например, 4-Gr * - это комбинация 4-SSIM, G-SSIM и r *. Он может лучше отражать предпочтения рентгенологов к изображениям, чем другие протестированные варианты SSIM. [18]
Заявление
У SSIM есть приложения для решения множества различных задач. Вот несколько примеров:
- Сжатие изображений: при сжатии изображений с потерями информация намеренно отбрасывается, чтобы уменьшить пространство для хранения изображений и видео. В таких схемах сжатия обычно используется MSE. По словам его авторов, рекомендуется использовать SSIM вместо MSE для получения лучших результатов для распакованных изображений. [13]
- Восстановление изображения: восстановление изображения направлено на решение проблемы. где размытое изображение, которое нужно восстановить, ядро размытия, - аддитивный шум и это исходное изображение, которое мы хотим восстановить. Традиционным фильтром, который используется для решения этой проблемы, является фильтр Винера. Однако конструкция фильтра Винера основана на MSE. По словам авторов алгоритма, использование варианта SSIM, в частности Stat-SSIM, обеспечивает лучшие визуальные результаты. [13]
- Распознавание образов: поскольку SSIM имитирует аспекты человеческого восприятия, его можно использовать для распознавания образов. Столкнувшись с такими проблемами, как масштабирование, трансляция и поворот изображения, авторы алгоритма заявляют, что лучше использовать CW-SSIM, [19] который нечувствителен к этим вариациям и может применяться напрямую путем сопоставления с шаблоном без использования какой-либо обучающей выборки. Поскольку подходы к распознаванию образов, основанные на данных, могут обеспечить лучшую производительность, когда для обучения доступен большой объем данных, авторы предлагают использовать CW-SSIM в подходах, основанных на данных. [19]
Сравнение производительности
Из-за своей популярности SSIM часто сравнивают с другими показателями, в том числе с более простыми показателями, такими как MSE и PSNR, и другими показателями качества изображения и видео . SSIM неоднократно показывал, что значительно превосходит MSE и его производные по точности, в том числе исследования его собственных авторов и других. [7] [20] [21] [22] [23] [24]
В статье Доссельмана и Янга утверждается, что производительность SSIM «намного ближе к производительности MSE», чем обычно предполагалось. Хотя они не оспаривают преимущества SSIM над MSE, они констатируют аналитическую и функциональную зависимость между двумя показателями. [8] Согласно их исследованиям, SSIM, как и методы на основе MSE, коррелирует с субъективными базами данных, отличными от баз данных создателей SSIM. В качестве примера они приводят Рейбмана и Пула, которые обнаружили, что MSE превосходит SSIM в базе данных, содержащей видео с нарушением потери пакетов. [25] В другой статье была выявлена аналитическая связь между PSNR и SSIM. [26]
Смотрите также
- Среднеквадратичная ошибка
- Пиковое отношение сигнал / шум
- Качество видео
Рекомендации
- ^ Ван, Чжоу; Бовик, AC; Шейх, HR; Симончелли, EP (2004-04-01). «Оценка качества изображения: от видимости ошибок до структурного сходства». IEEE Transactions по обработке изображений . 13 (4): 600–612. Bibcode : 2004ITIP ... 13..600W . CiteSeerX 10.1.1.2.5689 . DOI : 10.1109 / TIP.2003.819861 . ISSN 1057-7149 . PMID 15376593 .
- ^ "Google Scholar" . scholar.google.com . Проверено 4 июля 2019 .
- ^ «Общество обработки сигналов IEEE, награда за лучшую работу» (PDF) .
- ^ а б в г Wang, Z .; Simoncelli, EP; Бовик, AC (2003-11-01). Мультимасштабное структурное сходство для оценки качества изображения . Конференция Запись тридцать седьмой Asilomar конференции на сигналах, системы и компьютеры, 2004 . 2 . С. 1398–1402 Том 2. CiteSeerX 10.1.1.58.1939 . DOI : 10,1109 / ACSSC.2003.1292216 . ISBN 978-0-7803-8104-9.
- ^ а б Brunet, D .; Vass, J .; Vrscay, ER; Ван, З. (апрель 2012 г.). «О математических свойствах индекса структурного подобия» (PDF) . IEEE Transactions по обработке изображений . 21 (4): 2324–2328. Bibcode : 2012ITIP ... 21.1488B . DOI : 10.1109 / TIP.2011.2173206 . PMID 22042163 .
- ^ а б Wang, Z .; Lu, L .; Бовик, AC (февраль 2004 г.). «Оценка качества видео на основе измерения структурных искажений» . Обработка сигналов: передача изображений . 19 (2): 121–132. CiteSeerX 10.1.1.2.6330 . DOI : 10.1016 / S0923-5965 (03) 00076-6 .
- ^ а б в Согаард, Якоб; Красула, Лукаш; Шахид, Мухаммад; Темель, Доганкан; Бруннстрем, Челл; Разаак, Манзур (14 февраля 2016 г.). «Применимость существующих объективных показателей качества восприятия для адаптивной потоковой передачи видео» (PDF) . Электронное изображение . 2016 (13): 1–7. DOI : 10.2352 / issn.2470-1173.2016.13.iqsp-206 .
- ^ а б Доссельманн, Ричард; Ян, Сюэ Дон (2009-11-06). «Комплексная оценка индекса структурного подобия». Обработка сигналов, изображений и видео . 5 (1): 81–91. DOI : 10.1007 / s11760-009-0144-1 . ISSN 1863-1703 .
- ^ Ли, Чаофэн; Бовик, Алан Конрад (01.01.2010). «Контентно-взвешенная оценка качества видео с использованием трехкомпонентной модели изображения». Журнал электронного изображения . 19 (1): 011003–011003–9. Bibcode : 2010JEI .... 19a1003L . DOI : 10.1117 / 1.3267087 . ISSN 1017-9909 .
- ^ Ли, Чаофэн; Бовик, Алан С. (август 2010 г.). «Индекс структурного подобия с разделением на контент для оценки качества изображения». Обработка сигналов: передача изображений . 25 (7): 517–526. DOI : 10.1016 / j.image.2010.03.004 .
- ^ «Страница перенаправления» . www.compression.ru .
- ^ Wang, Z .; Ли, К. (декабрь 2007 г.). «Оценка качества видео с использованием статистической модели восприятия скорости человеческого зрения» (PDF) . Журнал Оптического общества Америки A . 24 (12): B61 – B69. Bibcode : 2007JOSAA..24 ... 61W . CiteSeerX 10.1.1.113.4177 . DOI : 10.1364 / JOSAA.24.000B61 . PMID 18059915 .
- ^ а б в Чжоу Ван; Бовик, AC (январь 2009 г.). «Среднеквадратичная ошибка: нравится это или оставить? Новый взгляд на показатели достоверности сигнала». Журнал обработки сигналов IEEE . 26 (1): 98–117. Bibcode : 2009ISPM ... 26 ... 98W . DOI : 10.1109 / msp.2008.930649 . ISSN 1053-5888 .
- ^ Rehman, A .; Zeng, K .; Ван, Чжоу (февраль 2015 г.). Роговиц, Бернис Э; Папас, Фрасивулос Н; Де Риддер, Хьюиб (ред.). «Отображение адаптированного видео для оценки качества восприятия видео» (PDF) . IS & T-SPIE Электронное изображение, человеческое зрение и электронное изображение XX . Человеческое зрение и электронное изображение XX. 9394 : 939406. Bibcode : 2015SPIE.9394E..06R . DOI : 10.1117 / 12.2077917 .
- ^ Маркетти, Ф. (январь 2021 г.). «Скорость сходимости с точки зрения непрерывного индекса SSIM (cSSIM) при интерполяции RBF» (PDF) . Долом. Res. Примечания Прибл . 14 : 27–32.
- ^ Прието, Габриэль; Гибелальде, Эдуардо; Шевалье, Маргарита; Турреро, Агустин (21 июля 2011 г.). «Использование компонента взаимной корреляции многомасштабной метрики структурного сходства (метрика R *) для оценки медицинских изображений: метрика R * для оценки медицинских изображений». Медицинская физика . 38 (8): 4512–4517. DOI : 10.1118 / 1.3605634 .
- ^ Чен Гуань-хао; Ян, Чун-лин; Се, Шэн-ли (октябрь 2006 г.). «Структурное подобие на основе градиента для оценки качества изображения». 2006 Международная конференция по обработке изображений : 2929–2932. DOI : 10,1109 / ICIP.2006.313132 .
- ^ Рениблас, Габриэль Прието; Ногес, Агустин Турреро; Гонсалес, Альберто Муньос; Гомес-Леон, Ньевес; дель Кастильо, Эдуардо Гибелальде (26 июля 2017 г.). «Семейство индексов структурного подобия для оценки качества изображения на радиологических изображениях» . Журнал медицинской визуализации . 4 (3): 035501. DOI : 10,1117 / 1.JMI.4.3.035501 . PMC 5527267 . PMID 28924574 .
- ^ а б Gao, Y .; Rehman, A .; Ван З. (сентябрь 2011 г.). Классификация изображений на основе CW-SSIM (PDF) . Международная конференция IEEE по обработке изображений (ICIP11).
- ^ Чжан, Линь; Чжан, Лэй; Mou, X .; Чжан, Д. (сентябрь 2012 г.). Комплексная оценка алгоритмов оценки качества полноэкранного эталонного изображения . 2012 19-я Международная конференция IEEE по обработке изображений . С. 1477–1480. CiteSeerX 10.1.1.476.2566 . DOI : 10,1109 / icip.2012.6467150 . ISBN 978-1-4673-2533-2.
- ^ Чжоу Ван; Ван, Чжоу; Ли, Цян (май 2011 г.). «Взвешивание информационного содержания для оценки качества воспринимаемого изображения». IEEE Transactions по обработке изображений . 20 (5): 1185–1198. Bibcode : 2011ITIP ... 20.1185W . DOI : 10.1109 / tip.2010.2092435 . PMID 21078577 .
- ^ Чаннапайя, СС; Бовик, AC; Caramanis, C .; Хит, RW (март 2008 г.). SSIM-оптимальное восстановление линейных изображений . 2008 Международная конференция IEEE по акустике, обработке речи и сигналов . С. 765–768. CiteSeerX 10.1.1.152.7952 . DOI : 10.1109 / icassp.2008.4517722 . ISBN 978-1-4244-1483-3.
- ^ Гор, Акшай; Гупта, Савита (01.02.2015). «Полные эталонные показатели качества изображения для сжатых изображений JPEG». AEU - Международный журнал электроники и связи . 69 (2): 604–608. DOI : 10.1016 / j.aeue.2014.09.002 .
- ^ Wang, Z .; Simoncelli, EP (сентябрь 2008 г.). «Соревнование по максимальной дифференциации (MAD): методология сравнения вычислительных моделей воспринимаемых величин» (PDF) . Журнал видения . 8 (12): 8.1–13. DOI : 10.1167 / 8.12.8 . PMC 4143340 . PMID 18831621 .
- ^ Reibman, AR; Пул, Д. (сентябрь 2007 г.). Характеристика ухудшения потери пакетов в сжатом видео . 2007 Международная конференция IEEE по обработке изображений . 5 . С. V - 77 – V - 80. CiteSeerX 10.1.1.159.5710 . DOI : 10,1109 / icip.2007.4379769 . ISBN 978-1-4244-1436-9.
- ^ Хор, А .; Цзыу Д. (август 2010 г.). Метрики качества изображения: PSNR против SSIM . 2010 20-я Международная конференция по распознаванию образов . С. 2366–2369. DOI : 10.1109 / icpr.2010.579 . ISBN 978-1-4244-7542-1.
Внешние ссылки
- Домашняя страница
- Реализация Rust
- Реализация C / C ++
- Реализация DSSIM C ++
- Реализация C # Криса Ломонта
- реализация qpsnr (многопоточный C ++)
- Реализация в программном обеспечении VQMT
- Реализация на Python
- "Тайна показателей сходства MSE и SSIM", Гинтаутас Палубинскас, 2014 г.