Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Структурное сходство индекс мера ( SSIM ) представляет собой метод прогнозирования воспринимаемого качества цифрового телевидения и кинематографических изображений, а также других видов цифровых изображений и видео. SSIM используется для измерения сходства между двумя изображениями. Индекс SSIM - это полная справочная метрика ; другими словами, измерение или прогноз качества изображения основывается на исходном несжатом или свободном от искажений изображении в качестве эталона.

SSIM - это модель, основанная на восприятии, которая рассматривает деградацию изображения как воспринимаемое изменение структурной информации , а также включает важные явления восприятия, включая термины маскирования яркости и маскирования контраста. Отличие от других методов, таких как MSE или PSNR, заключается в том, что эти подходы оценивают абсолютные ошибки.. Структурная информация - это идея о том, что пиксели имеют сильную взаимозависимость, особенно когда они пространственно близки. Эти зависимости несут важную информацию о структуре объектов визуальной сцены. Маскирование яркости - это явление, при котором искажения изображения (в данном контексте) имеют тенденцию быть менее заметными в ярких областях, в то время как маскирование контраста - это явление, при котором искажения становятся менее заметными там, где есть значительная активность или «текстура» в изображении.

История [ править ]

Предшественник SSIM назывался Универсальный индекс качества (UQI), или индекс Ванга-Бовика , который был разработан Чжоу Ван и Алан Бовик в 2001 году. Благодаря их сотрудничеству с Хамидом Шейхом и Ээро Симончелли он превратился в текущую версию SSIM. , который был опубликован в апреле 2004 года в IEEE Transactions on Image Processing . [1] В дополнение к определению индекса качества SSIM, в документе представлен общий контекст для разработки и оценки показателей качества восприятия, включая связь с визуальной нейробиологией и восприятием человека, а также прямую проверку индекса по отношению к оценкам людей.

Базовая модель была разработана в Лаборатории инженерии изображений и видео (LIVE) Техасского университета в Остине и доработана совместно с Лабораторией компьютерного зрения (LCV) Нью-Йоркского университета . Дальнейшие варианты модели были разработаны в Лаборатории графических и визуальных вычислений Университета Ватерлоо и поступили на коммерческий рынок.

Впоследствии SSIM нашла широкое применение в сообществе обработки изображений. 2004 SSIM бумага была процитирована более 20 000 раз согласно Google Scholar , [2] , что делает его одним из самых цитируемых работ в области обработки изображений и видео инженерии. Он был удостоен награды IEEE Signal Processing Society за лучшую работу за 2009 год. [3] Он также получил награду IEEE Signal Processing Society Sustained Impact Award за 2016 год, что свидетельствует о том, что статья имела необычно высокое влияние в течение как минимум 10 лет после ее публикации.

Алгоритм [ править ]

Индекс SSIM рассчитывается для различных окон изображения. Мера между двумя окнами и общего размера N × N является: [4]

с:

  • средний по ;
  • средний по ;
  • дисперсия по ;
  • дисперсия по ;
  • ковариации из и ;
  • , две переменные для стабилизации деления со слабым знаменателем;
  • динамический диапазон пиксельных значений (обычно это );
  • и по умолчанию.

Компоненты формулы [ править ]

Формула SSIM основана на трех сравнительных измерениях между выборками и : яркости ( ), контрастности ( ) и структуры ( ). Отдельные функции сравнения: [4]

с, в дополнение к приведенным выше определениям:

Тогда SSIM представляет собой взвешенную комбинацию этих сравнительных показателей:

Установив веса на 1, формулу можно привести к форме, показанной выше.

Математические свойства [ править ]

SSIM удовлетворяет свойствам неотрицательности, тождественности неразличимых и симметрии, но не неравенству треугольника, и, следовательно, не является функцией расстояния . Однако при определенных условиях SSIM может быть преобразован в нормированную корневую меру MSE, которая является функцией расстояния. [5] Квадрат такой функции не является выпуклым, а является локально выпуклым и квазивыпуклым , [5] что делает SSIM приемлемой целью для оптимизации.

Применение формулы [ править ]

Для оценки качества изображения эта формула обычно применяется только к яркости , хотя она также может применяться к значениям цвета (например, RGB ) или хроматическим (например, YCbCr ) значениям. Результирующий индекс SSIM представляет собой десятичное значение от 0 до 1, а значение 1 доступно только в случае двух идентичных наборов данных и, следовательно, указывает на полное структурное сходство. Значение 0 указывает на отсутствие структурного сходства. Для изображения он обычно вычисляется с использованием скользящего гауссова окна размером 11x11 или блочного окна размером 8x8. Окно можно перемещать попиксельно на изображении, чтобы создать карту качества изображения SSIM. В случае оценки качества видео [6] Авторы предлагают использовать только подгруппу возможных окон, чтобы упростить расчет.

Варианты [ править ]

Multi-Scale SSIM [ править ]

Более продвинутая форма SSIM, называемая Multiscale SSIM (MS-SSIM) [4] , проводится в нескольких масштабах посредством процесса нескольких этапов субдискретизации, напоминающей многомасштабную обработку в ранних системах технического зрения. Было показано, что он работает одинаково хорошо или лучше, чем SSIM, с различными базами данных субъективных изображений и видео. [4] [7] [8]

Многокомпонентный SSIM [ править ]

Трехкомпонентный SSIM (3-SSIM) - это форма SSIM, которая учитывает тот факт, что человеческий глаз может более точно видеть различия на текстурированных или краевых областях, чем на гладких областях. [9] Результирующая метрика вычисляется как средневзвешенное значение SSIM для трех категорий областей: края, текстуры и гладкие области. Предлагаемый весовой коэффициент составляет 0,5 для краев, 0,25 для текстурированных и гладких областей. Авторы отмечают, что взвешивание 1/0/0 (игнорирование чего-либо, кроме искажений краев) приводит к результатам, которые ближе к субъективным оценкам. Это говорит о том, что краевые области играют доминирующую роль в восприятии качества изображения.

Авторы 3-SSIM также расширили модель до четырехкомпонентной SSIM (4-SSIM). Типы кромок далее подразделяются на сохраненные и измененные кромки по их статусу искажения. Предлагаемый весовой коэффициент составляет 0,25 для всех четырех компонентов. [10]

Структурное несходство [ править ]

Структурное несходство (DSSIM) может быть получено из SSIM, хотя оно не является функцией расстояния, поскольку неравенство треугольника не обязательно выполняется.

Показатели качества видео и временные варианты [ править ]

Стоит отметить, что исходная версия SSIM была разработана для измерения качества неподвижных изображений. Он не содержит никаких параметров, напрямую связанных с временными эффектами человеческого восприятия и человеческого суждения. [7] Обычной практикой является вычисление среднего значения SSIM по всем кадрам в видеопоследовательности. Однако было разработано несколько временных вариантов SSIM. [11] [6] [12]

Комплексный вейвлет SSIM [ править ]

Вариант SSIM со сложным вейвлет-преобразованием (CW-SSIM) разработан для решения проблем масштабирования, трансляции и поворота изображения. Вместо того, чтобы давать низкие оценки изображениям с такими условиями, CW-SSIM использует преимущества комплексного вейвлет-преобразования и, следовательно, дает более высокие оценки упомянутым изображениям. CW-SSIM определяется следующим образом:

Где - комплексное вейвлет-преобразование сигнала, а - комплексное вейвлет-преобразование для сигнала . Кроме того, это небольшое положительное число, используемое для стабильности функции. В идеале он должен быть нулевым. Как и SSIM, CW-SSIM имеет максимальное значение 1. Максимальное значение 1 указывает на то, что два сигнала совершенно структурно подобны, а значение 0 указывает на отсутствие структурного сходства. [13]

SSIMPLUS [ править ]

Индекс SSIMPLUS основан на SSIM и является коммерчески доступным инструментом. [14] Он расширяет возможности SSIM, в основном, для целевых видеоприложений. Он обеспечивает оценку в диапазоне от 0 до 100, линейно сопоставленную с субъективными оценками человека. Это также позволяет адаптировать оценки к предполагаемому устройству просмотра, сравнивая видео в разных разрешениях и содержимом.

По словам его авторов, SSIMPLUS обеспечивает более высокую точность и более высокую скорость, чем другие показатели качества изображения и видео. Однако независимая оценка SSIMPLUS не проводилась, так как сам алгоритм не является общедоступным.

cSSIM [ править ]

Для дальнейшего исследования стандартного дискретного SSIM с теоретической точки зрения, непрерывный SSIM (cSSIM) [15] был введен и изучен в контексте интерполяции радиальной базисной функции .

Другие простые модификации [ править ]

Показатель взаимной корреляции r * основан на показателях дисперсии SSIM. Он определяется как r * ( x , y ) =σ xy/σ x σ yкогда σ x σ y ≠ 0 , 1, когда оба стандартных отклонения равны нулю, и 0, когда только одно равно нулю. Он нашел применение при анализе реакции человека на фантомы с ограниченными деталями. [16]

SSIM также использовался для градиента изображений, что сделало его «G-SSIM». G-SSIM особенно полезен для размытых изображений. [17]

Вышеуказанные модификации можно комбинировать. Например, 4-Gr * - это комбинация 4-SSIM, G-SSIM и r *. Он может лучше отражать предпочтения рентгенологов к изображениям, чем другие протестированные варианты SSIM. [18]

Заявление [ править ]

У SSIM есть приложения для решения множества различных задач. Вот несколько примеров:

  • Сжатие изображений: при сжатии изображений с потерями информация намеренно отбрасывается, чтобы уменьшить пространство для хранения изображений и видео. В таких схемах сжатия обычно используется MSE. По словам его авторов, рекомендуется использовать SSIM вместо MSE для получения лучших результатов для распакованных изображений. [13]
  • Восстановление изображения: восстановление изображения фокусируется на решении проблемы, когда размытое изображение должно быть восстановлено, является ядром размытия, является аддитивным шумом и является исходным изображением, которое мы хотим восстановить. Традиционным фильтром, который используется для решения этой проблемы, является фильтр Винера. Однако конструкция фильтра Винера основана на MSE. По словам авторов алгоритма, использование варианта SSIM, в частности Stat-SSIM, обеспечивает лучшие визуальные результаты. [13]
  • Распознавание образов: поскольку SSIM имитирует аспекты человеческого восприятия, его можно использовать для распознавания образов. Столкнувшись с такими проблемами, как масштабирование, трансляция и поворот изображения, авторы алгоритма заявляют, что лучше использовать CW-SSIM, [19] который нечувствителен к этим вариациям и может применяться напрямую путем сопоставления с шаблоном без использования какой-либо обучающей выборки. Поскольку подходы к распознаванию образов, основанные на данных, могут обеспечить лучшую производительность, когда для обучения доступен большой объем данных, авторы предлагают использовать CW-SSIM в подходах, основанных на данных. [19]

Сравнение производительности [ править ]

Из-за своей популярности SSIM часто сравнивают с другими метриками, включая более простые метрики, такие как MSE и PSNR, и другие метрики воспринимаемого изображения и качества видео . SSIM неоднократно показывал, что значительно превосходит MSE и его производные по точности, в том числе исследования его собственных авторов и других. [7] [20] [21] [22] [23] [24]

В статье Доссельмана и Янга утверждается, что производительность SSIM «намного ближе к производительности MSE», чем обычно предполагалось. Хотя они не оспаривают преимущества SSIM над MSE, они констатируют аналитическую и функциональную зависимость между двумя показателями. [8] Согласно их исследованиям, SSIM, как и методы на основе MSE, коррелирует с субъективными базами данных, отличными от баз данных создателей SSIM. В качестве примера они приводят Рейбмана и Пула, которые обнаружили, что MSE превосходит SSIM в базе данных, содержащей видео с нарушением потери пакетов. [25] В другой статье была выявлена ​​аналитическая связь между PSNR и SSIM. [26]

См. Также [ править ]

  • Среднеквадратичная ошибка
  • Пиковое отношение сигнал / шум
  • Качество видео

Ссылки [ править ]

  1. ^ Ван, Чжоу; Бовик, AC; Шейх, HR; Симончелли, EP (2004-04-01). «Оценка качества изображения: от видимости ошибок до структурного сходства». IEEE Transactions по обработке изображений . 13 (4): 600–612. Bibcode : 2004ITIP ... 13..600W . CiteSeerX  10.1.1.2.5689 . DOI : 10.1109 / TIP.2003.819861 . ISSN  1057-7149 . PMID  15376593 .
  2. ^ "Google Scholar" . scholar.google.com . Проверено 4 июля 2019 .
  3. ^ «IEEE Signal Processing Society, Best Paper Award» (PDF) .
  4. ^ a b c d Wang, Z .; Simoncelli, EP; Бовик, AC (2003-11-01). Мультимасштабное структурное сходство для оценки качества изображения . Конференция Запись тридцать седьмой Asilomar конференции на сигналах, системы и компьютеры, 2004 . 2 . С. 1398–1402 Т. 2. CiteSeerX 10.1.1.58.1939 . DOI : 10,1109 / ACSSC.2003.1292216 . ISBN  978-0-7803-8104-9.
  5. ^ a b Brunet, D .; Vass, J .; Vrscay, ER; Ван, З. (апрель 2012 г.). «О математических свойствах индекса структурного подобия» (PDF) . IEEE Transactions по обработке изображений . 21 (4): 2324–2328. Bibcode : 2012ITIP ... 21.1488B . DOI : 10.1109 / TIP.2011.2173206 . PMID 22042163 .  
  6. ^ a b Wang, Z .; Lu, L .; Бовик, AC (февраль 2004 г.). «Оценка качества видео на основе измерения структурных искажений» . Обработка сигналов: передача изображений . 19 (2): 121–132. CiteSeerX 10.1.1.2.6330 . DOI : 10.1016 / S0923-5965 (03) 00076-6 . 
  7. ^ a b c Согаард, Якоб; Красула, Лукаш; Шахид, Мухаммед; Темель, Доганкан; Бруннстрем, Челл; Разаак, Манзур (14 февраля 2016 г.). «Применимость существующих объективных показателей качества восприятия для адаптивной потоковой передачи видео» (PDF) . Электронное изображение . 2016 (13): 1–7. DOI : 10.2352 / issn.2470-1173.2016.13.iqsp-206 .
  8. ^ a b Доссельманн, Ричард; Ян, Сюэ Дон (2009-11-06). «Комплексная оценка индекса структурного подобия». Обработка сигналов, изображений и видео . 5 (1): 81–91. DOI : 10.1007 / s11760-009-0144-1 . ISSN 1863-1703 . 
  9. ^ Ли, Чаофэн; Бовик, Алан Конрад (01.01.2010). «Контентно-взвешенная оценка качества видео с использованием трехкомпонентной модели изображения». Журнал электронного изображения . 19 (1): 011003–011003–9. Bibcode : 2010JEI .... 19a1003L . DOI : 10.1117 / 1.3267087 . ISSN 1017-9909 . 
  10. ^ Ли, Чаофэн; Бовик, Алан С. (август 2010 г.). «Индекс структурного подобия с разделением на контент для оценки качества изображения». Обработка сигналов: передача изображений . 25 (7): 517–526. DOI : 10.1016 / j.image.2010.03.004 .
  11. ^ "Страница перенаправления" . www.compression.ru .
  12. ^ Ван, З .; Ли, К. (декабрь 2007 г.). «Оценка качества видео с использованием статистической модели восприятия скорости человеческого зрения» (PDF) . Журнал Оптического общества Америки A . 24 (12): B61 – B69. Bibcode : 2007JOSAA..24 ... 61W . CiteSeerX 10.1.1.113.4177 . DOI : 10.1364 / JOSAA.24.000B61 . PMID 18059915 .   
  13. ^ a b c Чжоу Ван; Бовик, AC (январь 2009 г.). «Среднеквадратичная ошибка: нравится это или оставить? Новый взгляд на показатели достоверности сигнала». Журнал обработки сигналов IEEE . 26 (1): 98–117. Bibcode : 2009ISPM ... 26 ... 98W . DOI : 10.1109 / msp.2008.930649 . ISSN 1053-5888 . 
  14. ^ Рехман, А .; Zeng, K .; Ван, Чжоу (февраль 2015 г.). Роговиц, Бернис Э; Папас, Фрасивулос Н; Де Риддер, Хьюиб (ред.). «Отображение адаптированного видео для оценки качества восприятия видео» (PDF) . IS & T-SPIE Электронное изображение, человеческое зрение и электронное изображение XX . Человеческое зрение и электронное изображение XX. 9394 : 939406. Bibcode : 2015SPIE.9394E..06R . DOI : 10.1117 / 12.2077917 .
  15. Маркетти, Ф. (январь 2021 г.). «Скорость сходимости с точки зрения непрерывного индекса SSIM (cSSIM) при интерполяции RBF» (PDF) . Долом. Res. Примечания Прибл . 14 : 27–32.
  16. Прието, Габриэль; Гибелальде, Эдуардо; Шевалье, Маргарита; Турреро, Агустин (21 июля 2011 г.). «Использование компонента взаимной корреляции многомасштабной метрики структурного сходства (метрика R *) для оценки медицинских изображений: метрика R * для оценки медицинских изображений». Медицинская физика . 38 (8): 4512–4517. DOI : 10.1118 / 1.3605634 .
  17. ^ Чен, Гуань-хао; Ян, Чун-лин; Се, Шэн-ли (октябрь 2006 г.). «Структурное подобие на основе градиента для оценки качества изображения». 2006 Международная конференция по обработке изображений : 2929–2932. DOI : 10,1109 / ICIP.2006.313132 .
  18. ^ Реньеблас, Габриэль Прието; Ногес, Агустин Турреро; Гонсалес, Альберто Муньос; Гомес-Леон, Ньевес; дель Кастильо, Эдуардо Гибелальде (26 июля 2017 г.). «Семейство индексов структурного подобия для оценки качества изображения на радиологических изображениях» . Журнал медицинской визуализации . 4 (3): 035501. DOI : 10,1117 / 1.JMI.4.3.035501 . PMC 5527267 . PMID 28924574 .  
  19. ^ a b Gao, Y .; Рехман, А .; Ван З. (сентябрь 2011 г.). «Классификация изображений на основе CW-SSIM» (PDF) . Cite journal requires |journal= (help)
  20. ^ Чжан, L .; Zhang, L .; Mou, X .; Чжан, Д. (сентябрь 2012 г.). Комплексная оценка алгоритмов оценки качества полноэкранного эталонного изображения . 2012 19-я Международная конференция IEEE по обработке изображений . С. 1477–1480. CiteSeerX 10.1.1.476.2566 . DOI : 10,1109 / icip.2012.6467150 . ISBN  978-1-4673-2533-2.
  21. ^ Чжоу Ван; Ван, Чжоу; Ли, Цян (май 2011 г.). «Взвешивание информационного содержания для оценки качества воспринимаемого изображения». IEEE Transactions по обработке изображений . 20 (5): 1185–1198. Bibcode : 2011ITIP ... 20.1185W . DOI : 10.1109 / tip.2010.2092435 . PMID 21078577 . 
  22. ^ Channappayya, SS; Бовик, AC; Caramanis, C .; Хит, RW (март 2008 г.). SSIM-оптимальное восстановление линейных изображений . 2008 Международная конференция IEEE по акустике, обработке речи и сигналов . С. 765–768. CiteSeerX 10.1.1.152.7952 . DOI : 10.1109 / icassp.2008.4517722 . ISBN  978-1-4244-1483-3.
  23. ^ Гор, Акшай; Гупта, Савита (01.02.2015). «Полные эталонные показатели качества изображения для сжатых изображений JPEG». AEU - Международный журнал электроники и связи . 69 (2): 604–608. DOI : 10.1016 / j.aeue.2014.09.002 .
  24. ^ Ван, З .; Simoncelli, EP (сентябрь 2008 г.). «Соревнование по максимальной дифференциации (MAD): методология сравнения вычислительных моделей воспринимаемых величин» (PDF) . Журнал видения . 8 (12): 8.1–13. DOI : 10.1167 / 8.12.8 . PMC 4143340 . PMID 18831621 .   
  25. ^ Reibman, AR; Пул, Д. (сентябрь 2007 г.). Характеристика ухудшения потери пакетов в сжатом видео . 2007 Международная конференция IEEE по обработке изображений . 5 . С. V - 77 – V - 80. CiteSeerX 10.1.1.159.5710 . DOI : 10,1109 / icip.2007.4379769 . ISBN  978-1-4244-1436-9.
  26. ^ Хор, А .; Цзыу Д. (август 2010 г.). Метрики качества изображения: PSNR против SSIM . 2010 20-я Международная конференция по распознаванию образов . С. 2366–2369. DOI : 10.1109 / icpr.2010.579 . ISBN 978-1-4244-7542-1.

Внешние ссылки [ править ]

  • Домашняя страница
  • Реализация Rust
  • Реализация C / C ++
  • Реализация DSSIM C ++
  • Реализация C # Криса Ломонта
  • реализация qpsnr (многопоточный C ++)
  • Реализация в программном обеспечении VQMT
  • Реализация на Python
  • «Тайна показателей сходства MSE и SSIM», Гинтаутас Палубинскас, 2014 г.