Из Википедии, бесплатной энциклопедии
  (Перенаправлено с SMPTE 2117 )
Перейти к навигации Перейти к поиску

SMPTE ST 2117-1 , [1] неофициально известный как VC-6 , представляет собой формат кодирования видео . [2] Это улучшенный ИИ кодек внутрикадрового сжатия, предназначенный для высококачественного сжатия неподвижных и движущихся изображений. Кодек реализует сжатие без потерь и с потерями , в зависимости от выбранных параметров кодирования. Он был стандартизирован в 2020 году. Более ранние варианты кодека были развернуты V-Nova с 2015 года под торговым названием Perseus. Кодек основан на иерархических структурах данных, называемых s-деревьями, и не включает DCT или вейвлет-преобразование.сжатие. Механизм сжатия не зависит от сжимаемых данных и может применяться к пикселям, а также к другим данным, не относящимся к изображению.

Обзор [ править ]

Кодек VC-6 оптимизирован для приложений промежуточного, промежуточного или вспомогательного кодирования. [2] Как правило, эти приложения включают сжатие готовых композиций для редактирования, добавления, первичного распространения, архивирования и других приложений, где необходимо сохранить качество изображения как можно ближе к оригиналу, уменьшая при этом битрейт и оптимизируя обработку, мощность и хранение. требования. VC-6, как и другие кодеки в этой категории [3] [4] [5], использует только внутрикадровое сжатие, при котором каждый кадр сохраняется независимо и может быть декодирован без зависимости от любого другого кадра.

В отличие от кодеков на основе DCT , VC-6 основан на иерархических повторяющихся структурах s-дерева, которые похожи на модифицированные квадродеревья . Эти простые структуры обеспечивают внутренние возможности, такие как массивный параллелизм [6] и возможность выбора типа фильтрации, используемой для восстановления изображений с более высоким разрешением из изображений с более низким разрешением. [7] В стандарте VC-6 [2] повышающий дискретизатор, разработанный с помощью внутрицикловой сверточной нейронной сети , обеспечивает оптимизацию деталей восстановленного изображения без больших вычислительных затрат.

Возможность пространственной навигации в потоке битов VC-6 на нескольких уровнях [2] также дает возможность устройствам декодирования применять больше ресурсов к различным областям изображения, позволяя приложениям области интересов работать со сжатыми потоками битов, не требуя декодировать изображение с полным разрешением.

История [ править ]

На выставке NAB Show в 2015 году компания V-Nova заявила о «среднем увеличении сжатия в 2–3 раза на всех уровнях качества при практических сценариях работы в реальном времени по сравнению с H.264 , HEVC и JPEG2000 ». [8] Объявление об этом 1 апреля перед крупной торговой выставкой привлекло внимание многих экспертов по компрессии. [ необходима цитата ]

С тех пор V-Nova развернула и лицензировала технологию, известную в то время как Perseus, [8] как для распространения, так и для приложений по всему миру, включая Sky Italia , [9] Fast Filmz, [10] [11] Harmonic Inc. , и другие. Вариант технологии, оптимизированный для улучшения кодека распространения, скоро будет стандартизирован как MPEG-5 Part-2 LCEVC . [12] [13] [14]

Основные концепции [ править ]

Самолеты [ править ]

Стандарт [2] описывает алгоритм сжатия, который применяется к независимым плоскостям данных. Эти плоскости могут быть пикселями RGB или RGBA, происходящими из камеры, пикселями YCbCr из обычного ТВ-ориентированного видеоисточника или некоторыми другими плоскостями данных. Может быть до 255 независимых плоскостей данных, и каждая плоскость может иметь сетку значений данных размером до 65535 x 65535. Стандарт SMPTE ST 2117-1 фокусируется на сжатии плоскостей значений данных, обычно пикселей.

Для сжатия и распаковки данных в каждой плоскости VC-6 использует иерархические представления небольших древовидных структур, которые несут метаданные, используемые для прогнозирования других деревьев. В каждой плоскости повторяются 3 основные структуры. [2]

S-дерево [ править ]

Основной структурой сжатия в VC-6 является s-tree. [2] Это похоже на структуру квадродерева, распространенную в других схемах. S-дерево состоит из узлов, упорядоченных в древовидной структуре, где каждый узел связан с 4 узлами следующего уровня. Общее число слоев выше корневого узла известно как подъем из втор-дерева . Сжатие достигается в s-дереве с использованием метаданных, чтобы сигнализировать, можно ли предсказать уровни с помощью выборочной передачи данных расширения в потоке битов. Чем больше данных можно предсказать, тем меньше информации будет отправлено и тем лучше будет степень сжатия .

Табло [ править ]

Стандарт [2] определяет таблицу как корневой узел или самый высокий уровень s-дерева , который содержит узлы для другого s-дерева. Как и общие s-деревья, из которых они построены, таблицы упорядочены по уровням с метаданными в узлах, указывающих, предсказываются ли более высокие уровни или передаются в потоке битов.

Эшелон [ править ]

Иерархические структуры s-tree и tableau в стандарте [2] используются для переноса расширений (называемых остатками) и других метаданных для уменьшения количества необработанных данных, которые необходимо переносить в полезной нагрузке битового потока. Последний иерархический инструмент - это способность упорядочивать таблицы так, чтобы данные из каждой плоскости (т.е. пикселей) можно было деквантовать с разными разрешениями и использовать в качестве предикторов для более высоких разрешений. Каждое из этих разрешений определяется стандартом [2] как эшелон. Каждый эшелон в плоскости идентифицируется индексом , где более отрицательный показатель указывает на низкое разрешение, а больший положительный показатель указывает на более высокое разрешение.

Стандарт VC-6 [2] определяет список повышающих дискретизаторов для увеличения результатов деквантования для вышеприведенного эшелона. Повышающий дискретизатор, который будет использоваться для точной реконструкции, указывается в заголовке битового потока, но декодер может выбрать повышающий дискретизатор, который может больше соответствовать его потребностям. Например, телефон с низким энергопотреблением может выбрать более низкое энергопотребление вместо идеальной реконструкции, выбрав более простой передискретизатор.

Обзор битового потока [ править ]

VC-6 - это пример внутрикадрового кодирования , при котором каждое изображение кодируется без ссылки на другие изображения. Это также внутренняя плоскость, где никакая информация из одной плоскости не используется для предсказания другой плоскости. В результате поток битов VC-6 содержит всю информацию для всех плоскостей одного изображения. [2] последовательность Изображения создается путем конкатенации битовых потоков для нескольких изображений, или путем упаковки их в контейнере , таком как MXF или Quicktime или Matroska .

Битовый поток VC-6 определен в стандарте. [2] псевдокодом, и на основе этого определения был продемонстрирован эталонный декодер. Первичный заголовок - единственная фиксированная структура, определенная стандартом. [2] Вторичный заголовок содержит информацию о маркерах и размерах в зависимости от значений в основном заголовке. Третичный заголовок полностью вычисляется, а затем структура полезной нагрузки выводится из параметров, вычисленных во время декодирования заголовка [2]

Обзор декодирования [ править ]

Стандарт [2] определяет процесс, называемый реконструкцией плоскости, для декодирования изображений из битового потока. Процесс начинается с эшелона с самым низким индексом. Для этого эшелона прогнозы не используются. Во-первых, правила битового потока используются для восстановления остатков. Затем выполняются процессы десарсификации и энтропийного декодирования, чтобы заполнить сетку значениями данных по каждой координате. Затем эти значения деквантизируются для создания значений полного диапазона, которые можно использовать в качестве прогнозов для эшелона со следующим наивысшим индексом.

Каждый эшелон использует передискретизатор, указанный в заголовке, для создания прогнозируемой плоскости из нижнего эшелона, которая добавляется к остаточной сетке из текущего эшелона, которая может быть повышена в качестве прогноза для следующего эшелона.

Последний эшелон с полным разрешением, определенный стандартом [2], имеет индекс 0, и его результаты отображаются, а не используются для другого эшелона.

Параметры апсэмплера [ править ]

Основные параметры [ править ]

Стандарт [2] определяет ряд базовых повышающих дискретизаторов [15] для создания прогнозов с более высоким разрешением из эшелонов с более низким разрешением. Есть два линейных повышающих дискретизатора, бикубический и резкий, и повышающий дискретизатор ближайшего соседа.

Апсэмплер сверточной нейронной сети [ править ]

Шесть различных нелинейных повышающих дискретизаторов определяются [2] набором процессов и коэффициентов, которые предоставляются в формате JSON . [15] Эти коэффициенты были созданы с использованием методов сверточной нейронной сети [16] .

Ссылки [ править ]

  1. ^ «Результаты поиска IEEE Xplore» . ieeexplore.ieee.org . Проверено 17 сентября 2020 .
  2. ^ a b c d e f g h i j k l m n o p q r s "ST 2117-1: 2020 - Стандарт SMPTE - Многопланарный формат изображения VC-6 - Часть 1. Элементарный поток битов" . Санкт-Петербург 2117-1: 2020 : 1–156. Июль 2020 г. doi : 10.5594 / SMPTE.ST2117-1.2020 . ISBN 978-1-68303-219-9.
  3. ^ «ST 2042-1: 2012 - Стандарт SMPTE - Сжатие видео VC-2» . Санкт-Петербург, 2042-1: 2012 : 1–137. Август 2012 г. doi : 10.5594 / SMPTE.ST2042-1.2012 . ISBN 978-1-61482-890-7.
  4. ^ «ST 2019-1: 2016 - Стандарт SMPTE - Сжатие изображения VC-3 и формат потока данных» . Санкт-Петербург, 2019-1: 2016 : 1–108. Июнь 2016 г. doi : 10.5594 / SMPTE.ST2019-1.2016 . ISBN 978-1-68303-020-1.
  5. ^ «ST 2073-1: 2014 - Стандарт SMPTE - Суть видео VC-5 - Часть 1: Элементарный поток битов» . St 2073-1: 2014 : 1–50. Март 2014 г. doi : 10.5594 / SMPTE.ST2073-1.2014 . ISBN 978-1-61482-797-9.
  6. ^ Хунг, Юбин; Розенфельд, Азриэль (1 августа 1989 г.). «Параллельная обработка линейных квадродеревьев на сетевом компьютере» . Журнал параллельных и распределенных вычислений . 7 (1): 1-27. DOI : 10.1016 / 0743-7315 (89) 90049-X . ISSN 0743-7315 . 
  7. ^ Самет, Ханан (1988), «Обзор квадродеревьев, октодеревьев и связанных иерархических структур данных» , Теоретические основы компьютерной графики и САПР , Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 51–68, DOI : 10.1007 / 978 -3-642-83539-1_2 , ISBN 978-3-642-83541-4, получено 09.09.2020
  8. ^ a b "Обзор: V-Nova Perseus: соответствует ли его сжатие шумихе?" . Журнал Streaming Media . 2016-06-17 . Проверено 4 сентября 2020 .
  9. ^ «Sky Italia выбирает V-Nova для расширения охвата IPTV» . Цифровое телевидение Европы .
  10. ^ «Индийский FastFilmz использует V-Nova для доставки OTT на телефоны 2G» . Цифровое телевидение Европы . 2016-04-07 . Проверено 9 сентября 2020 .
  11. ^ «SHAREit приобретает Fastfilmz для увеличения количества видеоконтента, региональных пользователей» . Inc42 Media . 2018-05-08 . Проверено 17 сентября 2020 .
  12. ^ "MPEG-5 LCEVC" .
  13. ^ "V-Nova анонсирует MPEG-5 Part 2 LCEVC" . TVB Европа .
  14. ^ "Политика Персея просачивается в NAB вслед за разоблачением MPEG-5" . Rethnk Research . 2019-04-11.
  15. ^ a b «Медиа-элемент повышающего дискретизатора ST 2117-1» . Стандарты IEEExplore . 2020-07-21.
  16. ^ Арабшахи, П. (май 1996 г.). «Основы искусственных нейронных сетей [Рецензии на книги]» . IEEE-транзакции в нейронных сетях . 7 (3): 793. DOI : 10,1109 / tnn.1996.501738 . ISSN 1045-9227 . S2CID 6576607 .