Сжатие с потерями


В информационных технологиях сжатие с потерями или необратимое сжатие — это класс методов сжатия данных, которые используют неточные приближения и частичное отбрасывание данных для представления содержимого. Эти методы используются для уменьшения размера данных для хранения, обработки и передачи контента. Различные версии фотографии кота на этой странице показывают, как более высокие степени приближения создают более грубые изображения по мере удаления большего количества деталей. Это противоположно сжатию данных без потерь (обратимое сжатие данных), которое не ухудшает качество данных. Объем сокращения данных, возможный при использовании сжатия с потерями, намного выше, чем при использовании методов без потерь.

Хорошо продуманная технология сжатия с потерями часто значительно уменьшает размер файла до того, как конечный пользователь заметит ухудшение качества. Даже когда это заметно пользователю, может быть желательным дальнейшее сокращение данных (например, для связи в реальном времени или для сокращения времени передачи или потребности в хранении). Наиболее широко используемым алгоритмом сжатия с потерями является дискретное косинусное преобразование (DCT), впервые опубликованное Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году. DCT были предложены для сжатия с потерями. [1]

Сжатие с потерями чаще всего используется для сжатия мультимедийных данных ( аудио , видео и изображений ), особенно в таких приложениях, как потоковое мультимедиа и интернет-телефония . Напротив, сжатие без потерь обычно требуется для текстовых файлов и файлов данных, таких как банковские записи и текстовые статьи. Может быть выгодно создать мастер-файл без потерь, который затем можно использовать для создания дополнительных копий. Это позволяет избежать создания новых сжатых копий исходного файла с потерями, что может привести к дополнительным артефактам и дальнейшим ненужным потерям информации .

Можно сжать многие типы цифровых данных таким образом, чтобы уменьшить размер компьютерного файла , необходимого для их хранения, или пропускную способность , необходимую для его передачи, без потери полной информации, содержащейся в исходном файле. Изображение, например, преобразуется в цифровой файл, рассматривая его как массив точек и указывая цвет и яркость каждой точки. Если изображение содержит область одного цвета, его можно сжать без потерь, сказав «200 красных точек» вместо «красная точка, красная точка, ... (еще 197 раз)..., красная точка».

Исходные данные содержат определенное количество информации, и существует нижний предел размера файла, который может содержать всю информацию. Базовая теория информации говорит, что существует абсолютный предел в уменьшении размера этих данных. Когда данные сжимаются, их энтропия увеличивается, и она не может увеличиваться бесконечно. Например, сжатый ZIP - файл меньше исходного, но многократное сжатие одного и того же файла не уменьшит его размер до нуля. Большинство алгоритмов сжатия могут распознать, когда дальнейшее сжатие было бы бессмысленным и фактически увеличило бы размер данных.

Во многих случаях файлы или потоки данных содержат больше информации, чем необходимо. Например, изображение может иметь больше деталей, чем может различить глаз при воспроизведении в максимальном предполагаемом размере; точно так же аудиофайл не нуждается в большом количестве мелких деталей во время очень громкого отрывка. Разработка методов сжатия с потерями, максимально приближенных к человеческому восприятию, является сложной задачей. Иногда идеальным является файл, который обеспечивает точно такое же восприятие, как и оригинал, с удалением как можно большего количества цифровой информации; в других случаях допустимым компромиссом считается ощутимая потеря качества.


JPEG с высоким сжатием (низкое качество)