Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Корпус Калгари - это набор текстовых и двоичных файлов данных , обычно используемых для сравнения алгоритмов сжатия данных . Он был создан Яном Виттеном , Тимом Беллом и Джоном Клири из Университета Калгари в 1987 году и широко использовался в 1990-х годах. В 1997 году он был заменен на корпус Кентерберийский , [1] на основе заботы о том , как репрезентативна корпус Калгари был, [2] , но корпус Калгари все еще существует для сравнения и по - прежнему полезно для его первоначально предназначенной цели.

Содержание [ править ]

В наиболее часто используемом виде корпус состоит из 14 файлов общим размером 3 141 622 байта, как показано ниже.

Существует также менее часто используемая версия из 18 файлов, которая включает 4 дополнительных текстовых файла в формате «troff» UNIX, от PAPER3 до PAPER6.

Контрольные показатели [ править ]

Корпус Калгари был широко используемым эталоном для сжатия данных в 1990-х годах. Чаще всего результаты приводились в битах на байт (бит / байт) для каждого файла, а затем суммировались путем усреднения. В последнее время было принято просто добавлять сжатые размеры всех файлов. Это называется средневзвешенным значением, потому что оно эквивалентно взвешиванию коэффициентов сжатия по исходным размерам файлов. Тест UCLC [3] Йохана де Бока использует этот метод.

Для некоторых компрессоров данных можно уменьшить корпус путем объединения входных данных в несжатый архив (например, файл tar ) перед сжатием из-за взаимной информации между текстовыми файлами. В других случаях компрессия хуже, потому что компрессор плохо обрабатывает неоднородную статистику. Этот метод использовался в тесте в онлайн-книге Мэтта Махони « Сжатие данных ». [4]

В таблице ниже показаны сжатые размеры корпуса из 14 файлов Калгари с использованием обоих методов для некоторых популярных программ сжатия. Параметры, если они используются, позволяют выбрать наилучшее сжатие. Более полный список см. В приведенных выше тестах.

Проблема сжатия [ править ]

Конкурс "Сжатие корпуса Калгари и вызов трещины SHA-1 " [5] - это конкурс, начатый Леонидом Броухисом 21 мая 1996 года для сжатия 14-файловой версии корпуса Калгари. Конкурс предлагает небольшой денежный приз, размер которого со временем менялся. В настоящее время приз составляет 1 доллар США за улучшение предыдущего результата на 111 байт.

Согласно правилам конкурса, заявка должна состоять как из сжатых данных, так и из программы декомпрессии, упакованных в один из нескольких стандартных архивных форматов. Ограничения по времени и памяти, форматы архивов и языки декомпрессии со временем были ослаблены. В настоящее время программа должна работать в течение 24 часов на машине с 2000 MIPS под Windows или Linux и использовать менее 800 МБ памяти. SHA-1 задача была добавлена позднее. Это позволяет программе декомпрессии выводить файлы, отличные от корпуса Калгари, при условии, что они имеют те же значения, что и исходные файлы. Пока эта часть задачи не решена.

Первая полученная запись была 759 881 байт в сентябре 1997 года Малкольмом Тейлором, автором RK и WinRK. Самая последняя запись была сделана Александром Ратушняком 2 июля 2010 г. 580 170 байт. Запись состоит из сжатого файла размером 572 465 байт и программы распаковки, написанной на C ++ и сжатой до 7700 байт как переменная PPMd. Я архивирую плюс 5 байтов для имени и размера сжатого файла. История такова.

См. Также [ править ]

  • Сравнение файловых архиваторов

Ссылки [ править ]

  1. ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений . Морган Кауфманн. п. 92.
  2. ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (четвертое изд.). Springer. п. 12. ISBN 9781846286032.
  3. ^ http://uclc.info/calgary_corpus_compression_test.htm
  4. ^ http://mattmahoney.net/dc/dce.html#Section_214
  5. ^ http://mailcom.com/challenge/

Внешние ссылки [ править ]

  • Оригинальный дом Калгари Корпус
  • Новый дом
  • Белл, Виттен и Клири, 1988 г.
  • Информация о Калгари Корпус
  • Сжатие корпуса Калгари и вызов трещины SHA-1