Эта статья требует дополнительных ссылок для проверки . ( ноябрь 2012 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон ) |
Корпус Калгари - это набор текстовых и двоичных файлов данных , обычно используемых для сравнения алгоритмов сжатия данных . Он был создан Яном Виттеном , Тимом Беллом и Джоном Клири из Университета Калгари в 1987 году и широко использовался в 1990-х годах. В 1997 году он был заменен на корпус Кентерберийский , [1] на основе заботы о том , как репрезентативна корпус Калгари был, [2] , но корпус Калгари все еще существует для сравнения и по - прежнему полезно для его первоначально предназначенной цели.
Содержание [ править ]
В наиболее часто используемом виде корпус состоит из 14 файлов общим размером 3 141 622 байта, как показано ниже.
Размер (байты) | Имя файла | Описание |
---|---|---|
111 261 | BIB | Текст ASCII в формате UNIX « ссылается » - 725 библиографических ссылок. |
768 771 | КНИГА1 | неформатированный текст ASCII - Томас Харди: Вдали от обезумевшей толпы. |
610 856 | КНИГА2 | Текст ASCII в формате UNIX " troff " - Виттен: Принципы компьютерной речи. |
102 400 | GEO | 32-битные числа в формате IBM с плавающей запятой - сейсмические данные. |
377 109 | НОВОСТИ | Текст ASCII - командный файл USENET по различным темам. |
21 504 | OBJ1 | Исполняемая программа VAX - компиляция PROGP. |
246 814 | OBJ2 | Исполняемая программа Macintosh - «Система поддержки знаний». |
53 161 | БУМАГА1 | Формат UNIX "troff" - Виттен, Нил, Клири: арифметическое кодирование для сжатия данных. |
82 199 | БУМАГА2 | Формат UNIX "troff" - Виттен: компьютерная (не) безопасность. |
513 216 | ПОС | Растровое изображение 1728 x 2376 (сначала MSB): текст на французском языке и линейные диаграммы. |
39 611 | PROGC | Исходный код на C - UNIX compress v4.0. |
71 646 | ПРОГЛ | Исходный код на Лиспе - системное ПО. |
49 379 | PROGP | Исходный код на Паскале - программа для оценки сжатия PPM. |
93 695 | ТРАНС | ASCII и управляющие символы - стенограмма терминальной сессии. |
Существует также менее часто используемая версия из 18 файлов, которая включает 4 дополнительных текстовых файла в формате «troff» UNIX, от PAPER3 до PAPER6.
Контрольные показатели [ править ]
Корпус Калгари был широко используемым эталоном для сжатия данных в 1990-х годах. Чаще всего результаты приводились в битах на байт (бит / байт) для каждого файла, а затем суммировались путем усреднения. В последнее время было принято просто добавлять сжатые размеры всех файлов. Это называется средневзвешенным значением, потому что оно эквивалентно взвешиванию коэффициентов сжатия по исходным размерам файлов. Тест UCLC [3] Йохана де Бока использует этот метод.
Для некоторых компрессоров данных можно уменьшить корпус путем объединения входных данных в несжатый архив (например, файл tar ) перед сжатием из-за взаимной информации между текстовыми файлами. В других случаях компрессия хуже, потому что компрессор плохо обрабатывает неоднородную статистику. Этот метод использовался в тесте в онлайн-книге Мэтта Махони « Сжатие данных ». [4]
В таблице ниже показаны сжатые размеры корпуса из 14 файлов Калгари с использованием обоих методов для некоторых популярных программ сжатия. Параметры, если они используются, позволяют выбрать наилучшее сжатие. Более полный список см. В приведенных выше тестах.
Компрессор | Опции | В виде 14 отдельных файлов | Как файл tar |
---|---|---|---|
Несжатый | 3 141 622 | 3,152,896 | |
компресс | 1 272 772 | 1,319,521 | |
Info-ZIP 2.32 | -9 | 1 020 781 | 1 023 042 |
gzip 1.3.5 | -9 | 1 017 624 | 1 022 810 |
bzip2 1.0.3 | -9 | 828 347 | 860 097 |
7-молния 9.12b | 848 687 | 824 573 | |
ppmd Jr1 | -m256 -o16 | 740 737 | 754 243 |
ppmonstr J | 675 485 | 669 497 | |
ZPAQ v7.15 | -метод 5 | 659 709 | 659 853 |
Проблема сжатия [ править ]
Конкурс "Сжатие корпуса Калгари и вызов трещины SHA-1 " [5] - это конкурс, начатый Леонидом Броухисом 21 мая 1996 года для сжатия 14-файловой версии корпуса Калгари. Конкурс предлагает небольшой денежный приз, размер которого со временем менялся. В настоящее время приз составляет 1 доллар США за улучшение предыдущего результата на 111 байт.
Согласно правилам конкурса, заявка должна состоять как из сжатых данных, так и из программы декомпрессии, упакованных в один из нескольких стандартных архивных форматов. Ограничения по времени и памяти, форматы архивов и языки декомпрессии со временем были ослаблены. В настоящее время программа должна работать в течение 24 часов на машине с 2000 MIPS под Windows или Linux и использовать менее 800 МБ памяти. SHA-1 задача была добавлена позднее. Это позволяет программе декомпрессии выводить файлы, отличные от корпуса Калгари, при условии, что они имеют те же значения, что и исходные файлы. Пока эта часть задачи не решена.
Первая полученная запись была 759 881 байт в сентябре 1997 года Малкольмом Тейлором, автором RK и WinRK. Самая последняя запись была сделана Александром Ратушняком 2 июля 2010 г. 580 170 байт. Запись состоит из сжатого файла размером 572 465 байт и программы распаковки, написанной на C ++ и сжатой до 7700 байт как переменная PPMd. Я архивирую плюс 5 байтов для имени и размера сжатого файла. История такова.
Размер (байты) | Месяц год | Автор |
---|---|---|
759 881 | 09/1997 | Малкольм Тейлор |
692 154 | 08/2001 | Максим Смирнов |
680 558 | 09/2001 | Максим Смирнов |
653 720 | 11/2002 | Серж Воскобойников |
645 667 | 01/2004 | Мэтт Махони |
637 116 | 04/2004 | Александр Ратушняк |
608 980 | 12/2004 | Александр Ратушняк |
603 416 | 04/2005 | Пшемыслав Скибински |
596 314 | 10/2005 | Александр Ратушняк |
593 620 | 12/2005 | Александр Ратушняк |
589 863 | 05/2006 | Александр Ратушняк |
580 170 | 07/2010 | Александр Ратушняк |
См. Также [ править ]
- Сравнение файловых архиваторов
Ссылки [ править ]
- ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений . Морган Кауфманн. п. 92.
- ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (четвертое изд.). Springer. п. 12. ISBN 9781846286032.
- ^ http://uclc.info/calgary_corpus_compression_test.htm
- ^ http://mattmahoney.net/dc/dce.html#Section_214
- ^ http://mailcom.com/challenge/
Внешние ссылки [ править ]
- Оригинальный дом Калгари Корпус
- Новый дом
- Белл, Виттен и Клири, 1988 г.
- Информация о Калгари Корпус
- Сжатие корпуса Калгари и вызов трещины SHA-1