Перейти к навигации Перейти к поиску
Корпус Canterbury - это набор файлов, предназначенных для использования в качестве эталона для тестирования алгоритмов сжатия данных без потерь . Он был создан в 1997 году в Университете Кентербери , Новая Зеландия, и призван заменить корпус Калгари . Файлы были отобраны на основе их способности обеспечивать репрезентативные результаты производительности. [1]
Содержание [ править ]
В своей наиболее часто используемой форме корпус состоит из 11 файлов, выбранных как «средние» документы из 11 классов документов [2], общим объемом 2 810 784 байта следующим образом.
Размер (байты) | Имя файла | Описание |
---|---|---|
152 089 | алиса 29.txt | Английский текст |
125 179 | asyoulik .txt | Шекспир |
24 603 | cp.html | Источник HTML |
11 150 | fields.c | Источник C |
3721 | grammar.lsp | Источник LISP |
1 029 744 | kennedy.xls | Электронная таблица Excel |
426 754 | lcet10.txt | Техническое письмо |
481 861 | plrabn12.txt | Поэзия ( Потерянный рай ) |
513 216 | ptt5 | Набор для испытаний CCITT |
38 240 | сумма | Исполняемый файл SPARC |
4 227 | xargs .1 | Страница руководства GNU |
См. Также [ править ]
Ссылки [ править ]
- ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений . Морган Кауфманн. п. 92. ISBN 9781558605701.
- ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (четвертое изд.). Springer. п. 12. ISBN 9781846286032.
Внешние ссылки [ править ]
Эта статья по информатике незавершена . Вы можете помочь Википедии, расширив ее . |