Единицы информации

В вычислительной технике и телекоммуникациях единицей информации является емкость некоторой стандартной системы хранения данных или канала связи , используемая для измерения емкости других систем и каналов. В теории информации единицы информации также используются для измерения информации , содержащейся в сообщениях, и энтропии случайных величин.

Наиболее часто используемыми единицами емкости хранения данных являются бит , емкость системы, которая имеет только два состояния, и байт (или октет ), который эквивалентен восьми битам. Несколько этих единиц могут быть образованы из них с помощью префиксов SI (префиксы степени десятой) или более новых двоичных префиксов IEC (префиксы степени двойки).

В 1928 году Ральф Хартли наблюдал фундаментальный принцип хранения ^[1] , который был дополнительно формализован Клодом Шенноном в 1945 году: информация, которая может храниться в системе, пропорциональна логарифму N возможных состояний этой системы, обозначаемому log _b N . Изменение основания логарифма с b на другое число c приводит к умножению значения логарифма на фиксированную константу, а именно log _c N = (log _c b ) log _b N . Поэтому выбор базы bопределяет единицу измерения информации. В частности, если b — целое положительное число, то единицей является количество информации, которое может храниться в системе с N возможными состояниями.

Когда b равно 2, единицей измерения является шеннон , равный информационному содержанию одного «бита» (сочетание двоичных цифр ^[2] ). Например, система с 8 возможными состояниями может хранить до log ₂ 8 = 3 битов информации. Другие единицы, которые были названы, включают:

Trit, ban и nat редко используются для измерения емкости хранилища; но нац, в частности, часто используется в теории информации, потому что натуральные логарифмы математически более удобны, чем логарифмы в других системах счисления.

Исторически сложилось так, что байт — это количество битов, используемых для кодирования символа текста в компьютере, что зависело от аппаратной архитектуры компьютера; но сегодня это почти всегда означает восемь битов, то есть октет . Байт может представлять 256 (2 ⁸ ) различных значений, таких как неотрицательные целые числа от 0 до 255 или целые числа со знаком от −128 до 127. Стандарт IEEE 1541-2002 определяет «B» (верхний регистр) в качестве символа для байт ( IEC 80000-13 использует «o» для октета на французском языке, ^{[nb 1]}но также допускает букву «B» на английском языке, что на самом деле и используется). Байты или их кратные числа почти всегда используются для указания размеров компьютерных файлов и емкости единиц хранения. Большинство современных компьютеров и периферийных устройств предназначены для манипулирования данными целыми байтами или группами байтов, а не отдельными битами.

Сравнение единиц информации: бит , трит , нат , бан . Количество информации – высота столбцов. Темно-зеленый уровень - это «натуральная» единица.