Кодировка символов


Кодирование символов — это процесс присвоения номеров графическим символам , особенно письменным символам человеческого языка , что позволяет хранить , передавать и преобразовывать их с помощью цифровых компьютеров . [1] Числовые значения, составляющие кодировку символов, известны как « кодовые точки » и в совокупности составляют «кодовое пространство», « кодовую страницу » или « карту символов ».

Ранние коды символов, связанные с оптическим или электрическим телеграфом , могли представлять только подмножество символов, используемых в письменных языках , иногда ограничиваясь только прописными буквами , цифрами и некоторыми знаками препинания . Низкая стоимость цифрового представления данных в современных компьютерных системах позволяет использовать более сложные коды символов (такие как Unicode ), которые представляют большинство символов, используемых во многих письменных языках. Кодирование символов с использованием международно признанных стандартов позволяет обмениваться текстом в электронной форме по всему миру.

История символьных кодов иллюстрирует растущую потребность в машинно-опосредованной символьной информации на расстоянии с использованием некогда новых электрических средств. Самые ранние коды были основаны на ручном и рукописном кодировании и системах шифрования, таких как шифр Бэкона , шрифт Брайля , международные морские сигнальные флаги и 4-значное кодирование китайских иероглифов для китайского телеграфного кода ( Ганс Шьеллеруп , 1869). С внедрением электрических и электромеханических технологий эти самые ранние коды были адаптированы к новым возможностям и ограничениям первых машин. Самый ранний известный код символов, передаваемый электричеством, азбука Морзе ., введенный в 1840-х годах, использовал систему из четырех «символов» (короткий сигнал, длинный сигнал, короткий пробел, длинный пробел) для генерации кодов переменной длины. Хотя некоторое коммерческое использование азбуки Морзе осуществлялось с помощью машин, он часто использовался как ручной код, генерируемый вручную на телеграфном ключе и расшифровываемый на слух, и сохраняется в любительском радио и авиации . Большинство кодов имеют фиксированную длину символов или последовательности кодов фиксированной длины переменной длины (например, Unicode ).[2]

Общие примеры систем кодирования символов включают код Морзе , код Бодо , Американский стандартный код для обмена информацией ( ASCII ) и Unicode . Unicode , хорошо определенная и расширяемая система кодирования, вытеснила большинство более ранних кодировок символов, но путь развития кода до настоящего времени довольно хорошо известен.

Код Бодо , пятибитное кодирование, был создан Эмилем Бодо в 1870 году, запатентован в 1874 году, изменен Дональдом Мюрреем в 1901 году и стандартизирован CCITT как Международный телеграфный алфавит № 2 (ITA2) в 1930 году. " было ошибочно применено к ITA2 и его многочисленным вариантам. ITA2 страдал многими недостатками и часто «улучшался» многими производителями оборудования, что иногда создавало проблемы совместимости. В 1959 году военные США определили свой Fieldata.код, шести- или семибитный код, введенный Корпусом связи армии США. В то время как Fieldata решила многие из тогдашних современных проблем (например, буквенные и цифровые коды, приспособленные для машинной сортировки), Fieldata не достигла своих целей и просуществовала недолго. В 1963 году первый код ASCII (американский стандартный код для обмена информацией) был выпущен (X3.4-1963) комитетом ASCII (в который входил по крайней мере один член комитета Fieldata, WF Leubbert), который устранил большинство недостатков Fieldata. , используя более простой код. Многие из изменений были незначительными, например наборы символов для сопоставления в пределах определенных числовых диапазонов. ASCII63 имел успех, широко был принят в промышленности, а с последующим выпуском кода ASCII 1967 года (в котором были добавлены строчные буквы и исправлены некоторые проблемы с «управляющим кодом») ASCII67 был принят довольно широко. ASCII67'Стандарт ECMA-6 . [3]


Перфолента со словом «Википедия» в кодировке ASCII . Наличие и отсутствие отверстия соответствует 1 и 0 соответственно; например, «W» кодируется как «1010111».
Перфокарта Hollerith из 80 столбцов с набором символов EBCDIC
KB Dubeolsik для старого хангыля (NG3).svg