Персонаж (вычисление)


В терминологии компьютерных и машинных телекоммуникаций символ — это единица информации , которая примерно соответствует графеме , графемоподобной единице или символу , например, в алфавите или слоговом письме в письменной форме естественного языка . [1]

Примеры символов включают буквы , цифры , распространенные знаки препинания (такие как «.» или «-») и пробелы . Концепция также включает в себя управляющие символы , которые соответствуют не видимым символам, а инструкциям по форматированию или обработке текста. Примеры управляющих символов включают возврат каретки или табуляцию , а также инструкции для принтеров или других устройств, которые отображают или иным образом обрабатывают текст.

Исторически термин « символ » также использовался для обозначения определенного количества последовательных битов . В то время как сегодня чаще всего предполагается, что символ относится к 8 битам (один байт ), другие определения, такие как 6-битный код символа , когда- то были популярны (с использованием только верхнего регистра , в то время как достаточно битов также для представления нижнего регистра , а не с цифрами и пунктуацией). разрешено для), [2] [3] и даже 5-битный код Бодо также использовался в прошлом, и хотя этот термин также применялся к 4 битам [4] только с 16 возможными значениями, он не был предназначен и не может представлять полный английский алфавит. Смотрите такжеСимволы универсального набора символов , где 8 бит недостаточно для представления, в то время как все они могут быть представлены одной или несколькими 8-битными кодовыми единицами с UTF-8 .

Компьютеры и коммуникационное оборудование представляют символы, используя кодировку символов , которая присваивает каждому символу что-то — обычно целое число , представленное последовательностью цифр , — которое может храниться или передаваться по сети . Двумя примерами обычных кодировок являются ASCII и кодировка UTF-8 для Unicode . В то время как большинство кодировок символов отображают символы в числа и / или последовательности битов, код Морзе вместо этого представляет символы с помощью серии электрических импульсов различной длины.

Исторически термин символ широко использовался профессионалами отрасли для обозначения закодированного символа , часто определяемого языком программирования или API . Точно так же набор символов широко использовался для обозначения определенного набора символов, которые были сопоставлены с определенными битовыми последовательностями или числовыми кодами. Термин « глиф » используется для описания определенного внешнего вида персонажа. Многие компьютерные шрифты состоят из глифов, которые индексируются числовым кодом соответствующего символа.

С появлением и широким распространением Unicode [5] и наборов символов , не зависящих от битов , [ требуется уточнение ] символ все чаще рассматривается как единица информации , независимая от какого-либо конкретного визуального проявления. Международный стандарт ISO/IEC 10646 (Unicode) определяет символ или абстрактный символ .как «член набора элементов, используемых для организации, управления или представления данных». Определение Unicode дополняет это пояснительными примечаниями, которые, среди прочего, побуждают читателя различать символы, графемы и глифы. Такая дифференциация является примером более широкой темы разделения презентации и содержания .