Кодовая точка

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: «Code point» - новости · газеты · книги · ученый · JSTOR ( март 2009 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

В терминологии кодирования символов кодовая точка или позиция кода - это любое числовое значение, составляющее кодовое пространство . ^[1]^[2] Многие кодовые точки представляют собой отдельные символы, но они также могут иметь другое значение, например, для форматирования. ^[3]

Например, символ Схемы кодировки ASCII содержит 128 кодовых точек в диапазоне от 0 _гекса до 7F _гекса , расширенный ASCII - содержит 256 кодовых точки в диапазоне от 0 _гекса до FF _гекса , и Unicode , содержит 1,114,112 кодовых точки в диапазоне от 0 _гекса до 10FFFF _гекса . Кодовое пространство Unicode разделено на семнадцать плоскостей (основная многоязычная плоскость и 16 дополнительных плоскостей), каждая из которых содержит 65 536 (= ²¹⁶ ) кодовых точек. Таким образом, общий размер кодового пространства Unicode составляет 17 × 65 536 = 1114 112.

Определение [ править ]

Понятие кодовой точки используется для абстракции, чтобы различать:

число из кодировки как последовательность битов , и
абстрактный символ из определенного графического представления ( глиф ).

Это связано с тем, что кто-то может захотеть провести эти различия, чтобы:

кодировать определенное пространство кода разными способами, или
отображать символ с помощью разных глифов.

Для Unicode конкретная последовательность битов называется кодовой единицей - для кодировки UCS-4 любая кодовая точка кодируется как 4- байтовые ( октетные ) двоичные числа , тогда как в кодировке UTF-8 разные кодовые точки кодируются как последовательности длиной от одного до четырех байтов, образующие самосинхронизирующийся код . Подробнее см. Сравнение кодировок Unicode . Кодовые точки обычно назначаются абстрактным символам . абстрактныйсимвол - это не графический глиф, а единица текстовых данных. Однако кодовые точки также могут быть оставлены зарезервированными для будущего назначения (большая часть кодового пространства Unicode не назначена) или для других назначенных функций.

Различие между кодовой точкой и соответствующим абстрактным символом не выражено в Unicode, но очевидно для многих других схем кодирования, где для одного кодового пространства могут существовать многочисленные кодовые страницы .

История [ править ]

Концепция кодовой точки является частью решения Unicode сложной головоломки, с которой столкнулись разработчики кодирования символов в 1980-х годах. ^[4] Если бы они добавили больше битов на символ для размещения более крупных наборов символов, это проектное решение также стало бы неприемлемой тратой скудных на тот момент вычислительных ресурсов для пользователей латинского алфавита (которые составляли подавляющее большинство пользователей компьютеров в то время), поскольку эти дополнительные биты всегда будут обнулены для таких пользователей. ^[5] Кодовая точка позволяет избежать этой проблемы, ломая старую идею прямого однозначного соответствия между символами и конкретными последовательностями битов.

См. Также [ править ]

Ссылки [ править ]

^ Глоссарий терминов Unicode
^ «Стандартная версия Unicode® 11.0 - основная спецификация» (PDF) . Консорциум Unicode . 30 июня 2018. с. 22. Архивировано из оригинала (PDF) 19 сентября 2018 года . Проверено 25 декабря 2018 года .На компьютере абстрактные символы кодируются внутри как числа. Чтобы создать полную кодировку символов, необходимо определить список всех символов, которые должны быть закодированы, и установить систематические правила того, как числа представляют символы. Диапазон целых чисел, используемых для кодирования абстрактных символов, называется кодовым пространством. Конкретное целое число в этом наборе называется кодовой точкой. Когда абстрактный символ отображается или назначается определенной кодовой точке в кодовом пространстве, тогда он упоминается как закодированный символ.
^ «Стандартная версия Unicode® 11.0 - основная спецификация» (PDF) . Консорциум Unicode . 30 июня 2018. с. 23. Архивировано из оригинала (PDF) 19 сентября 2018 года . Проверено 25 декабря 2018 года . Формат: невидимый, но влияет на соседние символы; включает разделители строк / абзацев
↑ Констебль, Питер (13 июня 2001 г.). «Понимание Unicode ™ - I» . NRSI: Компьютеры и письменные системы . Архивировано из оригинала (html) 16 сентября 2010 года . Проверено 25 декабря 2018 года . К началу 1980-х годов индустрия программного обеспечения начала осознавать необходимость решения проблем, связанных с использованием нескольких стандартов кодирования символов. Некоторые особенно новаторские работы были начаты в Xerox. Рабочая станция Xerox Star использовала многобайтовую кодировку, которая позволяла ей поддерживать один набор символов, потенциально содержащий миллионы символов.
↑ Марк Дэвис, Кен Уистлер (23 марта 2001 г.). "Технический стандарт Unicode № 10 АЛГОРИТМ СБОРКИ UNICODE" . Консорциум Unicode . Архивировано из оригинала (html) 25 августа 2001 года . Проверено 25 декабря 2018 года . 6.2 Большие значения веса CS1 maint: использует параметр авторов ( ссылка )

Внешние ссылки [ править ]

Codepoints.net, сайт, посвященный символам, буквам и Unicode.

[1] Глоссарий терминов Unicode

[2] «Стандартная версия Unicode® 11.0 - основная спецификация» (PDF) . Консорциум Unicode . 30 июня 2018. с. 22. Архивировано из оригинала (PDF) 19 сентября 2018 года . Проверено 25 декабря 2018 года .На компьютере абстрактные символы кодируются внутри как числа. Чтобы создать полную кодировку символов, необходимо определить список всех символов, которые должны быть закодированы, и установить систематические правила того, как числа представляют символы. Диапазон целых чисел, используемых для кодирования абстрактных символов, называется кодовым пространством. Конкретное целое число в этом наборе называется кодовой точкой. Когда абстрактный символ отображается или назначается определенной кодовой точке в кодовом пространстве, тогда он упоминается как закодированный символ.

[3] «Стандартная версия Unicode® 11.0 - основная спецификация» (PDF) . Консорциум Unicode . 30 июня 2018. с. 23. Архивировано из оригинала (PDF) 19 сентября 2018 года . Проверено 25 декабря 2018 года . Формат: невидимый, но влияет на соседние символы; включает разделители строк / абзацев

[4] Констебль, Питер (13 июня 2001 г.). «Понимание Unicode ™ - I» . NRSI: Компьютеры и письменные системы . Архивировано из оригинала (html) 16 сентября 2010 года . Проверено 25 декабря 2018 года . К началу 1980-х годов индустрия программного обеспечения начала осознавать необходимость решения проблем, связанных с использованием нескольких стандартов кодирования символов. Некоторые особенно новаторские работы были начаты в Xerox. Рабочая станция Xerox Star использовала многобайтовую кодировку, которая позволяла ей поддерживать один набор символов, потенциально содержащий миллионы символов.

[5] Марк Дэвис, Кен Уистлер (23 марта 2001 г.). "Технический стандарт Unicode № 10 АЛГОРИТМ СБОРКИ UNICODE" . Консорциум Unicode . Архивировано из оригинала (html) 25 августа 2001 года . Проверено 25 декабря 2018 года . 6.2 Большие значения веса CS1 maint: использует параметр авторов ( ссылка )

[1]