T.51 / ISO / IEC 6937: 2001 , Информационные технологии. Набор кодированных графических символов для текстовой коммуникации. Латинский алфавит , является многобайтовым расширением ASCII или, скорее, ISO / IEC 646 -IRV. [1] Он был разработан совместно с ITU-T (затем CCITT ) для телематических служб под названием T.51 и впервые стал стандартом ISO в 1983 году. Определенные байтовые коды используются в качестве стартовых байтов для букв с диакритическими знаками ( акцентами). ). Значение ведущего байта часто указывает, какой диакритический знак имеет буква, а следующий байт имеет значение ASCII для буквы, на которой установлен диакритический знак.
Наборы кодированных символов на основе латиницы для телематических служб | |
Статус | Действующий |
---|---|
Год начался | 1984 |
Последняя версия | (09/92) сентябрь 1992 г. |
Организация | ITU-T |
Комитет | VIII Исследовательская комиссия |
Связанные стандарты | T.61 , ETS 300 706 , ISO / IEC 10367 , ISO / IEC 2022 |
Домен | кодирование |
Лицензия | Свободно доступны |
Веб-сайт | https://www.itu.int/rec/T-REC-T.51 |
Архитекторами ISO / IEC 6937 были Хью МакГрегор Росс , Питер Фенвик, Бернард Марти и Лук Цекендорф .
ISO6937 / 2 определяет 327 символов современных европейских языков с использованием латинского алфавита . Нелатинские европейские символы, такие как кириллица и греческий язык , не включены в стандарт. Кроме того, некоторые диакритические знаки, используемые в латинском алфавите, такие как румынская запятая , не включены, вместо этого используется седилья, поскольку в то время не проводилось различия между седилем и запятой.
IANA зарегистрировала имена кодировок ISO_6937-2-25 и ISO_6937-2-add для двух (более старых) версий этого стандарта (плюс управляющие коды). Но на практике эта кодировка символов в Интернете не используется.
Однобайтовые символы
Первичный набор (первая половина) первоначально следовал ISO 646-IRV до версии ISO / IEC 646: 1991 , то есть в основном следовал ASCII, но с символом 0x24, по-прежнему обозначаемым как « знак международной валюты » (¤) вместо знака доллара. ($). Издание ITU T.51 1992 г. разрешает существующим службам CCITT интерпретировать 0x24 как знак международной валюты, но оговаривает, что новые телекоммуникационные приложения должны использовать его для знака доллара (т. Е. В соответствии с действующим стандартом ISO 646-IRV) и вместо этого представлять знак международной валюты с использованием дополнительного набора. [2]
Дополнительный набор (вторая половина) содержит набор графических символов с интервалом и без него, дополнительные символы и некоторые места, зарезервированные для будущей стандартизации.
Оба они представляют собой графические наборы символов ISO / IEC 2022 , при этом первичный набор представляет собой набор из 94 кодов, а вторичный набор - набор из 96 кодов. В контекстах, где методы расширения кода ISO 2022 не используются, первичный набор обозначается как набор G0 и вызывается через GL ( 0x 20..0x7F), тогда как дополнительный набор обозначается как набор G2 и вызывается через GR (0xA0 ..0xFF) в 8-битной среде или используя управляющий код 0x19 как одинарный сдвиг в 7-битной среде. [3] Эта кодировка кода Single Shift Two соответствует его положению в ISO-IR -106. [4]
Управляющая последовательность ISO / IEC 2022 для обозначения дополнительного набора ISO / IEC 6937 как набора G2 ESC . R
(шестнадцатеричный 1B 2E 52
). [2] [5] [6] Более старый дополнительный набор ISO 6937/2: 1983 зарегистрирован как 94-кодовый набор и обозначается G2 с помощью ESC * l
(шестнадцатеричный 1B 2A 6C
). [5] [7]
Двухбайтовые символы
Буквы с диакритическими знаками, которым не присвоены отдельные коды в основном или дополнительном наборе, кодируются с использованием двух байтов. За первым байтом, «диакритическим знаком без пробелов», следует буква из базового набора, например:
строчная e с острым ударением (é) = [Acute] + e
Стандарт ITU T.51 выделяет столбец 4 дополнительного набора (т. Е. 0x C0 – CF при использовании в 8-битном формате) диакритическим символам без интервала. [2] Однако ИСО / МЭК 6937 определяет полностью определенный репертуар символов, отображая список композиционных последовательностей на имена символов ИСО / МЭК 10646 . Изолированные нераспределенные байты не включены в этот набор, хотя включены варианты диакритических знаков, которые иначе не присутствуют в ASCII, при этом пробел ASCII является следящим байтом. [5] [8] Следовательно, только определенные комбинации ведущего байта и последующего байта соответствуют стандарту ISO / IEC.
Этот репертуар также включен в версию спецификации ITU как Приложение A, хотя в версии ITU он не упоминается в основном тексте. Он описывается как «унифицированный надмножество» репертуаров персонажей, написанных латиницей. [2] Он соответствует репертуару ISO / IEC 10367, когда используются наборы ASCII, Latin-1 (или Latin-5 ), Latin-2 и дополнительные наборы Latin . [5]
Эта система также отличается от системы комбинирования символов Unicode тем, что диакритический код предшествует букве (а не следует за ней), что делает его более похожим на ANSEL .
Небольшая аномалия заключается в том, что латинская строчная буква G с седилем кодируется так, как если бы она была с острым ударением, то есть с ведущим байтом 0xC2, поскольку из-за того, что ее нижний элемент мешает седилле, нижняя буква обычно находится с перевернутой запятой над : Ģ ģ .
Всего после 13 диакритических знаков могут следовать выбранные символы из основного набора:
Акцент | Код | Второй персонаж | Результат |
---|---|---|---|
Могила | 0xC1 | AEIOUaeiou | ÀÈÌÒÙàèìòù |
Острый | 0xC2 | ACEILNORSUYZacegilnorsuyz | ÁĆÉÍĹŃÓŔŚÚÝŹáćéģíĺńóśúýź |
Циркумфлекс | 0xC3 | ACEGHIJOSUW | Воскресенье |
Тильда | 0xC4 | AINOUainou | Ãĩñõũ |
Макрон | 0xC5 | AEIOUaeiou | Āēīōū |
Breve | 0xC6 | АГУагу | ĂĞŬă |
Точка | 0xC7 | CEGIZcegz | ĊĖĠİŻċėġż |
Умлаут или дирезис | 0xC8 | AEIOUYaeiouy | ÄËÏÖÜŸäëïöüÿ |
Звенеть | 0xCA | AUau | ÅŮåů |
Седиль | 0xCB | CGKLNRSTcklnrst | ÇĢĶĻŅŖŞŢçķļņŗşţ |
Двойной острый | 0xCD | OUou | ŐŰőű |
Огонек | 0xCE | AEIUaeiu | ĄĘĮŲąęįų |
Caron | 0xCF | CDELNRSTZcdelnrstz | ČĎĚĽŇŘŠŤŽčďěľňřšťž |
Макет кодовой страницы
Ссылка на объединение символов в диапазоне U + 0300 – U + 036F для кодов в диапазоне 0xC1–0xCF ниже подлежит оговоркам, упомянутым выше; они не могут быть просто сопоставлены с перечисленными кодовыми точками. Кроме того, Unicode разделяет 0xE2 на D со штрихом и прописными буквами Eth , которые обычно выглядят по-разному для строчных букв (0xF2 и 0xF3).
В более ранней редакции ITU T.51 1988 г. определены две версии дополнительного набора, при этом в первой версии отсутствуют неразрывный пробел , мягкий дефис , без знака ( ¬ ) и ломаная полоса ( ¦ ), присутствующие во второй версии. Первая версия была определена как расширение дополнительного набора T.61 , а вторая версия - как расширение первой версии. [9] Текущая (1992 г.) редакция включает только вторую версию, не поддерживает определенные символы и обновляет основной набор до текущего ISO-646-IRV ( ASCII ), хотя существующим телематическим службам разрешено сохранять прежнее поведение. [2]
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | ||||||||||||||||
1_ | ||||||||||||||||
2_ | SP 0020 | ! 0021 | « 0022 | # 0023 | $ / ¤ [a] 0024 / 00A4 | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | I 0049 | J 004A | K 004B | L 004C | M 004D | № 004E | O 004F |
5_ | P 0050 | Q 0051 | R 0052 | S 0053 | Т 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ | ` 0060 | а 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | г 0067 | h 0068 | я 0069 | j 006A | k 006B | l 006C | м 006D | № 006E | o 006F |
7_ | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | v 0076 | w 0077 | х 0078 | y 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | |
8_ | ||||||||||||||||
9_ | ||||||||||||||||
A_ | NBSP 00A0 | ¡ 00A1 | ¢ 00A2 | £ 00A3 | $ [b] 0024 | ¥ 00A5 | # [b] 0023 | § 00A7 | ¤ 00A4 | ' 2018 | « 201C | « 00AB | ← 2190 | ↑ 2191 | → 2192 | ↓ 2193 |
B_ | ° 00B0 | ± 00B1 | ² 00B2 | ³ 00B3 | × 00D7 | µ 00B5 | ¶ 00B6 | · 00B7 | ÷ 00F7 | ' 2019 | ” 201D | » 00BB | ¼ 00BC | ½ 00BD | ¾ 00BE | ¿ 00BF |
C_ | 0300 | 0301 | 0302 | 0303 | ̄ 0304 | ̆ 0306 | ̇ 0307 | ̈ 0308 | ̊ 030A | ̧ 0327 | [С] 0332 | ̋ 030B | ̨ 0328 | ̌ 030C | ||
D_ | - 2015 г. | ¹ 00B9 | ® 00AE | © 00A9 | ™ 2122 | ♪ 266A | ¬ 00AC | ¦ 00A6 | ⅛ 215B | ⅜ 215C | ⅝ 215D | ⅞ 215E | ||||
E_ | Ом 2126 | Æ 00C6 | Đ / Ð 0110 / 00D0 | ª 00AA | Ħ 0126 | IJ 0132 | Ŀ 013F | Ł 0141 | Ø 00D8 | Œ 0152 | º 00BA | Þ 00DE | Ŧ 0166 | Ŋ 014A | ʼn 0149 | |
F_ | ĸ 0138 | æ 00E6 | đ 0111 | ð 00F0 | ħ 0127 | № 0131 | ij 0133 | ŀ 0140 | ł 0142 | ø 00F8 | œ 0153 | ß 00DF | þ 00FE | ŧ 0167 | ŋ 014B | SHY 00AD |
Письмо Число Пунктуация Символ Другой Неопределенный Отличия от T.61
Версия Видеотекс
Версии дополнительного набора, используемые стандартом ITU T.101 для Videotex , основаны на первом дополнительном наборе T.51 издания 1988 года.
Множество G2 по умолчанию для данных Синтаксис 2 добавляет в 0xC0, для комбинации с кодами от с греческого основного набора. [10]
Дополнительный набор для Data Syntax 3 добавляет метки без интервала для надчеркивания и солидуса, а также несколько полуграфических символов . [11]
ETS 300 706 версия
Стандарт ETS 300 706 для World System Teletext основывает свой набор G2 на ISO 6937. [12] Это расширенный набор дополнительного набора T.61 и расширенный набор первого дополнительного набора издания T.51 1988 г., но в некоторых позициях противоречит текущей редакции T.51. Диакритические коды в версии ETS определены как «для объединения с» персонажами из множества G0 в использовании , [12] , такие как US-ASCII или BS_viewdata . Эта версия показана на диаграмме ниже.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ / A_ | SP 00A0 | ¡ 00A1 | ¢ 00A2 | £ 00A3 | 0024 долл. США | ¥ 00A5 | # 0023 | § 00A7 | ¤ 00A4 | ' 2018 | « 201C | « 00AB | ← 2190 | ↑ 2191 | → 2192 | ↓ 2193 |
3_ / B_ | ° 00B0 | ± 00B1 | ² 00B2 | ³ 00B3 | × 00D7 | µ 00B5 | ¶ 00B6 | · 00B7 | ÷ 00F7 | ' 2019 | ” 201D | » 00BB | ¼ 00BC | ½ 00BD | ¾ 00BE | ¿ 00BF |
4_ / C_ | 0300 | 0301 | 0302 | 0303 | ̄ 0304 | ̆ 0306 | ̇ 0307 | ̈ 0308 | ̣̣ 0323 | ̊ 030A | ̧ 0327 | 0332 | ̋ 030B | ̨ 0328 | ̌ 030C | |
5_ / D_ | - 2015 г. | ¹ 00B9 | ® 00AE | © 00A9 | ™ 2122 | ♪ 266A | ₠ 20A0 | ‰ 2030 г. | α 03B1 | ⅛ 215B | ⅜ 215C | ⅝ 215D | ⅞ 215E | |||
6_ / E_ | Ом 2126 | Æ 00C6 | Đ / Ð 0110 / 00D0 | ª 00AA | Ħ 0126 | IJ 0132 | Ŀ 013F | Ł 0141 | Ø 00D8 | Œ 0152 | º 00BA | Þ 00DE | Ŧ 0166 | Ŋ 014A | ʼn 0149 | |
7_ / F_ | ĸ 0138 | æ 00E6 | đ 0111 | ð 00F0 | ħ 0127 | № 0131 | ij 0133 | ŀ 0140 | ł 0142 | ø 00F8 | œ 0153 | ß 00DF | þ 00FE | ŧ 0167 | ŋ 014B | ■ 25A0 |
Письмо Число Пунктуация Символ Другой Неопределенный Отличия от T.51
Смотрите также
- ITU T.50
- ITU T.61 , тесно связанная кодировка символов для использования Teletex
Сноски
- ^ Дальнейшее использование ¤ разрешено только для существующих служб CCITT. [2]
- ^ a b Разрешено только для существующих служб CCITT, в противном случае следует использовать представление ASCII. [2]
- ^ Отмечено в версии стандарта ITU как имеющее существующее использование для подчеркнутого текста в сочетании с любыми другими символами, включая символы с диакритическими знаками. Хотя издание ITU 1988 г. включает этот код, [9] издание ITU 1992 г. не рекомендует отправлять этот код в пользу управляющих последовательностей ANSI , хотя и упоминает, что он должен правильно интерпретироваться при получении соответствующими системами. [2] Предыдущие редакции версии стандарта ISO / IEC также позволяли комбинировать этот код с любым символом в определенном репертуаре [7], тогда как более поздние редакции не включают этот код. [5]
Рекомендации
- ^ "T.51: Наборы кодированных символов на основе латиницы для телематических служб" . www.itu.int . Архивировано 8 октября 2019 года . Проверено 14 ноября 2019 .
- ^ Б с д е е г ч CCITT (18 сентября 1992 г.). Наборы кодированных символов на основе латиницы для телематических служб (изд. 1992 г.). Рекомендация T.51.
- ^ МСЭ-Т (1995-08-11). Рекомендация T.51 (1992) Поправка 1 .
- ^ МСЭ (1 августа 1985 г.). Основной набор функций управления Teletex (PDF) . ITSCJ / IPSJ . ISO-IR-106.
- ^ а б в г д ISO / IEC JTC 1 / SC 2 / WG 3 (1998-04-15). WD 6937, Набор кодированных графических символов для текстового общения - латинский алфавит (PDF) . JTC1 / SC2 / N454.
- ^ ISO / IEC JTC 1 / SC 2 / WG 3 (1991-12-15). Дополнительный набор ISO / IEC 6937: 1992 (PDF) . ITSCJ / IPSJ . ISO-IR-156.(Левая часть - US-ASCII .)
- ^ а б ISO / TC97 / SC2 / WG4 (1985-01-10). Дополнительный набор латинских буквенных и неалфавитных графических символов (PDF) . ITSCJ / IPSJ . ISO-IR-090.
- ^ Петерсен, Дж. К. (29 мая 2002 г.). Иллюстрированный словарь по телекоммуникациям . CRC Press. п. 888. ISBN 978-1-4200-4067-8.
- ^ а б CCITT (1988). Наборы кодированных символов для телематических служб (изд. 1988 г.). Рекомендация T.51.
- ^ CCITT (1988-11-01). Дополнительный набор графических символов для Videotex (PDF) . ITSCJ / IPSJ . ISO-IR-70 (ред.).
- ^ CCITT (1986-11-30). Дополнительный набор графических символов для Рекомендации CCITT T.101, Data Syntax III (PDF) . ITSCJ / IPSJ . ISO-IR-128.
- ^ а б в ETSI (1997). «15.6.3 Набор Latin G2». Расширенная спецификация телетекста (PDF) (PDF) . п. 116. ETS 300 706.
Внешние ссылки
- Рекомендация МСЭ T.51
- Страницы ISO: ISO 6937-1: 1983 , ISO 6937-2: 1983 , ISO 6937-2: 1983 / Add 1: 1989 , ISO / IEC 6937: 1994 , ISO / IEC 6937: 2001
- WD 6937, Набор кодированных графических символов для текстовой коммуникации - латинский алфавит (пересмотр ISO / IEC 6937: 1994) (проект ISO / IEC 6937: 1994)
- ISO-IR-156 ( ISO-IR регистрация правой части)