VISCII - это неофициально определенная модифицированная кодировка символов ASCII для использования вьетнамского языка на компьютерах . Его не следует путать с официально зарегистрированной кодировкой VSCII с аналогичным названием . VISCII сохраняет 95 печатаемых символов ASCII без изменений, но заменяет 6 из 33 управляющих символов на печатные символы. Он добавляет 128 предварительно составленных символов . Unicode и кодовая страница Windows-1258 теперь используются практически для всех вьетнамских компьютерных данных, [ необходима ссылка ], но устаревшие файлы VSCII и VISCII могут нуждаться в преобразовании.
MIME / IANA | VISCII |
---|---|
Язык (и) | Вьетнамский , английский |
Создано | Viet-Std Group |
Определения | RFC 1456 |
Классификация | 8-битный SBCS |
На основе | ASCII |
История и нейминг
VISCII был разработан Вьетнамской рабочей группой по стандартизации (Viet-Std Group) [1], базирующейся в Силиконовой долине , Калифорния, в 1992 году, когда они работали с консорциумом Unicode над включением предварительно составленных вьетнамских символов в стандарт Unicode. VISCII, наряду с VIQR , был впервые опубликован в двуязычном отчете в сентябре 1992 года, в котором он был назван «Вьетнамским стандартным кодом для обмена информацией». [2] В отчете отмечается рост использования компьютеров во Вьетнаме, что существующие приложения используют кодировки, зависящие от поставщика, которые не могут взаимодействовать друг с другом, и поэтому необходима стандартизация между поставщиками. [2]
В следующем году, в 1993 году, Вьетнам принял TCVN 5712 , свой первый национальный стандарт в области информационных технологий . [3] Это определило кодировку символов под названием VSCII , которая была разработана Техническим комитетом TCVN по информационным технологиям (TCVN / TC1), и ее название означает «Вьетнамский стандартный код для обмена информацией». [3] VSCII несовместима с ранее опубликованной VISCII и не связана с ней. [4] В отличие от VISCII, VSCII является «вьетнамским стандартом» в смысле национального стандарта .
VISCII и VIQR утверждены как информационно-статусные. RFC 1456 , отнесенный к группе Viet-Std и датированный маем 1993 года. В этом RFC отмечается, что они являются «соглашениями», используемыми иностранными вьетнамскими спикерами в Usenet , и что он «не определяет уровень стандарта». Несмотря на это, он продолжает называть VISCII «стандартным кодом Вьетнама для обмена информацией» (то же имя, что и VSCII). [5] Ярлыки VISCII
и csVISCII
зарегистрированы в IANA для VISCII со ссылкой на RFC 1456. [6] (С другой стороны, нет официального ярлыка IANA для TCVN 5712 / VSCII, хотя x-viet-tcvn5712
ранее он поддерживался Mozilla Firefox . [7] )
Дизайн
Традиционный расширенный набор символов ASCII состоит из набора ASCII плюс до 128 символов. Вьетнамский требует 134 дополнительных буквенно-диакритических сочетания, что на шесть больше. Существует (если не считать отказа от поддержки тональных знаков для заглавных букв, как в VSCII-3 ) по существу четыре различных способа решения этой проблемы:
- Используйте кодировку переменной ширины (как и UTF-8 )
- Включите комбинирование диакритических знаков для тоновых знаков (как VSCII-2 и Windows-1258 ) или для диакритических знаков в целом (как ANSEL и VNI )
- Замените некоторые знаки препинания ASCII, предпочтительно знаки препинания, которые не являются неизменными в ISO 646 (как VNI для DOS ).
- Замените как минимум шесть основных управляющих символов ASCII (как VPS и VSCII-1 )
VISCII выбрал последний вариант, заменив шесть из наименее проблематичных (например, с наименьшей вероятностью распознаваемых приложением и специально предназначенных) управляющих кодов C0 (STX, ENQ, ACK, DC4, EM и RS) шестью из наименее используемые комбинации прописных букв и диакритических знаков. [2] Хотя этот параметр может привести к сбою программ, использующих эти управляющие коды, при обработке текста VISCII, он создает меньше сложностей, чем два других варианта (разработчики отмечают, что не- 8-битная чистая передача создает больше трудностей при обработке текста VISCII. практика, чем повторное использование управляющего символа). [2] Тем не менее, расположение как управляющих символов C0 или C1, так и кодов, используемых для неразрывного пробела в ISO-8859-1 , Mac OS Roman и OEM-US, были намеренно присвоены прописным буквам с целью использования строчных кодов с заглавными буквами - исправный обходной путь, если графические символы не могут быть отображены для этих кодов. [2]
Однако использование всех расширенных кодовых точек для акцентированных букв не оставляло места для добавления полезных символов, надстрочных чисел, изогнутых кавычек, правильных тире и т. Д., Как и для большинства других расширенных наборов символов ASCII.
Расположение символов намеренно в основном соответствует стандарту ISO-8859-1, где есть общие символы между двумя кодовыми страницами (верхний регистр Õ отмечен как исключение), что мотивировано соображениями удобства для пользователя. [2]
Служба поддержки
VISCII частично поддерживается TriChlor Software Group в Калифорнии, которая выпустила различные программные пакеты, библиотеки и шрифты, совместимые с VISCII , для MS-DOS и Windows, Unix и Macintosh. Программное обеспечение, совместимое с VISCII, доступно на многих FTP-сайтах .
VISCII исторически предлагается в качестве кодировки для исходящей электронной почты с помощью Mozilla Thunderbird . [8]
VISCII в основном использовался иностранцами, говорящими на вьетнамском языке, при этом VSCII (TCVN) более популярен в северном Вьетнаме, а VNI более популярен в южном Вьетнаме. [9]
Набор символов
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 | NUL 0000 | SOH 0001 | Ẳ 1EB2 | ETX 0003 | EOT 0004 | Ẵ 1EB4 | Ẫ 1EAA | BEL 0007 | BS 0008 | HT 0009 | LF 000A | ВТ 000Б | FF 000C | CR 000D | SO 000E | SI 000F |
1_ 16 | DLE 0010 | DC1 0011 | DC2 0012 | DC3 0013 | Ỷ 1EF6 | NAK 0015 | SYN 0016 | ETB 0017 | CAN 0018 | Ỹ 1EF8 | SUB 001A | ESC 001B | FS 001C | GS 001D | Ỵ 1EF4 | США 001F |
2_ 32 | SP 0020 | ! 0021 | « 0022 | # 0023 | 0024 долл. США | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ 48 | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ 64 | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | I 0049 | J 004A | K 004B | L 004C | M 004D | № 004E | O 004F |
5_ 80 | P 0050 | Q 0051 | R 0052 | S 0053 | Т 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ 96 | ` 0060 | а 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | г 0067 | h 0068 | я 0069 | j 006A | k 006B | l 006C | м 006D | № 006E | o 006F |
7_ 112 | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | v 0076 | w 0077 | х 0078 | y 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | DEL 007F |
8_ 128 | Ạ 1EA0 | Ắ 1EAE | Ằ 1EB0 | Ặ 1EB6 | Ấ 1EA4 | Ầ 1EA6 | Ẩ 1EA8 | Ậ 1EAC | Ẽ 1EBC | Ẹ 1EB8 | Ế 1EBE | Ề 1EC0 | Ể 1EC2 | Ễ 1EC4 | Ệ 1EC6 | Ố 1ED0 |
9_ 144 | Ồ 1ED2 | Ổ 1ED4 | Ỗ 1ED6 | Ộ 1ED8 | Ợ 1EE2 | Ớ 1EDA | Ờ 1EDC | Ở 1EDE | Ị 1ECA | Ỏ 1ECE | ö 1ECC | Ỉ 1EC8 | Ủ 1EE6 | ˙U 0168 | Ụ 1EE4 | Ỳ 1EF2 |
A_ 160 | Õ 00D5 | ắ 1EAF | ằ 1EB1 | ặ 1EB7 | ấ 1EA5 | ầ 1EA7 | ẩ 1EA9 | ậ 1EAD | ẽ 1EBD | ẹ 1EB9 | é 1EBF | é 1EC1 | ể 1EC3 | ễ 1EC5 | ệ 1EC7 | ố 1ED1 |
B_ 176 | ồ 1ED3 | ổ 1ED5 | ỗ 1ED7 | Ỡ 1EE0 | Ơ 01A0 | ö 1ED9 | ờ 1EDD | ở 1EDF | я 1ECB | Ự 1EF0 | Ứ 1EE8 | Ừ 1EEA | Ử 1EEC | ơ 01A1 | ớ 1EDB | Ư 01AF |
C_ 192 | À 00C0 | Á 00C1 | Â 00C2 | Ã 00C3 | Ả 1EA2 | Ă 0102 | ẳ 1EB3 | ẵ 1EB5 | È 00C8 | É 00C9 | Ê 00CA | Ẻ 1EBA | Ì 00CC | Í 00CD | Ĩ 0128 | ỳ 1EF3 |
D_ 208 | Đ 0110 | ứ 1EE9 | Ò 00D2 | Ó 00D3 | Ô 00D4 | ạ 1EA1 | ỷ 1EF7 | ừ 1EEB | ử 1EED | Ù 00D9 | Ú 00DA | ỹ 1EF9 | ỵ 1EF5 | Ý 00DD | ỡ 1EE1 | ˙U 01B0 |
E_ 224 | à 00E0 | á 00E1 | â 00E2 | ã 00E3 | 1EA3 | ă 0103 | ữ 1EEF | ẫ 1EAB | è 00E8 | é 00E9 | ê 00EA | ẻ 1EBB | ì 00EC | í 00ED | ĩ 0129 | ỉ 1EC9 |
F_ 240 | đ 0111 | ự 1EF1 | ò 00F2 | ó 00F3 | ô 00F4 | х 00F5 | ỏ 1ECF | ọ 1ECD | ụ 1EE5 | ù 00F9 | ú 00FA | ũ 0169 | ủ 1EE7 | ý 00FD | ợ 1EE3 | Ữ 1EEE |
Письмо Число Пунктуация Символ Другой Неопределенный
Отличия от ISO-8859-1 показаны затененными.
Смотрите также
- ASCII
- Вьетнамский цитируемый-читаемый (VIQR)
- Вьетнамский стандартный код для обмена информацией (VSCII)
- Окна-1258
Рекомендации
- ^ Phung, Quang; Ngo, Hoc D .; Буй, Куонг. "Домашняя страница Рабочей группы по вьетнамскому стандарту" . Группа Вьет-Стд . Проверено 23 августа 2019 .
- ^ а б в г д е Отчет по стандартизации кодировки символов Вьетнама - Спецификации кодирования символов VISCII и VIQR 1.1 (Технический отчет). Группа Вьет-Стд. 1992 г.
- ^ а б «[новости] TCVN 5712: 1993 (VSCII) - вьетнамский национальный стандарт» . 1993-06-02. Архивировано из оригинала на 2017-01-11.
- ^ Лунде, Кен. «Глава 1: Обзор обработки информации CJKV (§ Идентичны ли VISCII и VSCII? А как насчет TCVN?)». CJKV Обработка информации (2-е изд.). п. 17. ISBN 978-0-596-51447-1.
- ^ Вьетнамская рабочая группа по стандартизации. «RFC 1456: Соглашения о кодировании вьетнамского языка» . IETF .
- ^ «Наборы символов» . IANA .
- ^ Сивонен, Анри (26 сентября 2014 г.). «Изменения кодировки символов в MC требуют действия cc» . mozilla.dev.apps.thunderbird .
- ^ Сивонен, Анри (26 сентября 2014 г.). «Изменения кодировки символов в MC требуют действия cc» . mozilla.dev.apps.thunderbird .
VISCII и armscii-8 являются особенными в том смысле, что в течение долгого времени сам Thunderbird (ошибочно) предоставлял эти кодировки в пользовательском интерфейсе для выбора исходящей кодировки символов при составлении сообщения. Следовательно, вполне возможно, что существует созданное Thunderbird наследие электронной почты VISCII и armscii-8 и сообщений Usenet.
- ^ Нго, Хок Динь; Тран, Тубинь. «5. Зачем нужна вьетнамская кодировка (набор символов - кодировка)?» . Некоторые специальные функции WinVNKey .
дальнейшее чтение
- Флор, Гвидо (2016) [2006]. "Locale :: RecodeData :: VISCII - Процедуры преобразования для VISCII" . CPAN libintl-perl . Архивировано 14 января 2017 года . Проверено 14 января 2017 .
- https://www.math.nmsu.edu/~mleisher/Software/csets/VISCII.TXT
Внешние ссылки
- RFC 1456 - Соглашения о кодировании вьетнамского языка
- Рабочая группа по вьетнамской стандартизации, базирующаяся в Калифорнии
- Отчет Viet-Std 1992
- Программное обеспечение AnGiang
- Совместимое с VISCII программное обеспечение и шрифты для MS-DOS и Windows
- VISCII-совместимое программное обеспечение, библиотеки и шрифты для Unix
- WinVNKey , вьетнамский драйвер клавиатуры для Windows, поддерживающий многонациональные наборы символов, включая VISCII
- MacVNKey , драйвер клавиатуры, совместимый с VISCII , для Macintosh classic