Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Вьетнамский язык написан с латинским алфавитом с диакритическими знаками , который делает требует несколько помещений при вычислении. Программные системы являются наиболее популярной формой написания вьетнамского языка на компьютере, например, метод ввода телекс с UniKey , редактором метода ввода ( IME ). Телекс - это самый старый метод ввода, разработанный для кодирования вьетнамского языка, который часто устанавливается по умолчанию на электронных устройствах. Другие методы ввода также могут включать VNI и VIQR . Метод ввода VNI не следует путать с кодовой страницей VNI.

Исторически вьетнамский язык также был написан логографическим шрифтом chữ Nôm , который в наши дни используется в церемониальных и традиционных целях и остается в поле зрения историков и филологов.

Шрифты и кодировки символов [ править ]

Вьетнамский алфавит [ править ]

Обычно на одной гласной на вьетнамском языке ставятся два диакритических знака. Некоторые шрифты складывают эти диакритические знаки, а другие смещают отметку тона.

Для представления вьетнамского алфавита существует 46 кодировок символов . [1] Юникод стал самой популярной формой для многих мировых систем письма из-за его отличной совместимости и поддержки программного обеспечения. Диакритические знаки могут быть закодированы либо как комбинированные символы, либо как предварительно составленные символы , которые разбросаны по блокам Latin Extended-A , Latin Extended-B и Latin Extended Additional . Вьетнамский đồng символ кодируется в символы валют блокировать. Исторически во вьетнамском языке использовались и другие символы помимо современного алфавита. Средний вьетнамская буква B с процветать (ꞗ) входит в Латинской Продлен D блока. Апекс не входит в Unicode, но U + 1DC4 ◌᷄ ОБЪЕДИНЕНИЕ MACRON-ОСТРАЯ может служить как грубое приближение.

Ранние версии Unicode назначали символы U + 0340 ◌̀ COMBINING GRAVE TONE MARK и U + 0341 ◌́ COMBINING ACUTE TONE MARK с целью размещения этих знаков рядом с циркумфлексом, как это принято во вьетнамской типографике. Эти два символа устарели; U + 0301 ◌́ COMBINING ACUTE ACCENT и U + 0300 ◌̀ COMBINING GRAVE ACCENT теперь используются независимо от любого существующего циркумфлекса. [2]

Для систем, в которых отсутствует поддержка Unicode, были разработаны десятки 8-битных вьетнамских кодовых страниц . [1] Наиболее часто используемые из них были VISCII , VSCII (TCVN 5712: 1993), VNI , VPS и Windows , 1258 . [3] [4] Если ASCII требуется, например, при обеспечении читаемость в виде простого текста по электронной почте, вьетнамские письма часто кодируются в соответствии с вьетнамским котировочной считываемые (VIQR) или VSCII Мнемоник (VSCII-MNEM), [5] , хотя использование любой схемы переменной ширины резко сократилось после принятия Unicode наВсемирная паутина . Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была исключена из программного обеспечения Mozilla в 2014 году [6].

Многие вьетнамские шрифты, предназначенные для настольных издательских систем, имеют кодировку VNI или TCVN3 ( VSCII ). [4] Такие шрифты известны как «шрифты ABC». [7] Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как неразборчивый моджибаке в системах, на которых они не установлены.

Справа - í , сохраняющая свой титул .

В вьетнамском языке диакритические знаки часто складываются, поэтому дизайнеры шрифтов должны позаботиться о том, чтобы диакритические знаки не совпадали с соседними буквами или строками. Когда тональный знак используется вместе с другим диакритическим знаком, смещение тонального знака вправо сохраняет последовательность и позволяет избежать замедления саккад . [8] В рекламных вывесках и в курсивном почерке диакритические знаки часто принимают формы, незнакомые другим латинским алфавитам. Например, строчная буква I сохраняет свой титул в ì , , ĩ и í . [9] Эти нюансы редко учитываются в вычислительной среде.

Подходы [ править ]

Для вьетнамского письма требуется 134 дополнительных буквы (в обоих случаях) помимо 52, уже присутствующих в ASCII. [10] Это превышает 128 дополнительных символов, доступных в обычном расширенном кодировании ASCII . Хотя это можно решить, используя кодировку переменной ширины (как это сделано в UTF-8 ), другие кодировки использовали ряд подходов для поддержки вьетнамского языка без этого:

  • Замените не менее шести символов ASCII, выбранных либо из-за того, что они не используются во вьетнамском языке, и / или из-за того, что они не являются инвариантными в ISO 646 или DEC NRCS [10] (как в VNI для DOS ).
  • Отбросьте прописные буквы, которые используются реже всего, [10] или все прописные буквы с тональными метками (как в VSCII-3 (TCVN3)). Эти буквы все еще могут быть введены с помощью шрифтов, полностью прописных. [11]
  • Бросьте формы буквы Y с тональными знаками, что требует использования буквы I в этих обстоятельствах . Этот подход был отвергнут разработчиками VISCII на том основании, что кодировка символов не должна пытаться решить проблему реформы орфографии. [10]
  • Заменить по крайней мере , шесть управляющих символов С0 [10] (как в VISCII , VSCII-1 (TCVN1) и VPS ).
  • Используйте комбинированные символы, позволяя полностью представить одну гласную с ударением с помощью последовательности символов (как в VNI , VSCII-2 (TCVN2), Windows-1258 и ANSEL ).

Чо Ном [ править ]

Символ nôm для phở . [12]

Unicode включает в себя более 10 000 символов номинала как часть репертуара Unicode унифицированных иероглифов CJK . Из этих символов 10082 можно найти в блоке CJK Unified Ideographs Extension B , а остальные распределены между блоками CJK Unified Ideographs , CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C. Еще 1028 символов, в том числе более 400 символов, характерных для языка Тай , закодированы в блоке CJK Unified Ideographs Extension E. Символы взяты из вьетнамских стандартов TCVN 5773: 1993 и TCVN 6909: 2001.[ошибка для TCVN 6056: 1995?], а также из исследований Исследовательского института Хан-Ном и других групп. [13] Все символы в TCVN 5773: 1993 и около 95% символов в TCVN 6909: 2001 [ошибка для TCVN 6056: 1995?] Имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773: 1993 отображал большинство своих символов в область частного использования Unicode. [14] Unicode 13.0 добавил два диакритических символа в блок Ideographic Symbols и Punctuation , которые обычно использовались для обозначения заимствованных символов в chữ Nôm . [15] [16]

Два наиболее всеобъемлющий NOM шрифтов являются вьетнамцы NOM Сохранения фонд «s NOM Na Tong Light [17] и сообщество Развитой HAN NOM / HAN NOM B , [18] оба из которых поместить большое количество Нестандартизованных символов в Private Области использования .

База данных Unihan Консорциума Unicode включает в себя вьетнамские чтения некоторых символов, но не делает различий между китайско-вьетнамскими и nôm чтениями.

Как и другие системы письма CJKV , chữ Nôm традиционно пишется вертикально , сверху вниз и справа налево.

И ch Hán, и chữ Nôm также могут быть аннотированы с использованием символов рубина , что аналогично chữ quốc ng для вьетнамского языка. [19]

Ввод текста [ править ]

Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества буквенно-диакритических-диакритических комбинаций в алфавите. Вместо этого для вьетнамского ввода используются программные раскладки клавиатуры, виртуальные клавиатуры или методы ввода (также известные как IME).

Раскладки клавиатуры [ править ]

Microsoft Windows включает в себя вьетнамскую раскладку клавиатуры на основе TCVN 6064: 1995.
Раскладка клавиатуры для вьетнамской пишущей машинки на базе AZERTY

Вьетнамские раскладки клавиатуры полагаются на мертвые клавиши для составления букв с диакритическими знаками. Большинство операционных систем для настольных ПК имеют вьетнамскую раскладку клавиатуры, аналогичную вьетнамскому национальному стандарту TCVN 6064: 1995  [ vi ] . Раньше в пишущих машинках использовалась вьетнамская раскладка на основе AZERTY. [20]

Способы ввода [ править ]

xvnkb, IME, совместимый со структурой метода ввода X в системах Unix, поддерживает вывод в шести кодировках символов.

Три наиболее распространенных метода ввода во Вьетнаме - это Telex , VNI и VIQR . Телекс обозначает диакритические знаки, используя буквы, которые вряд ли появятся в конце слова, в то время как VNI перепрофилирует цифровые клавиши или функциональные клавиши, а VIQR перепрофилирует различные знаки препинания. Условные обозначения Telex и VIQR возникли в более раннюю эру телексных машин и пишущих машинок соответственно.

Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые на вьетнамском языке известны как bộ gõ , буквально «пекер». IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в виде сценария . К распространенным сторонним приложениям относятся GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey и xvnkb. В Unix-подобных операционных системах инфраструктуры IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок объявлений., вьетнамская Википедия и другие текстовые веб-сайты. Вьетнамский веб-браузер Cốc Cốc имеет встроенный метод ввода.

Методы ввода позволяют составлять слова в более гибком порядке, чем позволяет раскладка клавиатуры. Например, чтобы ввести слово « viết », используя раскладку клавиатуры TCVN 6064: 1995, необходимо ввести именно VI38Tв таком порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: VIEETSв телексе, VIET61в VNI или VIET^'в VIQR. Некоторые IME даже позволяют вводить диакритические знаки перед базовыми буквами. В зависимости от реализации IME также может быть возможно редактировать диакритические знаки существующего слова без повторного ввода слова.

Заимствуя функцию, обычную для китайских методов ввода , некоторые вьетнамские IME позволяют вообще пропускать диакритические знаки. Вместо этого, после ввода основных букв, пользователь выбирает слово с ударением из списка кандидатов. Чтобы предоставить этот список автозаполнения , IME может потребоваться связь с веб-службой . Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовывать текст из вьетнамского алфавита в ch Nôm , поскольку между буквенными словами и nôm- символами нет однозначного соответствия .

Другие соображения [ править ]

Типичный вьетнамский текст содержит большое количество составных слов. Сложные слова никогда не переноситься в современном использовании, поэтому проверки орфографии ограничиваются проверкой отдельных слогов , если статистическая модель языка не советовался.

Вьетнамский язык имеет жесткие правила правописания и несколько исключений, поэтому средства преобразования текста в речь могут избегать поиска в словаре, кроме случаев, когда встречаются иностранные заимствованные слова. Механизмы TTS должны учитывать тона , которые важны для значения любого вьетнамского слова.

См. Также [ править ]

  • Китайские методы ввода для компьютеров
  • Японский язык и компьютеры
  • Корейский язык и компьютеры

Ссылки [ править ]

  1. ^ a b Ngô Đình Học; Trn Tư Bình (21 июля 2014 г.). «Экспресс-руководство для WinVNKey» . WinVNKey . Проверено 5 октября 2014 года .
  2. ^ «Объединение диакритических знаков» . Таблицы кодов символов Unicode 7.0 . Консорциум Unicode . 16 июня 2014 . Проверено 5 октября 2014 года .
  3. ^ Нго, Хок Динь; Тран, Тубинь. «5. Зачем нужна вьетнамская кодировка (набор символов - кодировка)?» . Некоторые специальные функции WinVNKey .
  4. ^ a b "Chọn Font chữ, bảng mã để gõ tiếng Việt" . Bộ gõ tiếng Việt.Com (на вьетнамском языке). MangVN. 2009. Архивировано из оригинального 20 ноября 2010 года.
  5. ^ Лунде, Кен (2009). CJKV Обработка информации (2-е изд.). O'Reilly Media . С. 47–49. ISBN 978-0-596-51447-1 - через Google Книги.
  6. ^ Sivonen, Анри (2014-09-26). «Изменения кодировки символов в MC требуют действия cc» . mozilla.dev.apps.thunderbird .
  7. ^ Хоанг То; Нгуен Куан Сон; Nguyơn Sơn Tng; Фан Куанг Минь; Phạm Thúc Trương Lng; Нгуен Куанг Хип; Бши Ван Кен; Нгуен Оч Винь (20 июля 2014 г.). Sử ký Tinh Vân: 20 năm sẻ chia và sáng tạo [ История Тинхвана: 20 лет совместного использования и творчества ] (на вьетнамском языке). 1 . Тинхван Групп. п. 37 - через Google Книги.
  8. ^ Trương, Донни. «Проблемы дизайна» . Вьетнамская типография . Проверено 10 апреля 2018 года .
  9. ^ См., Например: «Viết Thư». Вьетнамские избранные материалы для чтения (на вьетнамском языке) (2-е изд.). Армейская языковая школа . 1956. С. 98–100.
  10. ^ a b c d e «2. Обзор действующих конвенций». Отчет по стандартизации кодировки символов вьетнамского языка - Спецификации кодирования символов VISCII и VIQR 1.1 (Технический отчет). Группа Вьет-Стд. 1992. стр. 10.
  11. ^ «Юникод и вьетнамские кодировки старых символов» . Вьетнамский Unicode: часто задаваемые вопросы . TCVN3 не является двухбайтовым, но из-за характера его кодировки заглавные буквы (гласные) отображаются в отдельный заглавный шрифт, который похож на обычный строчный шрифт.
  12. ^ Trần Văn Кием (2004). «фу» . Giúp đọc Nôm và Hán Việt (на вьетнамском языке) (4-е изд.). [1]
  13. Nguyễn Quang Hồng. "Giới thiệu Kho chữ Hán Nôm mã hoá" [Введение в репертуар закодированных персонажей Hán Nôm] (на вьетнамском языке). Вьетнамский фонд сохранения нома.
  14. ^ Лунд 2009 , стр. 152-153.
  15. ^ Коллинз, Ли; Нго Тхань Нян (6 ноября 2017 г.). «Предложение о кодировании двух вьетнамских знаков для альтернативного чтения» (PDF) .
  16. ^ «Предлагаемые новые персонажи: трубопровод» . Консорциум Unicode. 8 мая 2019 . Проверено 26 мая 2019 .
  17. ^ "Nôm Font" . Вьетнамский фонд сохранения нома . Проверено 5 октября 2014 года .
  18. ^ Đỗ Quốc Bảo; То Минь Там; Тьён Виньен Вьен Чиу (8 декабря 2005 г.). «Набор шрифтов UNICODE Han Nom» . Проверено 5 октября 2014 года .
  19. ^ Лунд 2009 , стр. 529.
  20. ^ Дункан, Джон Уильям (2005-12-22), вьетнамская Машинка , извлекаться 2020-07-11

Дальнейшее чтение [ править ]

  • Лунде, Кен (2009). CJKV Обработка информации . Севастополь, Калифорния: O'Reilly Media . ISBN 978-0-596-51447-1 - через Google Книги.

Внешние ссылки [ править ]

  • Вычислительная техника на вьетнамском языке: прогресс и проблемы  - презентация Международной группы пользователей Macintosh, 2005 г.
  • Vietnamese Conversions  - онлайн-инструмент для восстановления вьетнамского моджибаке