Многобайтовый набор символов Lotus


Из Википедии, свободной энциклопедии
  (Перенаправлено с LMBCS (набор символов) )
Перейти к навигации Перейти к поиску

Lotus Multi-Byte Character Set ( LMBCS ) — это запатентованная многобайтовая кодировка символов, первоначально задуманная в 1988 году в Lotus Development Corporation при участии Боба Балабана и других. [1] Созданный примерно в то же время и решающий некоторые из тех же проблем, LMBCS можно рассматривать как параллельную разработку и возможную альтернативу Unicode . [1] Для максимальной совместимости более поздние выпуски LMBCS включают UTF-16 в качестве подмножества. [2] [3]

Коммерчески LMBCS впервые был представлен как набор символов по умолчанию для Lotus 1-2-3 Release 3 для DOS в марте 1989 г. [1] [4] и Lotus 1-2-3/G Release 1 для OS/2 [1] в 1990 заменяет 8-битный международный набор символов Lotus (LICS) и ASCII , использовавшиеся в более ранних версиях Lotus 1-2-3 и Symphony только для DOS . [5] LMBCS также используется в IBM / Lotus SmartSuite , Notes и Domino , [1] а также в ряде сторонних продуктов.

LMBCS кодирует символы, необходимые для языков, использующих латиницу , [6] арабский , иврит , греческий и кириллицу [6] , тайскую , китайскую , японскую [6] и корейскую системы письма, а также технические символы.

Кодировки

Технически LMBCS представляет собой кодировку ведущего байта , в которой кодовая точка 00 hex , а также кодовые точки от 20 hex (32) до 7F hex (127) идентичны ASCII [1] (а также LICS). [5]

Шестнадцатеричная точка кода 00 всегда обрабатывается как символ NUL , чтобы обеспечить максимальную совместимость кода с существующими программными библиотеками, работающими со строками, заканчивающимися нулем [1] , во многих языках программирования, таких как C . [a] Это относится даже к кодам UTF-16be, где кодовые слова с формой xx00 hex сопоставляются с кодами частного использования с формой F6xx hex во время кодирования, чтобы избежать использования байтов NUL, [7] и чтобы экранированные управляющие символы, где 20 шестнадцатеричных символов добавляются к управляющим символам C0 (но не C1), следующим за начальным шестнадцатеричным байтом 0F. [7]

Кодовые точки от 01 hex до 1F hex , которые служат управляющими кодами в ASCII, используются в качестве ведущих байтов для переключения определения кодовых точек выше 7F hex между несколькими кодовыми группами (аналогично кодовым страницам ) и в то же время определяют либо одну - или многобайтовый характер для соответствующей кодовой группы. [1]

Например, кодовая группа 1 (с групповым байтом 01 hex ) [1] почти идентична кодовой странице 850 SBCS , тогда как кодовая группа 16 (с групповым байтом 10 hex ) [1] аналогична японской кодовой странице MBCS 932 . Таким образом, многобайтовые символы могут занимать два или три байта. [7] [6]

В канонической LMBCS каждый символ начинается со своего группового байта. [1] Чтобы уменьшить длину, в оптимизированной или сжатой LMBCS группа кодов по умолчанию или код группы оптимизации могут быть определены для каждого приложения или процесса (в идеале выбираются в соответствии с наибольшей вероятностью возникновения) [1] и должны быть сообщены интерпретирующий код каким-либо образом (например, указав соответствующее имя "LMBCS- n "). [8] Таким образом, групповой байт для этих символов может быть опущен. [1] Lotus 1-2-3 извлекает код группы оптимизации из заголовка файла соответствующего исходного файла,[7] тогда как для Lotus Notes код группы оптимизации всегда равен 01 hex . [2] [7]

Набор символов

Без префиксного байта кодовые точки от 32 (20 шестнадцатеричный ) до 127 (7F шестнадцатеричный ) интерпретируются следующим образом (соответствует кодам LMBCS от 32 до 127):

Группа 1

Кодовые точки LMBCS группы 1 от 128 (80 шестнадцатеричный ) до 255 (FF шестнадцатеричный ) идентичны соответствующим кодовым точкам в кодовой странице 850 (DOS Latin-1), тогда как кодовые точки от 1 (01 шестнадцатеричный ) до 127 (7F шестнадцатеричный ) определены согласно следующему списку исключений (соответствует кодам LMBCS с 256 по 383):

 U+сопоставлен с символом частного использования  Unicode

Группа 2

Кодовые точки LMBCS группы 2 от 128 (80 шестнадцатеричный ) до 255 (FF шестнадцатеричный ) идентичны соответствующим кодовым точкам в кодовой странице 851 (греческий язык DOS), тогда как кодовые точки от 1 (01 шестнадцатеричный ) до 127 (7F шестнадцатеричный ) определяются в соответствии с следующий список исключений: [f]

 Сопоставлен с символом частного использования  Unicode

Группа 6

Кодовые точки LMBCS группы 6 от 128 (80 шестнадцатеричный ) до 255 (FF шестнадцатеричный ) идентичны соответствующим кодовым точкам в кодовой странице 852 (DOS Latin-2), тогда как кодовые точки от 1 (01 шестнадцатеричный ) до 127 (7F шестнадцатеричный ) определены согласно следующему списку исключений: [f]

Смотрите также

  • Составить ключевую последовательность
  • ГБ 18030
  • Стандартная схема сжатия для Unicode (SCSU)
  • Символ (шрифт)
  • Стандартный код символов Xerox (XCCS)

Примечания

  1. ^ Lotus 1-2-3 Release 3.0 для DOS иболее новые версии написаны на C.
  2. ^ - (U+2010), - (U+2011), ‒ (U+2012), - (U+2013)
  3. ^ a b c d e f g h i j k l m n o p q r s t u v w x y Согласно документации, этот код не поддерживается Lotus 1-2-3 Release 3.1+ для DOS и OS /2 и ранее.
  4. ^ a b c d e f g h i Для совместимости с Lotus 1-2-3 версии 5.0 .
  5. ^ Unicode не определяет глиф для символа валюты короны (крона, также известная как «Kr»), поэтому он указывает на шестнадцатеричный код F8FB в области частного использования Unicode(PUA).
  6. ^ a b Согласно документации кодовые точки с 1 по 127 в этой группе не поддерживаются Lotus 1-2-3 версии 3.1+ для DOS и OS/2 и более ранних версий. Эти версии поддерживали только кодовые точки LMBCS от 0 до 511, охватывая только группы 0 и 1.

использованная литература

  1. ^ a b c d e f g h i j k l m Балабан, Боб (2001). «Многоязычные наборы символов - что это такое и как их использовать» (PDF) . Looseleaf Software, Inc. Архивировано (PDF) из оригинала 25 ноября 2016 г .. Проверено 25 ноября 2016 г. .
  2. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah «Приложение A. Схемы кодирования» . Архитектура представления символьных данных IBM . IBM (CDRA). Многобайтовый набор символов Lotus (LMBCS). Архивировано из оригинала 26 ноября 2016 г. . Проверено 26 ноября 2016 г. .В целях оптимизации групповой байт опущен в примечаниях для однобайтовых значений между X'20' и X'FF'. Например, LMBCS всегда оптимизирован для группы 0x01, что означает, что любой символ, первый байт которого больше 0x1F, имеет неявный групповой байт 0x01.
  3. ^ б Шерер, Маркус ; Мюррей, Брендан (2 июня 2000 г.). «Re: MS Excel, Lotus 123 и Unicode» . Архивировано из оригинала 06.12.2016 . Проверено 6 декабря 2016 г. .
  4. ^ "Kapitel 4. Compatibilität mit anderen 1-2-3 Versionen - Zeichensätze" [Глава 4. Совместимость с другими версиями 1-2-3 - Наборы символов]. Справочник по обновлению Lotus 1-2-3 версии 3.1 [ Справочник по обновлению ] (на немецком языке) (1-е изд.). Кембридж, Массачусетс, США: Lotus Development Corporation . 1989. С. 4-10–4-11. 302173.
  5. ^ б Каменц, Альфред ; Фонхёген, Гельмут (1992). Das große Buch zu Lotus 1-2-3 для DOS (на немецком языке) (1-е изд.). Дата Беккер . стр. 131–132, 357–358. ISBN 3-89011-375-3.
  6. ^ a b c d Lotus - Inside Notes - Архитектура Notes и сервер Domino (PDF) . Корпорация Лотус Девелопмент . 2000. Архивировано (PDF) из оригинала 12 декабря 2016 г .. Проверено 12 декабря 2016 г. . […] Notes использует единый набор символов, многобайтовый набор символов Lotus (LMBCS), для кодирования всех текстовых данных, используемых внутри его программ. Всякий раз, когда Notes впервые вводит текст, закодированный в наборе символов, отличном от LMBCS, он переводит текст в строку LMBCS, а всякий раз, когда необходимо вывести текст в наборе символов, отличном от LMBCS, он переводит внутреннюю строку LMBCS в соответствующий набор символов. Поскольку весь текст форматируется внутри LMBCS, все операции по обработке текста […] выполняются только одним способом. LMBCS использует до трех байтов в памяти для представления одного текстового символа […]
  7. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai ajak al am an ao ap aq ar as Мюррей, Брендан ; Снайдер-Грант, Джим, ред. (2016) [2000-02-09]. "ucnv_lmb.c" . Международные компоненты для Unicode .Международные бизнес-машины (IBM).
  8. ^ Батутис, Эдвард Дж. (03 ноября 2001 г.). "Re: типы преобразователей" . Международные компоненты для Unicode (ICU) . Архивировано из оригинала 06.12.2016 . Проверено 6 декабря 2016 г. .
  9. ^ a b c d e f g h i j «LMBCS» (на японском языке). 03 февраля 2009 г. Архивировано из оригинала 26 ноября 2016 г. . Проверено 26 ноября 2016 г. .[1]
  10. ^ a b "Anhang 2. Der Lotus Multibyte Zeichensatz (LMBCS)" [Приложение 2. Многобайтовый набор символов Lotus (LMBCS)]. Lotus 1-2-3 Version 3.1 Referenzhandbuch [ Справочное руководство Lotus 1-2-3 Version 3.1 ] (на немецком языке) (1-е изд.). Кембридж, Массачусетс, США: Lotus Development Corporation . 1989. стр. A2-1–A2-13. 302168.
  11. ^ a b c "lmb-excp.ucm" . Гитхаб . 2000-02-10.

дальнейшее чтение

  • Родился, Гюнтер (декабрь 2000 г.) [1990]. "Капитель 2. LOTUS 1-2-3-Format (WK3)" [Глава 2. Формат Lotus 1-2-3 WK3]. Dateiformate - Eine Referenz - Расчет таблиц, текст, графика, мультимедиа, звук и Интернет [ Форматы файлов - ссылка - электронные таблицы, текст, графика, мультимедиа, звук и Интернет ] (PDF) (на немецком языке). Бонн, Германия: Galileo Computing . ISBN 3-934358-83-7. Архивировано (PDF) из оригинала 29 ноября 2016 г .. Проверено 28 ноября 2016 г. . (Включает некоторую информацию о диапазонах систем LMBCS и Lotus.)
  • "Таблицы LMBCS" . Руководство пользователя – 123 Выпуск 4 для Windows (факс). Лотус Девелопмент . 1995 [1 января 1994]. ГЛАВА: Приложение A Использование многобайтового набора символов Lotus. Факс 10955 . Проверено 6 декабря 2016 г. .
  • "Ввод символов LMBCS" . Руководство пользователя – 123 Выпуск 4 для Windows (факс). Лотус Девелопмент . 1995 [1 января 1994]. ГЛАВА: Приложение A Использование многобайтового набора символов Lotus. Факс 10954 . Проверено 6 декабря 2016 г. .
  • Поддержка лотоса. «Примечания службы поддержки: международные наборы символов SMTP MTA» . IBM DeveloperWorks . ИБМ . Архивировано из оригинала 08.12.2016 . Проверено 8 декабря 2016 г. .
  • Файлы перевода символов (.CTF) от Notes 2.x и файлы Country Language Service (.CLS) от Notes 3.0 и выше содержат информацию о переводе LMBCS в другие кодовые страницы [2] [3]

внешняя ссылка

  • Бернтроп-Бос, Ларс (10 июля 2014 г.). «Взрыв из прошлого: таблицы LMBCS для Windows, OS/2, Unix и Macintosh» . Архивировано из оригинала 26 ноября 2016 г. . Проверено 26 ноября 2016 г. .
Получено с https://en.wikipedia.org/w/index.php?title=Lotus_Multi-Byte_Character_Set&oldid=1063563115 "