Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Индийский скриптовый код для обмена информацией ( ISCII ) - это схема кодирования для представления различных систем письма Индии . Он кодирует основные индийские шрифты и латинскую транслитерацию. Поддерживаемые скрипты: ассамский , бенгальский (Bangla) , деванагари , гуджарати , гурмукхи , каннада , малаялам , ория , тамильский и телугу . ISCII не кодирует системы письма Индии, основанные на персидском языке , но его коды переключения систем письма, тем не менее, предусматриваютКашмирский , синдхи , урду , персидский , пушту и арабский . Системы письма на персидском языке впоследствии были закодированы в кодировке PASCII .

ISCII не была широко используется за пределами определенных государственных учреждений, хотя вариант без ATR механизм был использован на классической Mac OS , [1] и в настоящее время оказывается в значительной степени устаревшим Unicode . Unicode использует отдельный блок для каждой индийской системы письма и в значительной степени сохраняет структуру ISCII в каждом блоке.

Фон [ править ]

Системы письма, производные от брахми, имеют аналогичную структуру. Таким образом, ISCII кодирует буквы с одним и тем же фонетическим значением в одной и той же кодовой точке, перекрывая различные сценарии. Например, коды ISCII 0xB3 0xDB представляют [ki]. Это будет отображаться как കി на малаялам , कि на деванагари, как ਕਿ на гурмукхи и как கி на тамильском. Система записи может быть выбрана в формате RTF с помощью разметки или в виде обычного текста с помощью кода ATR, описанного ниже.

Одним из мотивов использования единой кодировки является идея, что она позволит легко транслитерировать с одной системы письма на другую. Однако существует достаточно несовместимости, поэтому это не совсем практическая идея.

ISCII - это 8-битная кодировка. Нижние 128 кодовых точек представляют собой обычный код ASCII , верхние 128 кодовых точек являются специфичными для ISCII. В дополнение к кодовым точкам, представляющим символы, ISCII использует кодовую точку с мнемоническим ATR, которая указывает, что следующий байт содержит один из двух видов информации. Один набор значений изменяет систему записи до следующего индикатора системы записи или конца строки. Другой набор значений выбирает режимы отображения, например полужирный и курсив. ISCII не предоставляет средств указания системы письма по умолчанию.

Макет кодовой страницы [ править ]

В следующей таблице показан набор символов для Деванагари . Наборы кодов для ассамского, бенгали, гуджарати, гурмукхи, каннада, малаялам, ория, тамильского и телугу аналогичны, причем каждая форма деванагари заменена эквивалентной формой в каждой системе письма . Каждый символ отображается с его десятичным кодом и его эквивалентом в Юникоде .

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Специальные кодовые точки [ править ]

Символ INV - кодовая точка D9 (217)
Символ INV (невидимая согласная) используется как псевдосогласный для изолированного отображения комбинируемых элементов. Например, (ка) + ् (галант) + INV = क्‍ (половина ка). Эквивалент Unicode - U + 200D ZERO WIDTH JOINER ( ZWJ ). Однако, как указано ниже , Halant-символ ISCII может быть удвоен или объединен с ISCII nukta для достижения эффектов, созданных ZWNJ или ZWJ в Юникоде. По этой причине компании Apple отображает характер ISCII INV в Unicode слева направо знак , с тем чтобы гарантировать кругооборот . [1]
Символ ATR - кодовая точка EF (239)
Символ ATR (атрибут), за которым следует байтовый код, используется для переключения на другой атрибут шрифта (например, полужирный) или на другой язык ISCII или PASCII (например, бенгальский) до следующей последовательности ATR или конца линия. У него нет прямого эквивалента Unicode, поскольку атрибуты шрифта не являются частью Unicode, и каждый сценарий имеет отдельный набор кодовых точек.
Символ EXT - кодовая точка F0 (240)
Символ EXT (расширение ведического), за которым следует байтовый код, указывает на ведический акцент. У этого нет прямого эквивалента Unicode, поскольку ведические акценты назначаются отдельным кодовым точкам.
Символ Halant ् - кодовая точка E8 (232)
Галантный символ удаляет неявную гласную из согласной и используется между согласными для обозначения соединенных согласных. Например, क (ka) + ् (halant) + त (ta) = क्त (kta). Последовательность ् (галант) + ् (галант) отображает конъюнкт с явным галантом, например क (ка) + ् (галант) + ् (галант) + त (та) = क्‌त. Последовательность ् (галант) + ़ (нукта) отображает конъюнкт с половинными согласными, если они доступны, например क (ка) + ् (галант) + ़ (нукта) + त (та) = क्‍त.
Символ нукта ़ - код E9 (233)
Символ нукта после другого символа ISCII используется для ряда более редких символов, которых нет в основном наборе ISCII. Например, क (ka) + ़ (nukta) = क़ (qa). Эти символы имеют предварительно составленные формы в Юникоде, как показано в следующей таблице.

Кодовые страницы для преобразования ISCII [ править ]

Для преобразования из Unicode (UTF-8) в кодировку ISCII / ANSI могут использоваться следующие кодовые страницы:

  • 57002: деванагари (хинди, маратхи, санскрит, конкани)
  • 57003: бенгальский
  • 57004: тамильский
  • 57005: телугу
  • 57006: ассамский
  • 57007: Одиа
  • 57008: каннада
  • 57009: малаялам
  • 57010: гуджарати
  • 57011: панджаби (гурмукхи)

Кодовые точки для всех языков [ править ]

Ссылки [ править ]

  1. ^ a b Apple (2005-04-05) [1998-02-05]. «Карта (внешняя версия) из кодировки Mac OS Devanagari в Unicode 2.1 и выше» . Консорциум Unicode .

Внешние ссылки [ править ]

  • Конвертеры из / в ISCII в / из различных шрифтов
  • Стандарт ISCII 1991 (PDF)
  • Padma - расширение Mozilla для преобразования ISCII в Unicode
  • Падма - преобразователь из ISCII в Unicode для телугу
  • Скрипт PHP для ISCII в Unicode и обратно