Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Windows-1256 - это кодовая страница, используемая для написания арабского языка (и, возможно, некоторых других языков, использующих арабский шрифт , например персидского и урду) в Microsoft Windows . Эта кодовая страница не совместим с ISO 8859-6 и MacArabic кодировок.

Он кодирует каждую абстрактную букву основного арабского алфавита, а не каждую конкретную визуальную форму изолированных, начальных, средних, конечных или лигатурированных вариантов формы букв (т.е. кодирует символы, а не глифы). Арабские буквы в диапазоне C0-FF расположены в арабском алфавитном порядке, но некоторые латинские символы вкраплены между ними. Это некоторые латинские символы Windows-1252, используемые для французского языка , поскольку этот европейский язык имеет историческое значение для бывших французских колоний в Северной Африке, таких как Марокко и Алжир . Это позволяло смешивать французский и арабский текст при использовании Windows 1256 без необходимости переключения кодовых страниц (однако прописные буквы с диакритическими знаками не включались).

IBM использует кодовую страницу 1256 ( CCSID 1256, расширенный CCSID 5352 для знака евро и еще более расширенный CCSID 9448) для Windows-1256. [1] [2] [3] [4]

Unicode предпочтительнее Windows 1256 в современных приложениях, особенно в Интернете; что означает доминирующую кодировку UTF-8 для веб-страниц (см. также арабский шрифт в Unicode , для полного охвата, в отличие, например, от Windows 1256 или ISO-8859-6, которые не охватывают дополнительные функции). По состоянию на сентябрь 2019 г. менее 0,1% всех веб-страниц использовали Windows-1256 [5] [6].

Набор символов [ править ]

Поскольку исходная кодовая страница оставила 9 значений (байтов), помеченных как «НЕ ИСПОЛЬЗУЕМЫЕ» в исходной спецификации [7], эти байты позже использовались для дополнительных символов, необходимых для персидско-арабского сценария (для языков персидского и урду ), плюс знак евро . [8]

В следующей таблице показана расширенная версия Windows-1256. Каждый символ отображается с его эквивалентом в Юникоде и его десятичным кодом.

Здесь каждая арабская буква показана изолированно. Фактические формы букв внутри арабских слов отображаются с помощью комбинации правил программного обеспечения и соответствующей поддержки шрифтов.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

См. Также [ править ]

  • LMBCS-4

Ссылки [ править ]

  1. ^ "Кодовая страница 1256 информационного документа" . Архивировано из оригинала на 2016-03-03.
  2. ^ "Информационный документ CCSID 1256" . Архивировано из оригинала на 2016-03-27.
  3. ^ "Информационный документ CCSID 5352" . Архивировано из оригинала на 2014-11-29.
  4. ^ "Информационный документ CCSID 9448" . Архивировано из оригинала на 2014-11-29.
  5. ^ «Исторические тенденции использования кодировок символов для веб-сайтов, сентябрь 2019» . w3techs.com .
  6. ^ «Часто задаваемые вопросы» . w3techs.com .
  7. ^ Архивные документы. «Кодовая страница 1256 Windows Arabic» . docs.microsoft.com .
  8. ^ a b «cp1256 в таблицу Unicode» (PDF) . www.unicode.org . Проверено 31 мая 2019 .
  9. ^ Отображение Unicode окон 1256 с "наилучшим соответствием"
  10. ^ Кодовая страница CPGID 01256 (pdf) (PDF) , IBM
  11. ^ Кодовая страница CPGID 01256 (txt) , IBM
  12. ^ Международные компоненты для Unicode (ICU), ibm-1256_P110-1997.ucm , 2002-12-03
  13. ^ Международные компоненты для Unicode (ICU), ibm-5352_P100-1998.ucm , 2002-12-03
  14. ^ Международные компоненты для Unicode (ICU), ibm-9448_X100-2005.ucm , 2005-11-15

Внешние ссылки [ править ]

  • Справочная таблица Windows 1256
  • Регистрация имени кодировки IANA для windows-1256