Из Википедии, бесплатной энциклопедии
  (Перенаправлено из ECMA-94 )
Перейти к навигации Перейти к поиску

ISO / IEC 8859 - это совместная серия стандартов ISO и IEC для 8-битных кодировок символов . Серия стандартов состоит из пронумерованных частей, таких как ISO / IEC 8859-1 , ISO / IEC 8859-2 и т. Д. Всего 15 частей, за исключением заброшенного ISO / IEC 8859-12 . Рабочая группа ISO, поддерживающая эту серию стандартов, была распущена.

ISO / IEC 8859, части 1, 2, 3 и 4 изначально были международным стандартом Ecma ECMA-94 .

Введение [ править ]

Хотя битовых комбинаций 95 печатаемых символов ASCII достаточно для обмена информацией на современном английском языке , для большинства других языков, использующих латинские алфавиты, требуются дополнительные символы, не охватываемые ASCII. ISO / IEC 8859 попытался решить эту проблему, используя восьмой бит в 8-битном байте, чтобы разрешить позиции для других 96 печатаемых символов. Раннее кодирование было ограничено 7 битами из-за ограничений некоторых протоколов передачи данных и частично по историческим причинам. Однако требовалось больше символов, чем могло поместиться в одной 8-битной кодировке символов, поэтому было разработано несколько сопоставлений, в том числе по крайней мере десять, подходящих для различных латинских алфавитов.

Кодировки ISO / IEC 8859- n содержат только печатаемые символы и были разработаны для использования вместе с управляющими символами, сопоставленными с неназначенными байтами. С этой целью серия кодировок, зарегистрированных в IANA, добавляет контрольный набор C0 (контрольные символы, сопоставленные с байтами от 0 до 31) из ISO 646 и контрольный набор C1 (контрольные символы, сопоставленные с байтами со 128 по 159) из ISO 6429 , в результате полные 8-битные карты символов с большинством, если не всеми, назначенными байтами. Эти наборы имеют ISO-8859- n в качестве предпочтительного MIME.имя или, в случаях, когда предпочтительное имя MIME не указано, их каноническое имя. Многие люди используют термины ISO / IEC 8859- n и ISO-8859- n как синонимы. ISO / IEC 8859-11 не получил такой кодировки, предположительно потому, что он почти идентичен TIS 620 .

Персонажи [ править ]

Стандарт ISO / IEC 8859 разработан для надежного обмена информацией, а не для типографики ; стандарт не включает символы, необходимые для высококачественной типографики, такие как необязательные лигатуры, фигурные кавычки, тире и т. д. В результате в высококачественных системах набора часто используются проприетарные или идиосинкразические расширения поверх стандартов ASCII и ISO / IEC 8859. или используйте вместо него Unicode .

Как показывает практика, если символ или символ еще не входил в широко используемый набор символов для обработки данных, а также обычно не предоставлялся на клавиатуре пишущих машинок для национального языка, он не принимался. Следовательно, двойные кавычки с направлением Были включены « и », используемые для некоторых европейских языков, но без направленных двойных кавычек « и », используемых для английского и некоторых других языков.

Французы не получить его œ и Œ лигатуры , потому что они могут быть набраны как «ае». Аналогичным образом, Ÿ , необходимая для текста, состоящего только из заглавных букв, также была удалена. [1] [2] [3] Эти три символа, хотя и с разными кодовыми точками, были позже повторно введены в ISO / IEC 8859-15 в 1999 году, в котором также был введен новый символ знака евро €. Точно так же голландский язык не получил букв ij и IJ , потому что носители голландского языка привыкли набирать их двумя буквами.

В румынском языке изначально не было букв Ș / ș и Ț / ț ( с запятой ), потому что эти буквы были первоначально объединены с Ş / ş и Ţ / ţ ( с седилем ) Консорциумом Unicode , считая формы с запятой ниже глифовые варианты фигур с седилем. Однако буквы с явной запятой ниже были позже добавлены в стандарт Unicode, а также в ISO / IEC 8859-16 .

Большинство кодировок ISO / IEC 8859 содержат диакритические знаки, необходимые для различных европейских языков с использованием латинского алфавита. В других есть нелатинские алфавиты: греческий , кириллица , иврит , арабский и тайский . Большинство кодировок содержат только символы пробела , хотя тайские, еврейские и арабские кодировки также содержат комбинированные символы .

Стандарт не предусматривает использование шрифтов восточноазиатских языков ( CJK ), поскольку их идеографические системы письма требуют многих тысяч кодовых точек. Хотя в нем используются символы на основе латиницы, вьетнамский язык также не помещается в 96 позиций (без использования комбинированных диакритических знаков, таких как Windows-1258 ). Каждый японский слоговой алфавит (хирагана или катакана, см. Кана ) подойдет, как в JIS X 0201 , но, как и некоторые другие алфавиты мира, они не закодированы в системе ISO / IEC 8859.

Части ISO / IEC 8859 [ править ]

ISO / IEC 8859 разделен на следующие части:

Каждая часть ISO / IEC 8859 разработана для поддержки языков, которые часто заимствуют друг у друга, поэтому символы, необходимые для каждого языка, обычно размещаются в одной части. Однако есть некоторые символы и языковые комбинации, которые нельзя использовать без транскрипции. Были приложены усилия, чтобы преобразование было максимально плавным. Например, в немецком языке все семь специальных символов находятся на одних и тех же позициях во всех латинских вариантах (1–4, 9, 10, 13–16), и во многих позициях символы различаются только диакритическими знаками между наборами. В частности, варианты 1–4 были разработаны совместно и обладают тем свойством, что каждый закодированный символ появляется либо в определенной позиции, либо не появляется вовсе.

Таблица [ править ]

В позиции 0xA0 всегда есть неразрывный пробел, а 0xAD - это в основном мягкий дефис , который отображается только при переносе строки . Остальные пустые поля либо  не назначены или используемая система не может их отобразить.

Есть   новые дополнения в виде версий ISO / IEC 8859-7: 2003 и ISO / IEC 8859-8: 1999 . LRM означает знак слева направо (U + 200E), а RLM означает знак справа налево (U + 200F).

Связь с Unicode и UCS [ править ]

С 1991 года Консорциум Unicode работает с ISO и IEC над разработкой стандарта Unicode и ISO / IEC 10646: универсального набора символов (UCS) в тандеме. Более новые версии ISO / IEC 8859 выражают символы в терминах их имен Unicode / UCS и нотации U + nnnn , фактически заставляя каждую часть ISO / IEC 8859 быть схемой кодирования символов Unicode / UCS, которая отображает очень небольшое подмножество UCS в одиночные 8-битные байты. Первые 256 символов в Unicode и UCS идентичны таковым в ISO / IEC-8859-1 ( Latin-1 ).

Наборы однобайтовых символов, включая части ISO / IEC 8859 и производные от них, пользовались популярностью на протяжении 1990-х годов, имея преимущества в том, что они хорошо известны и их легче реализовать в программном обеспечении: уравнение одного байта к одному символу является простым и адекватным для большинства одноязычных приложений, и здесь нет комбинируемых символов или вариантов форм. По мере того, как операционные системы с поддержкой Unicode стали более распространенными, ISO / IEC 8859 и другие устаревшие кодировки стали менее популярными. В то время как остатки стандарта ISO 8859 и однобайтовых символьных моделей по-прежнему укоренились во многих операционных системах, языках программирования, системах хранения данных, сетевых приложениях, аппаратном обеспечении дисплея и прикладном программном обеспечении для конечных пользователей, большинство современных вычислительных приложений используют Unicode для внутренних целей и полагаются на преобразование таблицы для отображения в другие кодировки и обратно,когда необходимо.

Текущий статус [ править ]

Стандарт ISO / IEC 8859 поддерживался Совместным техническим комитетом 1 ISO / IEC, Подкомитетом 2, Рабочей группой 3 (ISO / IEC JTC 1 / SC 2 / WG 3). В июне 2004 г. WG 3 была расформирована, а обязанности по обслуживанию были переданы SC 2 . Стандарт в настоящее время не обновляется, поскольку единственная оставшаяся рабочая группа Подкомитета , WG 2, концентрируется на разработке универсального набора кодированных символов Unicode .

WHATWG Кодирование Стандарт, который определяет кодировки символов допускается в HTML5 , которые должны поддерживать совместимые браузеры, [5] включает в себя большинство частей ISO / IEC 8859, [6] для частей 1, 9 и 11, за исключением того, которые вместо того, чтобы интерпретировать как Windows- 1252 , Windows-1254 и Windows-874 соответственно. [7] Авторам новых страниц и разработчикам новых протоколов рекомендуется использовать вместо этого UTF-8 . [7]

См. Также [ править ]

  • Список компьютерных наборов символов
  • Набор символов RPL (расширенный набор ISO 8859-1 для калькуляторов HP, также называемый "ECMA-94")
  • Многонациональный набор символов DEC (MCS)
  • Национальный замещающий набор символов DEC (NRCS)

Примечания [ править ]

  1. ^ Отсутствуют несколько гласных с ударением, включая Ǿ и ǿ . Их можно заменить гласными без ударения за счет увеличения двусмысленности.
  2. ^ Только IJ / ij (буква IJ) отсутствует, которая обычно обозначается как IJ.
  3. ^ a b Отсутствующие символы указаны в ISO / IEC 8859-15.
  4. ^ Издание 1986 года определяет ISO-IR-111 .
  5. В ^ 8859-5 отсутствуетбуква Ґ / ґ , которая была повторно введена в украинский алфавит в 1990 году.
  6. Опубликовано в 1995 г., зарегистрировано в 1996 г. [4]

Ссылки [ править ]

  1. ^ Haralambous, Яннис (сентябрь 2007). Шрифты и кодировки . Перевод Хорна, П. Скотта (1-е изд.). Севастопольская, Калифорния, США: O'Reilly Media, Inc. стр.  37 -38. ISBN 978-0-596-10242-5. ISBN 0-596-10242-9 . […] Согласно городской легенде, французский делегат был болен в тот день, когда на голосование был вынесен стандарт, и его бельгийский коллега должен был выступить в качестве его доверенного лица. На самом деле, французский делегат был инженер, который был убежден , что это лигатура была бесполезна, и швейцарский и немецкие представители нажимаются трудно иметь математические символы × и ÷ включены в местах , где Œ и œ логически появляются. […] 
  2. ^ Андре, Жак (2003-10-15) [2003-10-02]. Андре, Бернар; Барон, Жорж-Луи; Bruillard, Эрик (ред.). "Histoire d', histoire d '@ des rumeurs typographiques et de leurs enseignements" . Обработка текстов и производство документов INRP / GEDIAPS (на французском языке): 19–34. Архивировано 8 декабря 2016 года . Проверено 9 декабря 2016 .
  3. Андре, Жак (ноябрь 1996 г.). «ISO Latin-1, norme de codage des caractères européens? Trois caractères français en sont отсутствует!» (PDF) . Cahiers GUTenberg (на французском языке) (25): 65–77. Архивировано из оригинального (PDF) 30 ноября 2008 года.
  4. ^ Lazhintseva, Катя (1996-05-03). «Регистрация новой кодировки MIME: Windows-1257» . IANA.
  5. ^ «8.2.2.3. Кодировки символов» . HTML 5.1 2-е издание . W3C . Пользовательские агенты должны поддерживать кодировки, определенные в стандарте кодирования WHATWG, включая, помимо прочего, […]
  6. ^ ван Кестерен, Энн . «Устаревшие однобайтовые кодировки» . Стандарт кодирования . WHATWG .
  7. ^ a b van Kesteren, Энн . «Имена и ярлыки» . Стандарт кодирования . WHATWG .
  • Опубликованные версии каждой части ISO / IEC 8859 доступны за плату на сайте каталога ISO и в Интернет- магазине IEC .
  • Версии в формате PDF окончательных проектов некоторых частей ISO / IEC 8859, представленных в ISO / IEC JTC 1 / SC 2 / WG 3 для обзора и публикации, доступны на веб-сайте WG 3 :
    • ISO / IEC 8859-1: 1998 - 8-битные однобайтовые наборы графических символов, Часть 1: Латинский алфавит № 1 (черновик от 12 февраля 1998 г., опубликован 15 апреля 1998 г.)
    • ISO / IEC 8859-4: 1998 - 8-битные однобайтовые наборы графических символов, Часть 4: Латинский алфавит № 4 (черновик от 12 февраля 1998 г., опубликован 1 июля 1998 г.)
    • ISO / IEC 8859-7: 1999 - 8-битные однобайтовые графические наборы символов, Часть 7: Латинский / греческий алфавит (проект от 10 июня 1999 г .; заменен ISO / IEC 8859-7: 2003, опубликованным 10 октября, 2003)
    • ISO / IEC 8859-10: 1998 - 8-битные однобайтовые наборы графических символов, Часть 10: Латинский алфавит № 6 (черновик от 12 февраля 1998 г., опубликован 15 июля 1998 г.)
    • ISO / IEC 8859-11: 1999 - 8-битные однобайтовые наборы графических символов, Часть 11: Набор латинских / тайских символов (черновик от 22 июня 1999 г .; заменен ISO / IEC 8859-11: 2001, опубликован 15 декабря). 2001)
    • ISO / IEC 8859-13: 1998 - 8-битные однобайтовые наборы графических символов, Часть 13: Латинский алфавит № 7 (черновик от 15 апреля 1998 г., опубликован 15 октября 1998 г.)
    • ISO / IEC 8859-15: 1998 - 8-битные однобайтовые графические наборы символов, Часть 15: Латинский алфавит № 9 (проект от 1 августа 1997 г .; заменен ISO / IEC 8859-15: 1999, опубликован 15 марта) , 1999)
    • ISO / IEC 8859-16: 2000 - 8-битные однобайтовые наборы графических символов, Часть 16: Латинский алфавит № 10 (проект от 15 ноября 1999 г .; заменен ISO / IEC 8859-16: 2001, опубликован 15 июля) , 2001)
  • Стандарты ECMA , которые по замыслу в точности соответствуют стандартам набора символов ISO / IEC 8859, можно найти по адресу:
    • Стандартный ECMA-94 : 8-битные однобайтовые графические наборы символов - латинские алфавиты с № 1 по № 4, 2-е издание (июнь 1986 г.)
    • Стандартный ECMA-113 : 8-битные однобайтовые графические наборы символов - латинский / кириллица, 3-е издание (декабрь 1999 г.)
    • Стандартный ECMA-114 : 8-битные однобайтовые графические наборы символов - латинский / арабский алфавит, 2-е издание (декабрь 2000 г.)
    • Стандартный ECMA-118 : 8-битные однобайтовые графические наборы символов - латинский / греческий алфавит (декабрь 1986 г.)
    • Стандартный ECMA-121 : 8-битные однобайтовые графические наборы символов - латинский / еврейский алфавит, 2-е издание (декабрь 2000 г.)
    • Стандартный ECMA-128 : 8-битные однобайтовые графические наборы символов - латинский алфавит № 5, 2-е издание (декабрь 1999 г.)
    • Стандартный ECMA-144 : 8-битные однобайтовые кодированные символы - латинский алфавит № 6, третье издание (декабрь 2000 г.)
  • Таблицы преобразования ISO / IEC 8859-1 в Unicode в виде текстовых файлов находятся на FTP-узле Unicode.
  • Неофициальные описания и таблицы кодов для большинства стандартов ISO / IEC 8859 доступны в ISO / IEC 8859 Alphabet Soup (Mirror).