Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

ISO / IEC 8859 - это совместная серия стандартов ISO и IEC для 8-битных кодировок символов . Серия стандартов состоит из пронумерованных частей, таких как ISO / IEC 8859-1 , ISO / IEC 8859-2 и т. Д. Всего 15 частей, не считая заброшенного ISO / IEC 8859-12 . Рабочая группа ISO, поддерживающая эту серию стандартов, была распущена.

Части 1, 2, 3 и 4 ISO / IEC 8859 изначально были международным стандартом Ecma ECMA-94 .

Введение [ править ]

Хотя битовых комбинаций 95 печатных символов ASCII достаточно для обмена информацией на современном английском языке , для большинства других языков, использующих латинские алфавиты, требуются дополнительные символы, не охватываемые ASCII. ISO / IEC 8859 попытался решить эту проблему, используя восьмой бит в 8-битном байте, чтобы разрешить позиции для других 96 печатаемых символов. Раннее кодирование было ограничено 7 битами из-за ограничений некоторых протоколов передачи данных и частично по историческим причинам. Однако требовалось больше символов, чем могло поместиться в одной 8-битной кодировке символов, поэтому было разработано несколько отображений, в том числе как минимум десять, подходящих для различных латинских алфавитов.

Стандартные части ISO / IEC 8859 определяют только печатаемые символы, хотя они явно разделяют диапазоны байтов 0x00–1F и 0x7F – 9F как «комбинации, которые не представляют графические символы» (т. Е. Зарезервированы для использования в качестве управляющих символов ) в соответствии с с ISO / IEC 4873 ; они были разработаны для использования вместе с отдельным стандартом, определяющим функции управления, связанные с этими байтами, например ISO 6429 или ISO 6630 . [1] С этой целью серия кодировок, зарегистрированных в IANA, добавляет контрольный набор C0 (управляющие символы, сопоставленные с байтами от 0 до 31) из ISO 646 и C1набор элементов управления (управляющие символы, отображаемые в байты со 128 по 159) из ISO 6429, в результате получаются полные 8-битные карты символов с большинством, если не всеми, назначенными байтами. Эти наборы имеют ISO-8859- n в качестве предпочтительного имени MIME или, в случаях, когда предпочтительное имя MIME не указано, их каноническое имя. Многие люди используют термины ISO / IEC 8859- n и ISO-8859- n как синонимы. ISO / IEC 8859-11 не получил такой кодировки, предположительно потому, что он был почти идентичен TIS 620 .

Персонажи [ править ]

Стандарт ISO / IEC 8859 разработан для надежного обмена информацией, а не для типографики ; в стандарте отсутствуют символы, необходимые для высококачественной типографики, такие как необязательные лигатуры, фигурные кавычки, тире и т. д. В результате в высококачественных системах набора часто используются проприетарные или идиосинкразические расширения поверх стандартов ASCII и ISO / IEC 8859. , или используйте вместо него Unicode .

Как показывает практика, если символ или символ еще не был частью широко используемого набора символов для обработки данных, а также обычно не предоставлялся на клавиатуре пишущих машинок для национального языка, он не принимался. Следовательно, направленные двойные кавычки Были включены « и », используемые для некоторых европейских языков, но без направленных двойных кавычек « и », используемых для английского и некоторых других языков.

Французы не получить его œ и Œ лигатуры , потому что они могут быть набраны как «ае». Аналогично, Ÿ , необходимая для текста, состоящего только из заглавных букв, также была удалена. [2] [3] [4] Эти три символа, хотя и с разными кодовыми точками, были позже повторно введены в ISO / IEC 8859-15 в 1999 году, в котором также был введен новый символ знака евро €. Точно так же голландский язык не получил букв ij и IJ , потому что носители голландского языка привыкли печатать их как две буквы.

В румынском языке изначально не было букв Ș / ș и Ț / ț ( с запятой ), потому что эти буквы были изначально объединены с Ş / ş и Ţ / ţ ( с седилем ) Консорциумом Unicode , считая формы с запятой ниже глифовые варианты форм с седилем. Однако буквы с явной запятой ниже были позже добавлены в стандарт Unicode, а также в ISO / IEC 8859-16 .

Большинство кодировок ISO / IEC 8859 содержат диакритические знаки, необходимые для различных европейских языков с использованием латинского алфавита. В других есть нелатинские алфавиты: греческий , кириллица , иврит , арабский и тайский . Большинство кодировок содержат только символы пробела , хотя тайские, еврейские и арабские кодировки также содержат комбинирующие символы .

Стандарт не предусматривает использования шрифтов восточноазиатских языков ( CJK ), поскольку их идеографические системы письма требуют многих тысяч кодовых точек. Хотя вьетнамский язык использует символы на основе латиницы, он также не помещается в 96 позиций (без использования комбинированных диакритических знаков, таких как Windows-1258 ). Каждый японский слоговой алфавит (хирагана или катакана, см. Кана ) подойдет, как в JIS X 0201 , но, как и несколько других мировых алфавитов, они не закодированы в системе ISO / IEC 8859.

Части ISO / IEC 8859 [ править ]

ИСО / МЭК 8859 разделен на следующие части:

Each part of ISO/IEC 8859 is designed to support languages that often borrow from each other, so the characters needed by each language are usually accommodated by a single part. However, there are some characters and language combinations that are not accommodated without transcriptions. Efforts were made to make conversions as smooth as possible. For example, German has all of its seven special characters at the same positions in all Latin variants (1–4, 9, 10, 13–16), and in many positions the characters only differ in the diacritics between the sets. In particular, variants 1–4 were designed jointly, and have the property that every encoded character appears either at a given position or not at all.

Table[edit]

At position 0xA0 there's always the non breaking space and 0xAD is mostly the soft hyphen, which only shows at line breaks. Other empty fields are either   unassigned or the system used is not able to display them.

There are   new additions as ISO/IEC 8859-7:2003 and ISO/IEC 8859-8:1999 versions. LRM stands for left-to-right mark (U+200E) and RLM stands for right-to-left mark (U+200F).

Relationship to Unicode and the UCS[edit]

Since 1991, the Unicode Consortium has been working with ISO and IEC to develop the Unicode Standard and ISO/IEC 10646: the Universal Character Set (UCS) in tandem. Newer editions of ISO/IEC 8859 express characters in terms of their Unicode/UCS names and the U+nnnn notation, effectively causing each part of ISO/IEC 8859 to be a Unicode/UCS character encoding scheme that maps a very small subset of the UCS to single 8-bit bytes. The first 256 characters in Unicode and the UCS are identical to those in ISO/IEC-8859-1 (Latin-1).

Single-byte character sets including the parts of ISO/IEC 8859 and derivatives of them were favoured throughout the 1990s, having the advantages of being well-established and more easily implemented in software: the equation of one byte to one character is simple and adequate for most single-language applications, and there are no combining characters or variant forms. As Unicode-enabled operating systems became more widespread, ISO/IEC 8859 and other legacy encodings became less popular. While remnants of ISO 8859 and single-byte character models remain entrenched in many operating systems, programming languages, data storage systems, networking applications, display hardware, and end-user application software, most modern computing applications use Unicode internally, and rely on conversion tables to map to and from other encodings, when necessary.

Current status[edit]

The ISO/IEC 8859 standard was maintained by ISO/IEC Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3). In June 2004, WG 3 disbanded, and maintenance duties were transferred to SC 2. The standard is not currently being updated, as the Subcommittee's only remaining working group, WG 2, is concentrating on development of Unicode's Universal Coded Character Set.

The WHATWG Encoding Standard, which specifies the character encodings permitted in HTML5 which compliant browsers must support,[6] includes most parts of ISO/IEC 8859,[7] except for parts 1, 9 and 11, which are instead interpreted as Windows-1252, Windows-1254 and Windows-874 respectively.[8] Authors of new pages and the designers of new protocols are instructed to use UTF-8 instead.[8]

See also[edit]

  • List of computer character sets
  • RPL character set (An ISO 8859-1 superset on HP calculators, referred to as "ECMA-94" as well)
  • DEC Multinational Character Set (MCS)
  • DEC National Replacement Character Set (NRCS)

Notes[edit]

  1. ^ Missing several accented vowels including Ǿ and ǿ. These can be replaced with non-accented vowels at the cost of increased ambiguity.
  2. ^ Only the IJ/ij (letter IJ) is missing, which is usually represented as IJ.
  3. ^ a b Missing characters are in ISO/IEC 8859-15.
  4. ^ The 1986 edition defines ISO-IR-111.
  5. ^ 8859-5 misses the Ґ/ґ letter, which was reintroduced into the Ukrainian alphabet in 1990.
  6. ^ Published 1995, registered 1996.[5]

References[edit]

  1. ^ ISO/IEC JTC 1/SC 2/WG 3 (1998-02-12). Final Text of DIS 8859-1, 8-bit single-byte coded graphic character sets—Part 1: Latin alphabet No.1 (PDF). ISO/IEC FDIS 8859-1:1998; JTC1/SC2/N2988; WG3/N411. This set of coded graphic characters may be regarded as a version of an 8-bit code according to ISO/IEC 2022 or ISO/IEC 4873 at level 1. […] The shaded positions in the code table correspond to bit combinations that do not represent graphic characters. Their use is outside the scope of ISO/IEC 8859; it is specified in other International Standards, for example ISO/IEC 6429.
  2. ^ Haralambous, Yannis (September 2007). Fonts & Encodings. Translated by Horne, P. Scott (1st ed.). Sebastopol, California, USA: O'Reilly Media, Inc. pp. 37–38. ISBN 978-0-596-10242-5. ISBN 0-596-10242-9. […] According to an urban legend, the French delegate was out sick the day when the standard came up for a vote and had to have his Belgian counterpart act as his proxy. In fact, the French delegate was an engineer, who was convinced that this ligature was useless, and the Swiss and German representatives pressed hard to have the mathematical symbols × and ÷ included at the positions where Œ and œ would logically appear. […]
  3. ^ André, Jacques (2003-10-15) [2003-10-02]. André, Bernard; Baron, Georges-Louis; Bruillard, Éric (eds.). "Histoire d'Œ, histoire d'@ des rumeurs typographiques et de leurs enseignements". Traitement de texte et production de documents INRP/GEDIAPS (in French): 19–34. Archived from the original on 2016-12-08. Retrieved 2016-12-09.
  4. ^ André, Jacques (November 1996). "ISO Latin-1, norme de codage des caractères européens? trois caractères français en sont absents!" (PDF). Cahiers GUTenberg (in French) (25): 65–77. Archived from the original (PDF) on 2008-11-30.
  5. ^ Lazhintseva, Katya (1996-05-03). "Registration of new MIME charset: Windows-1257". IANA.
  6. ^ "8.2.2.3. Character encodings". HTML 5.1 2nd Edition. W3C. User agents must support the encodings defined in the WHATWG Encoding standard, including, but not limited to […]
  7. ^ van Kesteren, Anne. "Legacy single-byte encodings". Encoding Standard. WHATWG.
  8. ^ a b van Kesteren, Anne. "Names and labels". Encoding Standard. WHATWG.
  • Published versions of each part of ISO/IEC 8859 are available, for a fee, from the ISO catalogue site and from the IEC Webstore.
  • PDF versions of the final drafts of some parts of ISO/IEC 8859 as submitted to the ISO/IEC JTC 1/SC 2/WG 3 for review & publication are available at the WG 3 web site:
    • ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (draft dated February 12, 1998, published April 15, 1998)
    • ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (draft dated February 12, 1998, published July 1, 1998)
    • ISO/IEC 8859-7:1999 - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (draft dated June 10, 1999; superseded by ISO/IEC 8859-7:2003, published October 10, 2003)
    • ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (draft dated February 12, 1998, published July 15, 1998)
    • ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (draft dated June 22, 1999; superseded by ISO/IEC 8859-11:2001, published 15 December 2001)
    • ISO/IEC 8859-13:1998 - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (draft dated April 15, 1998, published October 15, 1998)
    • ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (draft dated August 1, 1997; superseded by ISO/IEC 8859-15:1999, published March 15, 1999)
    • ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (draft dated November 15, 1999; superseded by ISO/IEC 8859-16:2001, published July 15, 2001)
  • ECMA standards, which in intent correspond exactly to the ISO/IEC 8859 character set standards, can be found at:
    • Standard ECMA-94: 8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 2nd edition (June 1986)
    • Standard ECMA-113: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Cyrillic Alphabet 3rd edition (December 1999)
    • Standard ECMA-114: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Arabic Alphabet 2nd edition (December 2000)
    • Standard ECMA-118: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Greek Alphabet (December 1986)
    • Standard ECMA-121: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Hebrew Alphabet 2nd edition (December 2000)
    • Standard ECMA-128: 8-Bit Single-Byte Coded Graphic Character Sets - Latin Alphabet No. 5 2nd edition (December 1999)
    • Standard ECMA-144: 8-Bit Single-Byte Coded Character Sets - Latin Alphabet No. 6 3rd edition (December 2000)
  • ISO/IEC 8859-1 to Unicode mapping tables as plain text files are at the Unicode FTP site.
  • Informal descriptions and code charts for most ISO/IEC 8859 standards are available in ISO/IEC 8859 Alphabet Soup (Mirror)