Из Википедии, бесплатной энциклопедии
  (Перенаправлено с ISO-8859-1 )
Перейти к навигации Перейти к поиску

ISO / IEC 8859-1: 1998 , Информационные технологии - 8-битный одно- байт закодированных графических символов наборы - Часть 1: Латинский алфавит № 1 , является частью 8859 ISO / IEC серии из ASCII -На стандартные кодировки символов , первый издание опубликовано в 1987. ISO 8859-1 кодирует то , что он называет «латинского алфавита нет. 1», состоящий из 191 символов из латинского алфавита . Эта схема кодирования символов используется в Северной и Южной Америке , Западной Европе , Океании и большей части Африки.. Это основа для некоторых популярных 8-битных наборов символов и первых двух блоков символов в Юникоде .

ISO-8859-1 был (по крайней мере, в соответствии со стандартом) кодировкой по умолчанию для документов, доставляемых через HTTP, с типом MIME, начинающимся с «text /» ( HTML5 изменил это на Windows-1252 ). [1] [2] По состоянию на март 2021 года 1,4% всех (но только 0,8% из первой тысячи [3] ) веб-сайтов используют ISO 8859-1 . [4] [5] Это наиболее заявленная кодировка однобайтовых символов в мире в Интернете, но поскольку веб-браузеры интерпретируют ее как надмножество Windows-1252, документы могут включать символы из этого набора.

В зависимости от страны использование может быть намного выше, чем в среднем в мире, например, для Германии - 5,7% (и включая Windows-1252 - 6,4%), [6] [7] или даже выше для языков меньшинств. [8]

ISO-8859-1 был кодировкой по умолчанию для значений некоторых описательных заголовков HTTP и определял набор символов, разрешенных в  документах HTML 3.2, и определен многими другими стандартами. Этот и аналогичные наборы часто считаются кодировкой 8-битного текста в Unix и Microsoft Windows, если нет метки порядка байтов (BOM); это только постепенно меняется на UTF-8.

ISO-8859-1 является предпочтительным названием IANA для этого стандарта с добавлением управляющих кодов C0 и C1 из ISO / IEC 6429 . Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . В Windows для этого используется кодовая страница 28591, также известная как Windows-28591 . [9] IBM называет это кодовой страницей 819 или CP819 ( CCSID 819). [10] [11] [12] [13] Oracle называет это WE8ISO8859P1.. [14]

Покрытие [ править ]

Каждый символ кодируется как одно восьмибитовое кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя они могут исключать правильные кавычки, например, для многих языков, включая немецкий и исландский):

Современные языки с полным охватом [ править ]

  • африкаанс
  • албанский
  • Баскский
  • Бретонский
  • Корсиканский
  • английский
  • Фарерские острова
  • Галицкий
  • исландский
  • Ирландский
  • индонезийский
  • Итальянский
  • Леонский
  • Люксембургский [а]
  • Малайский [b]
  • Манкс
  • Норвежский [c]
  • Окситанский
  • Португальский [d]
  • Ретороманский
  • Шотландский гэльский
  • Шотландцы
  • Южные саамы
  • испанский
  • суахили
  • Шведский
  • Тагальский
  • валлонский
Заметки
  1. ^ Базовая классическая орфография
  2. ^ Сценарий Руми
  3. Букмол и Нюнорск
  4. ^ Европейский и бразильский

Языки с неполным охватом [ править ]

ISO-8859-1 обычно использовался [ необходима ссылка ] для некоторых языков, даже несмотря на то, что в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствует только несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографского приближения . В следующей таблице перечислены такие языки.

Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses, и никогда не встречается в начале слов, включается только в строчной форме. Слот, соответствующий его прописной форме, занят строчной буквой ß из немецкого языка, которая не имела прописной формы во время создания стандарта.

Кавычки [ править ]

Для некоторых языков , перечисленных выше, правильные типографские кавычки отсутствуют, так как только « », " "и ' 'включены. Также в этой схеме не предусмотрены ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать серьезный акцент (0x60) и апостроф (0x27) в виде пары совпадающих ориентированных одинарных кавычек, но это не считается частью современного стандарта.

История [ править ]

ISO 8859-1 был основан на многонациональном наборе символов (MCS), используемом Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан в рамках Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA. -94, [15] под каким именем он до сих пор иногда известен. Второе издание ECMA-94 (июнь 1986 г.) [16] также включало ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.

В первоначальном проекте ISO 8859-1 французские Œ и œ помещались в кодовые точки 215 (0xD7) и 247 (0xF7), как в MCS. Однако, делегат из Франции, будучи ни лингвистом , ни типографского, ложно заявил , что они не являются независимыми французскими буквами самой по себе, но лишь лигатуры (например , ц или й ), при поддержке команды делегата от Bull Publishing Company , которые регулярно в то время не печатали французский язык с with / œ в своем домашнем стиле. Англоязычный делегат из Канады настоял на сохранении / œно был отвергнут французским делегатом и командой Bull. Эти кодовые точки вскоре были заполнены знаками × и ÷ по предложению немецкой делегации. Потом все пошло еще хуже для французского языка, когда он снова был ложно заявили , что письмо ÿ «не французский», в результате чего в отсутствии капитала Ÿ . Фактически, буква ÿ встречается во многих французских именах собственных, а заглавная буква используется в словарях и энциклопедиях. [17] Эти символы были добавлены в ISO / IEC 8859-15: 1999 . BraSCII соответствует оригинальному проекту.

В 1985 году Commodore принял ECMA-94 для своей новой операционной системы AmigaOS . [18] Ударный матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ необходима цитата ]

В 1990 году самая первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.

В 1992 году IANA зарегистрировала символьную карту ISO_8859-1: 1987 , более известную под своим предпочтительным именем MIME ISO-8859-1 (обратите внимание на дополнительный дефис над ISO 8859-1), надмножество ISO 8859-1, для использовать в Интернете . Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом обеспечивая 256 символов через каждое возможное 8-битное значение.

Макет кодовой страницы [ править ]

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный   Не определено в первом выпуске ECMA-94 (1985). [15] Однако в первоначальном проекте находилось в кодовой точке 215 (0xD7), а œ - в кодовой точке 247 (0xF7).

Подобные наборы символов [ править ]

ISO / IEC 8859-15 [ править ]

ISO / IEC 8859-15 был разработан в 1999 году как обновление ISO / IEC 8859-1. Он предоставляет некоторые символы для текста на французском и финском языках, а также знак евро , которые отсутствуют в ISO / IEC 8859-1. Это потребовало удаление некоторых редко используемых символов из ISO / IEC 8859-1, в том числе фракции символов и буквенных свободные диакритиков: ¤, ¦, ¨, ´, ¸, ¼, ½, и ¾. По иронии судьбы, три из недавно добавленных персонажей ( Œ, œи Ÿ) уже присутствовали в многонациональном наборе символов DEC 1983 года.(MCS), предшественник ISO / IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь были повторно использованы для других целей, символы пришлось повторно вводить под другими, менее логичными кодовыми точками.

ISO-IR-204, более незначительная модификация, была зарегистрирована в 1998 году, изменив ISO-8859-1 путем замены знака универсальной валюты (¤) на знак евро [19] (такая же замена сделана в ISO-8859-15 ).

Windows-1252 [ править ]

Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO / IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 (от 80 до 9F в шестнадцатеричной системе ). Очень часто неправильно маркировать текст Windows-1252 как находящийся в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданные с помощью «умных кавычек» в текстовых редакторах) были заменены вопросительными знаками или квадратами в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты интерпретируют управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение позже было стандартизовано в HTML5 . [20]

Мак Роман [ править ]

Apple Macintosh компьютер ввел кодировку под названием Mac Roman в 1984 году должно было быть пригодным для западноевропейских настольных издательских . Это надмножество ASCII , в котором есть большинство символов из ISO-8859-1 и все дополнительные символы из Windows-1252, но в совершенно другом расположении. Несколько печатных символов, которые есть в ISO 8859-1, но не в этом наборе, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .

Другое [ править ]

У DOS была кодовая страница 850 , на которой были все печатаемые символы, которые имел ISO-8859-1 (хотя и в совершенно другом порядке), плюс наиболее широко используемые графические символы из кодовой страницы 437 .

Между 1989 [21] и 2015 годами Hewlett-Packard использовала другой расширенный набор ISO-8859-1 на многих своих калькуляторах. Этот проприетарный набор символов иногда также обозначается просто как «ECMA-94». [21]

См. Также [ править ]

  • Латинский шрифт в Юникоде
  • Юникод
  • Универсальный набор символов
  • UTF-8
  • Кодовые страницы Windows
  • ISO / IEC JTC 1 / SC 2

Ссылки [ править ]

  1. ^ «Стандарт кодирования» . encoding.spec.whatwg.org .
  2. ^ "Стандарт HTML" . html.spec.whatwg.org .
  3. ^ «Обзор использования кодировок символов с разбивкой по рейтингам» . w3techs.com . Проверено 12 апреля 2021 .
  4. ^ «Исторические тенденции использования кодировок символов, февраль 2021 г.» . Проверено 11 февраля 2020 .
  5. ^ "Источник статистики кодировки символов?" . w3techs.com .
  6. ^ «Распределение кодировок символов среди веб-сайтов, использующих .de» . w3techs.com . Проверено 12 апреля 2021 .
  7. ^ «Распределение кодировок символов среди веб-сайтов, использующих немецкий язык» . w3techs.com . Источник 2021-01-24 .
  8. ^ «Распределение кодировок символов среди веб-сайтов, использующих бретонский язык» . w3techs.com . Проверено 8 декабря 2020 .
  9. ^ «Идентификаторы кодовой страницы» . Корпорация Microsoft . Проверено 19 декабря 2010 .
  10. ^ "Кодовая страница 819 информационного документа" . Архивировано из оригинала на 2017-01-16.
  11. ^ "Информационный документ CCSID 819" . Архивировано из оригинала на 2016-03-27.
  12. ^ Кодовая страница CPGID 00819 (pdf) (PDF) , IBM
  13. ^ Кодовая страница CPGID 00819 (txt) , IBM
  14. ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Вентилятор, Джессика; Хо, Клэр; Закон, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Осрофт, Тамзин; Такеда, Шиге; Танака, Линус; Тозава, Макото; Трюте, Барри; Цудзимото, Маюми; Ву, Инь; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Ян; Мур, Валари (2002) [1996]. «Приложение A: Данные о локали». Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2), ред.). Корпорация Oracle . Оракул A96529-01. Архивировано (PDF) из оригинала на 2017-02-14 . Проверено 14 февраля 2017 .
  15. ^ a b Стандартный ECMA-94: 8-битный однобайтовый набор графических символов (PDF) (1-е изд.). Европейская ассоциация производителей компьютеров (ECMA). Март 1985 [1984-12-14]. Архивировано (PDF) из оригинала на 2016-12-02 . Проверено 1 декабря 2016 . […] С 1982 года острая необходимость в 8-битном однобайтовом кодированном наборе символов была признана в ECMA, а также в ANSI / X3L2, и эти две группы обменялись многочисленными рабочими документами. В феврале 1984 г. ECMA TC1 представил в ISO / TC97 / SC2 предложение о таком наборе кодированных символов. На своем заседании в апреле 1984 года SC решил представить TC97 предложение о новом элементе работы по этой теме. Технические обсуждения во время и после этой встречи привели TC1 к принятию схемы кодирования, предложенной X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI / ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]
  16. ^ «Второе издание ECMA-94 (июнь 1986 г.)» (PDF) .
  17. ^ Жак, Андре (1996). «ISO Latin-1, norm de codage des caractères européens? Trois caractères français en sont отсутствует!» (PDF) . Cahiers GUTenberg (25): 65–77.
  18. Малышев, Михаил (10 января 2003 г.). "Регистрация новой кодировки [Amiga-1251]" . ATO-RU (Организация переводов Amiga - русское отделение). Архивировано 5 декабря 2016 года . Проверено 5 декабря 2016 .
  19. ^ Стандартизация информационных технологий ИТС (1998-09-16). ISO-IR 204: Дополнительный набор для альтернативы Latin-1 с EURO SIGN (PDF) . ITSCJ / IPSJ .
  20. ^ Ван Кестерен, Энн (27 января 2015). «5.2 Имена и ярлыки» . Стандарт кодирования . WHATWG . Архивировано 4 февраля 2015 года . Проверено 4 февраля 2015 года .
  21. ^ a b Инфракрасный принтер HP 82240B (1-е изд.). Корваллис, Орегон, США: Hewlett-Packard . Август 1989 г. Номер повторного заказа HP 82240-90014 . Проверено 1 августа 2016 .

Внешние ссылки [ править ]

  • ИСО / МЭК 8859-1: 1998
  • ISO / IEC FDIS 8859-1: 1998  - 8-битные однобайтовые наборы графических символов, Часть 1: Латинский алфавит № 1 (черновик от 12 февраля 1998 г., опубликован 15 апреля 1998 г.)
  • Стандартный ECMA-94: 8-битные однобайтовые графические наборы символов - латинские алфавиты с № 1 по № 4, 2-е издание (июнь 1986 г.)
  • ISO-IR 100 Правая часть латинского алфавита № 1 (1 февраля 1986 г.)
  • База данных писем
  • Чиборра, Роман (1998-12-01). «Суп с алфавитом ISO 8859» . Архивировано 01 декабря 2016 года . Проверено 1 декабря 2016 . [1] [2]