MIME / IANA | ISO-8859-1 |
---|---|
Псевдоним (а) | iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819 |
Язык (и) | Английский , разные другие |
Стандарт | ISO / IEC 8859 |
Классификация | Расширенный ASCII , ISO 8859 |
Расширяется | US-ASCII |
На основе | DEC MCS |
Преемник |
|
Другая связанная кодировка (и) | BraSCII |
ISO / IEC 8859-1: 1998 , Информационные технологии - 8-битный одно- байт закодированных графических символов наборы - Часть 1: Латинский алфавит № 1 , является частью 8859 ISO / IEC серии из ASCII -На стандартные кодировки символов , первый издание опубликовано в 1987. ISO 8859-1 кодирует то , что он называет «латинского алфавита нет. 1», состоящий из 191 символов из латинского алфавита . Эта схема кодирования символов используется в Северной и Южной Америке , Западной Европе , Океании и большей части Африки.. Это основа для некоторых популярных 8-битных наборов символов и первых двух блоков символов в Юникоде .
ISO-8859-1 был (по крайней мере, в соответствии со стандартом) кодировкой по умолчанию для документов, доставляемых через HTTP, с типом MIME, начинающимся с «text /» ( HTML5 изменил это на Windows-1252 ). [1] [2] По состоянию на март 2021 [Обновить]года 1,4% всех (но только 0,8% из первой тысячи [3] ) веб-сайтов используют ISO 8859-1 . [4] [5] Это наиболее заявленная кодировка однобайтовых символов в мире в Интернете, но поскольку веб-браузеры интерпретируют ее как надмножество Windows-1252, документы могут включать символы из этого набора.
В зависимости от страны использование может быть намного выше, чем в среднем в мире, например, для Германии - 5,7% (и включая Windows-1252 - 6,4%), [6] [7] или даже выше для языков меньшинств. [8]
ISO-8859-1 был кодировкой по умолчанию для значений некоторых описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML 3.2, и определен многими другими стандартами. Этот и аналогичные наборы часто считаются кодировкой 8-битного текста в Unix и Microsoft Windows, если нет метки порядка байтов (BOM); это только постепенно меняется на UTF-8.
ISO-8859-1 является предпочтительным названием IANA для этого стандарта с добавлением управляющих кодов C0 и C1 из ISO / IEC 6429 . Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . В Windows для этого используется кодовая страница 28591, также известная как Windows-28591 . [9] IBM называет это кодовой страницей 819 или CP819 ( CCSID 819). [10] [11] [12] [13] Oracle называет это WE8ISO8859P1.. [14]
Покрытие [ править ]
Каждый символ кодируется как одно восьмибитовое кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя они могут исключать правильные кавычки, например, для многих языков, включая немецкий и исландский):
Современные языки с полным охватом [ править ]
- африкаанс
- албанский
- Баскский
- Бретонский
- Корсиканский
- английский
- Фарерские острова
- Галицкий
- исландский
- Ирландский
- индонезийский
- Итальянский
- Леонский
- Люксембургский [а]
- Малайский [b]
- Манкс
- Норвежский [c]
- Окситанский
- Португальский [d]
- Ретороманский
- Шотландский гэльский
- Шотландцы
- Южные саамы
- испанский
- суахили
- Шведский
- Тагальский
- валлонский
- Заметки
- ^ Базовая классическая орфография
- ^ Сценарий Руми
- ↑ Букмол и Нюнорск
- ^ Европейский и бразильский
Языки с неполным охватом [ править ]
ISO-8859-1 обычно использовался [ необходима ссылка ] для некоторых языков, даже несмотря на то, что в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствует только несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографского приближения . В следующей таблице перечислены такие языки.
Язык | Отсутствующие символы | Типичный обходной путь | Поддерживается |
---|---|---|---|
Каталонский | Ŀ , ŀ (устарело) | Л ·, л · | |
Датский | Ǿ , ǿ (ударение необязательно, ǿ встречается очень редко) | Ø, ø или øe | |
нидерландский язык | IJ , ij (но с дискуссионным статусом ); j́ в подчеркнутых словах вроде "blíj́f" | орграфы IJ, ij; Blíjf | |
эстонский | Š , š, Ž , ž (присутствуют только в заимствованных словах) | Ш, ш, Ж, ж | ISO-8859-15 , Windows-1252 |
Финский | Š , š, Ž , ž (присутствуют только в заимствованных словах) | Ш, ш, Ж, ж | ISO-8859-15 , Windows-1252 |
Французский | Œ , œ и очень редкие Ÿ | диграфы OE, oe; Y или Ý | ISO-8859-15 , Windows-1252 |
Немецкий | ẞ (заглавная буква ß, используется только заглавными буквами; включена в официальную орфографию в 2017 году, по-прежнему необязательно) | орграф СС | |
венгерский язык | Ő , ő, Ű , ű | Ö, ö, Ü, ü | ISO / IEC 8859-2 , Windows-1250 |
Ирландский ( традиционная орфография ) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th | ISO-8859-14 |
Курдский | Ş , ş | ||
валлийский | Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ | W, w, Y, y, Ý, ý | ISO-8859-14 |
Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses, и никогда не встречается в начале слов, включается только в строчной форме. Слот, соответствующий его прописной форме, занят строчной буквой ß из немецкого языка, которая не имела прописной формы во время создания стандарта.
Кавычки [ править ]
Для некоторых языков , перечисленных выше, правильные типографские кавычки отсутствуют, так как только « »
, " "
и ' '
включены. Также в этой схеме не предусмотрены ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать серьезный акцент (0x60) и апостроф (0x27) в виде пары совпадающих ориентированных одинарных кавычек, но это не считается частью современного стандарта.
История [ править ]
ISO 8859-1 был основан на многонациональном наборе символов (MCS), используемом Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан в рамках Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA. -94, [15] под каким именем он до сих пор иногда известен. Второе издание ECMA-94 (июнь 1986 г.) [16] также включало ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.
В первоначальном проекте ISO 8859-1 французские Œ и œ помещались в кодовые точки 215 (0xD7) и 247 (0xF7), как в MCS. Однако, делегат из Франции, будучи ни лингвистом , ни типографского, ложно заявил , что они не являются независимыми французскими буквами самой по себе, но лишь лигатуры (например , ц или й ), при поддержке команды делегата от Bull Publishing Company , которые регулярно в то время не печатали французский язык с with / œ в своем домашнем стиле. Англоязычный делегат из Канады настоял на сохранении / œно был отвергнут французским делегатом и командой Bull. Эти кодовые точки вскоре были заполнены знаками × и ÷ по предложению немецкой делегации. Потом все пошло еще хуже для французского языка, когда он снова был ложно заявили , что письмо ÿ «не французский», в результате чего в отсутствии капитала Ÿ . Фактически, буква ÿ встречается во многих французских именах собственных, а заглавная буква используется в словарях и энциклопедиях. [17] Эти символы были добавлены в ISO / IEC 8859-15: 1999 . BraSCII соответствует оригинальному проекту.
В 1985 году Commodore принял ECMA-94 для своей новой операционной системы AmigaOS . [18] Ударный матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ необходима цитата ]
В 1990 году самая первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.
В 1992 году IANA зарегистрировала символьную карту ISO_8859-1: 1987 , более известную под своим предпочтительным именем MIME ISO-8859-1 (обратите внимание на дополнительный дефис над ISO 8859-1), надмножество ISO 8859-1, для использовать в Интернете . Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом обеспечивая 256 символов через каждое возможное 8-битное значение.
Макет кодовой страницы [ править ]
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 | ||||||||||||||||
1_ 16 | ||||||||||||||||
2_ 32 | SP 0020 | ! 0021 | « 0022 | # 0023 | 0024 долл. США | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ 48 | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ 64 | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | I 0049 | J 004A | K 004B | L 004C | M 004D | № 004E | O 004F |
5_ 80 | P 0050 | Q 0051 | R 0052 | S 0053 | Т 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ 96 | ` 0060 | а 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | г 0067 | h 0068 | я 0069 | j 006A | k 006B | l 006C | м 006D | № 006E | o 006F |
7_ 112 | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | v 0076 | w 0077 | х 0078 | y 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | |
8_ 128 | ||||||||||||||||
9_ 144 | ||||||||||||||||
A_ 160 | NBSP 00A0 | ¡ 00A1 | ¢ 00A2 | £ 00A3 | ¤ 00A4 | ¥ 00A5 | ¦ 00A6 | § 00A7 | ¨ 00A8 | © 00A9 | ª 00AA | « 00AB | ¬ 00AC | SHY 00AD | ® 00AE | ¯ 00AF |
B_ 176 | ° 00B0 | ± 00B1 | ² 00B2 | ³ 00B3 | ´ 00B4 | µ 00B5 | ¶ 00B6 | · 00B7 | ¸ 00B8 | ¹ 00B9 | º 00BA | » 00BB | ¼ 00BC | ½ 00BD | ¾ 00BE | ¿ 00BF |
C_ 192 | À 00C0 | Á 00C1 | Â 00C2 | Ã 00C3 | Ä 00C4 | Å 00C5 | Æ 00C6 | Ç 00C7 | È 00C8 | É 00C9 | Ê 00CA | Ë 00CB | Ì 00CC | Í 00CD | Î 00CE | Ï 00CF |
D_ 208 | Ð 00D0 | Ñ 00D1 | Ò 00D2 | Ó 00D3 | Ô 00D4 | Õ 00D5 | Ö 00D6 | × 00D7 | Ø 00D8 | Ù 00D9 | Ú 00DA | Û 00 дБ | Ü 00DC | Ý 00DD | Þ 00DE | ß 00DF |
E_ 224 | à 00E0 | á 00E1 | â 00E2 | ã 00E3 | ä 00E4 | å 00E5 | æ 00E6 | ç 00E7 | è 00E8 | é 00E9 | ê 00EA | ë 00EB | ì 00EC | í 00ED | î 00EE | • 00EF |
F_ 240 | ð 00F0 | ñ 00F1 | ò 00F2 | ó 00F3 | ô 00F4 | х 00F5 | ö 00F6 | ÷ 00F7 | ø 00F8 | ù 00F9 | ú 00FA | û 00FB | ü 00FC | ý 00FD | þ 00FE | ÿ 00FF |
Письмо Число Пунктуация Символ Другой Неопределенный Не определено в первом выпуске ECMA-94 (1985). [15] Однако в первоначальном проекте находилось в кодовой точке 215 (0xD7), а œ - в кодовой точке 247 (0xF7).
Подобные наборы символов [ править ]
ISO / IEC 8859-15 [ править ]
ISO / IEC 8859-15 был разработан в 1999 году как обновление ISO / IEC 8859-1. Он предоставляет некоторые символы для текста на французском и финском языках, а также знак евро , которые отсутствуют в ISO / IEC 8859-1. Это потребовало удаление некоторых редко используемых символов из ISO / IEC 8859-1, в том числе фракции символов и буквенных свободные диакритиков: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, и ¾
. По иронии судьбы, три из недавно добавленных персонажей ( Œ
, œ
и Ÿ
) уже присутствовали в многонациональном наборе символов DEC 1983 года.(MCS), предшественник ISO / IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь были повторно использованы для других целей, символы пришлось повторно вводить под другими, менее логичными кодовыми точками.
ISO-IR-204, более незначительная модификация, была зарегистрирована в 1998 году, изменив ISO-8859-1 путем замены знака универсальной валюты (¤) на знак евро [19] (такая же замена сделана в ISO-8859-15 ).
Windows-1252 [ править ]
Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO / IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 (от 80 до 9F в шестнадцатеричной системе ). Очень часто неправильно маркировать текст Windows-1252 как находящийся в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданные с помощью «умных кавычек» в текстовых редакторах) были заменены вопросительными знаками или квадратами в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты интерпретируют управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение позже было стандартизовано в HTML5 . [20]
Мак Роман [ править ]
Apple Macintosh компьютер ввел кодировку под названием Mac Roman в 1984 году должно было быть пригодным для западноевропейских настольных издательских . Это надмножество ASCII , в котором есть большинство символов из ISO-8859-1 и все дополнительные символы из Windows-1252, но в совершенно другом расположении. Несколько печатных символов, которые есть в ISO 8859-1, но не в этом наборе, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .
Другое [ править ]
У DOS была кодовая страница 850 , на которой были все печатаемые символы, которые имел ISO-8859-1 (хотя и в совершенно другом порядке), плюс наиболее широко используемые графические символы из кодовой страницы 437 .
Между 1989 [21] и 2015 годами Hewlett-Packard использовала другой расширенный набор ISO-8859-1 на многих своих калькуляторах. Этот проприетарный набор символов иногда также обозначается просто как «ECMA-94». [21]
См. Также [ править ]
- Латинский шрифт в Юникоде
- Юникод
- Универсальный набор символов
- UTF-8
- Кодовые страницы Windows
- ISO / IEC JTC 1 / SC 2
Ссылки [ править ]
- ^ «Стандарт кодирования» . encoding.spec.whatwg.org .
- ^ "Стандарт HTML" . html.spec.whatwg.org .
- ^ «Обзор использования кодировок символов с разбивкой по рейтингам» . w3techs.com . Проверено 12 апреля 2021 .
- ^ «Исторические тенденции использования кодировок символов, февраль 2021 г.» . Проверено 11 февраля 2020 .
- ^ "Источник статистики кодировки символов?" . w3techs.com .
- ^ «Распределение кодировок символов среди веб-сайтов, использующих .de» . w3techs.com . Проверено 12 апреля 2021 .
- ^ «Распределение кодировок символов среди веб-сайтов, использующих немецкий язык» . w3techs.com . Источник 2021-01-24 .
- ^ «Распределение кодировок символов среди веб-сайтов, использующих бретонский язык» . w3techs.com . Проверено 8 декабря 2020 .
- ^ «Идентификаторы кодовой страницы» . Корпорация Microsoft . Проверено 19 декабря 2010 .
- ^ "Кодовая страница 819 информационного документа" . Архивировано из оригинала на 2017-01-16.
- ^ "Информационный документ CCSID 819" . Архивировано из оригинала на 2016-03-27.
- ^ Кодовая страница CPGID 00819 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 00819 (txt) , IBM
- ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Вентилятор, Джессика; Хо, Клэр; Закон, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Осрофт, Тамзин; Такеда, Шиге; Танака, Линус; Тозава, Макото; Трюте, Барри; Цудзимото, Маюми; Ву, Инь; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Ян; Мур, Валари (2002) [1996]. «Приложение A: Данные о локали». Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2), ред.). Корпорация Oracle . Оракул A96529-01. Архивировано (PDF) из оригинала на 2017-02-14 . Проверено 14 февраля 2017 .
- ^ a b Стандартный ECMA-94: 8-битный однобайтовый набор графических символов (PDF) (1-е изд.). Европейская ассоциация производителей компьютеров (ECMA). Март 1985 [1984-12-14]. Архивировано (PDF) из оригинала на 2016-12-02 . Проверено 1 декабря 2016 .
[…] С 1982 года острая необходимость в 8-битном однобайтовом кодированном наборе символов была признана в ECMA, а также в ANSI / X3L2, и эти две группы обменялись многочисленными рабочими документами. В феврале 1984 г. ECMA TC1 представил в ISO / TC97 / SC2 предложение о таком наборе кодированных символов. На своем заседании в апреле 1984 года SC решил представить TC97 предложение о новом элементе работы по этой теме. Технические обсуждения во время и после этой встречи привели TC1 к принятию схемы кодирования, предложенной X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI / ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]
- ^ «Второе издание ECMA-94 (июнь 1986 г.)» (PDF) .
- ^ Жак, Андре (1996). «ISO Latin-1, norm de codage des caractères européens? Trois caractères français en sont отсутствует!» (PDF) . Cahiers GUTenberg (25): 65–77.
- ↑ Малышев, Михаил (10 января 2003 г.). "Регистрация новой кодировки [Amiga-1251]" . ATO-RU (Организация переводов Amiga - русское отделение). Архивировано 5 декабря 2016 года . Проверено 5 декабря 2016 .
- ^ Стандартизация информационных технологий ИТС (1998-09-16). ISO-IR 204: Дополнительный набор для альтернативы Latin-1 с EURO SIGN (PDF) . ITSCJ / IPSJ .
- ^ Ван Кестерен, Энн (27 января 2015). «5.2 Имена и ярлыки» . Стандарт кодирования . WHATWG . Архивировано 4 февраля 2015 года . Проверено 4 февраля 2015 года .
- ^ a b Инфракрасный принтер HP 82240B (1-е изд.). Корваллис, Орегон, США: Hewlett-Packard . Август 1989 г. Номер повторного заказа HP 82240-90014 . Проверено 1 августа 2016 .
Внешние ссылки [ править ]
- ИСО / МЭК 8859-1: 1998
- ISO / IEC FDIS 8859-1: 1998 - 8-битные однобайтовые наборы графических символов, Часть 1: Латинский алфавит № 1 (черновик от 12 февраля 1998 г., опубликован 15 апреля 1998 г.)
- Стандартный ECMA-94: 8-битные однобайтовые графические наборы символов - латинские алфавиты с № 1 по № 4, 2-е издание (июнь 1986 г.)
- ISO-IR 100 Правая часть латинского алфавита № 1 (1 февраля 1986 г.)
- База данных писем
- Чиборра, Роман (1998-12-01). «Суп с алфавитом ISO 8859» . Архивировано 01 декабря 2016 года . Проверено 1 декабря 2016 . [1] [2]