В этой статье сравнивается несколько двоичных представлений 8-битных наборов символов для распространенных западноевропейских языков. Эти кодировки были разработаны для представления итальянского , испанского , португальского , французского , немецкого , голландского , английского , датского , шведского , норвежского и исландского языков , в которых используется латинский алфавит , несколько дополнительных букв и буквы с предварительно составленными диакритическими знаками , некоторые знаки препинания и различные символы(включая некоторые греческие буквы). Хотя их называют «западноевропейскими», на многих из этих языков говорят во всем мире. Кроме того, эти наборы символов поддерживают многие другие языки, такие как малайский , суахили и классическая латынь .
Этот материал технически устарел, функционально заменен Unicode . Однако он по-прежнему имеет исторический интерес.
Резюме
В ISO-8859 серия из 8-битных наборов символов кодирует все латинские наборы символов , используемые в Европе , хотя , что одни и те же кодовые точки имеют множество применений , которые вызвали некоторые трудности ( в том числе кракозябров или искаженных символов, а также вопросы связи). Появление Unicode с уникальным кодом для каждого глифа решило эти проблемы.
- ISO / IEC 8859-1 или Latin-1 является наиболее используемым и также определяет первые 256 кодов в Unicode .
- ISO / IEC 8859-15 изменяет ISO-8859-1 для полной поддержки эстонского , финского и французского языков и добавляет знак евро .
- Windows-1252 - это расширенный набор ISO-8859-1, который включает печатные символы из ISO / IEC 8859-15 и популярные знаки препинания, такие как изогнутые кавычки (также известные как умные кавычки , например, в настройках Microsoft Word и подобных программах). Обычно инструменты веб-страницы для Windows используют Windows-1252, но помечают веб-страницу как использующую ISO-8859-1, это было решено в HTML5 , который требует, чтобы страницы, помеченные как ISO-8859-1, должны интерпретироваться как Windows- 1252.
- IBM CP437 , предназначенный только для английского языка , имеет очень мало акцентированных букв (особенно прописных ), но имеет гораздо больше графических символов, чем другие перечисленные здесь кодовые страницы IBM, а также некоторые математические и греческие символы , которые полезны в качестве технических символов .
- IBM CP850 имеет все печатаемые символы, которые есть в ISO-8859-1 (хотя и расположены по-другому), и по-прежнему может иметь достаточно графических символов для создания удобного пользовательского интерфейса в текстовом режиме .
- IBM CP858 отличается от CP850 только одним символом - буква i ( ı ) без точки, которая редко используется за пределами Турции и не имеет эквивалента в верхнем регистре , была заменена знаком валюты евро ( € ). [1]
- IBM CP859 содержит все печатаемые символы, которые есть в ISO / IEC 8859-15 , поэтому, в отличие от CP850, он поддерживает знак евро , эстонский , финский и французский языки .
- Кодовые страницы IBM 037, 500 и 1047 представляют собой кодировки EBCDIC, которые включают все символы ISO-8859-1 .
- Набор римских символов Mac OS (часто называемый MacRoman и известный IANA просто MACINTOSH) содержит большинство, но не все, тех же символов, что и ISO / IEC 8859-1, но в совершенно другом порядке; а также добавляет много технических и математических символов (хотя в нем отсутствует важный знак × ) и больше диакритических знаков . Известно, что старые веб-браузеры Macintosh изменяли несколько символов, которые были в ISO / IEC 8859-1, но не их собственный набор символов Macintosh, при редактировании текста с веб-сайтов . И наоборот, в веб-материалах, подготовленных на более старом Macintosh, многие символы отображались неправильно при чтении в других операционных системах . Macintosh Латинская кодирование , модификация Mac OS Roman , чтобы поддержать ISO / IEC 8859-1, был создан создателями Кермит (протокол) , чтобы решить эту проблему.
История
Ранее семи- бит США Американский стандартный код для обмена информацией ( «ASCII») кодировка имеет символы , достаточные , чтобы должным образом представлять лишь несколько языков , таких как английский, латинский, малайской и суахили. В нем отсутствуют некоторые буквы и буквенно-диакритические комбинации, используемые в других языках латинского алфавита. Однако, поскольку на большинстве компьютерных платформ, поставляемых в США, другого выбора не было, использование ASCII было неизбежным, за исключением тех случаев, когда существовала сильная национальная компьютерная индустрия. Была группа кодировок ISO 646, которая заменила некоторые символы в ASCII локальными символами, но пространство было очень ограниченным, а некоторые замененные символы были довольно распространены в таких вещах, как языки программирования.
Большинство компьютеров внутренне использовали восьмибитные байты, но для связи (которая по своей сути ненадежная) использовалось семь битов данных плюс один бит четности . Со временем стало обычным использовать все восемь бит для данных, создавая пространство для еще 128 символов. Вначале большинство из них были специфичными для системы, но постепенно появились стандарты ISO / IEC 8859 , чтобы обеспечить некоторую кроссплатформенность для обмена информацией.
К концу 20-го века, когда снизились затраты на хранение и память, проблемы, связанные с множественными значениями данного восьмибитного кода (существует только семь кодовых наборов ISO-Latin), перестали быть оправданными. Все основные операционные системы перешли на Unicode в качестве основного внутреннего представления. Однако, поскольку Windows не поддерживала метод кодирования Unicode UTF-8 (предпочитая UTF-16 ), многие приложения по-прежнему ограничивались этими устаревшими наборами символов.
Знак евро
Евро и его знак евро внесли значительное давление , чтобы поддержать знак евро (€), и большинство 8-битные наборов символов должны быть адаптированы в некотором роде.
- Apple с MacRoman и Sun Microsystems с ОС Solaris просто заменила общий знак валюты ( ¤ ). Это вызвало значительные трудности, поскольку организации нашли ему другое применение, например, логотип компании.
- ISO представил дополнительный вариант ISO 8859, ISO 8859-15 , который заменил общий знак валюты знаком евро, а также произвел некоторые другие замены символов буквами с диакритическими знаками. ISO 8859-15 так и не получил широкого распространения.
- В Windows-1252 Microsoft поместила знак евро в пробел ( шестнадцатеричная позиция 80 ) в существующих управляющих кодах C1 .
Все эти проблемы были решены, поскольку операционные системы были обновлены для поддержки Unicode в качестве стандарта, который кодирует знак евро в U + 20AC (десятичное число 8364).
Сравнительная таблица
Кодовые точки от U + 0000 до U + 007F в настоящее время не показаны в этой таблице, поскольку они напрямую отображаются во всех перечисленных здесь наборах символов. Стандарт кодирования ASCII определяет исходную спецификацию для отображения первых 0–127 символов.
Таблица упорядочена по кодовой точке Unicode . Здесь наборы символов обозначаются их именами IANA в верхнем регистре .
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
---|---|---|---|---|---|---|---|
NBSP | U + 00A0 | A0 | A0 | A0 | FF | FF | CA |
¡ | U + 00A1 | A1 | A1 | A1 | ОБЪЯВЛЕНИЕ | ОБЪЯВЛЕНИЕ | C1 |
¢ | U + 00A2 | A2 | A2 | A2 | 9B | BD | A2 |
£ | U + 00A3 | A3 | A3 | A3 | 9C | 9C | A3 |
¤ | U + 00A4 | A4 | A4 | CF | |||
¥ | U + 00A5 | A5 | A5 | A5 | 9D | БЫТЬ | B4 |
¦ | U + 00A6 | A6 | A6 | DD | |||
§ | U + 00A7 | A7 | A7 | A7 | F5 | A4 | |
¨ | U + 00A8 | A8 | A8 | F9 | AC | ||
© | U + 00A9 | A9 | A9 | A9 | B8 | A9 | |
ª | U + 00AA | AA | AA | AA | A6 | A6 | BB |
« | U + 00AB | AB | AB | AB | AE | AE | C7 |
¬ | U + 00AC | AC | AC | AC | AA | AA | C2 |
ЗАСТЕНЧИВЫЙ | U + 00AD | ОБЪЯВЛЕНИЕ | ОБЪЯВЛЕНИЕ | ОБЪЯВЛЕНИЕ | F0 | ||
® | U + 00AE | AE | AE | AE | A9 | A8 | |
¯ | U + 00AF | AF | AF | AF | EE | F8 | |
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
° | U + 00B0 | B0 | B0 | B0 | F8 | F8 | A1 |
± | U + 00B1 | B1 | B1 | B1 | F1 | F1 | B1 |
² | U + 00B2 | Би 2 | Би 2 | Би 2 | FD | FD | |
³ | U + 00B3 | B3 | B3 | B3 | FC | ||
´ | U + 00B4 | B4 | B4 | EF | AB | ||
µ | U + 00B5 | B5 | B5 | B5 | E6 | E6 | B5 |
¶ | U + 00B6 | B6 | B6 | B6 | F4 | A6 | |
· | U + 00B7 | B7 | B7 | B7 | FA | FA | E1 |
¸ | U + 00B8 | B8 | B8 | F7 | FC | ||
¹ | U + 00B9 | B9 | B9 | B9 | FB | ||
º | U + 00BA | BA | BA | BA | A7 | A7 | до н.э |
» | U + 00BB | BB | BB | BB | AF | AF | C8 |
¼ | U + 00BC | до н.э | до н.э | AC | AC | ||
½ | U + 00BD | BD | BD | AB | AB | ||
¾ | U + 00BE | БЫТЬ | БЫТЬ | F3 | |||
¿ | U + 00BF | BF | BF | BF | A8 | A8 | C0 |
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
А | U + 00C0 | C0 | C0 | C0 | B7 | CB | |
Á | U + 00C1 | C1 | C1 | C1 | B5 | E7 | |
 | U + 00C2 | C2 | C2 | C2 | B6 | E5 | |
à | U + 00C3 | C3 | C3 | C3 | C7 | CC | |
Ä | U + 00C4 | C4 | C4 | C4 | 8E | 8E | 80 |
Å | U + 00C5 | C5 | C5 | C5 | 8F | 8F | 81 год |
Æ | U + 00C6 | C6 | C6 | C6 | 92 | 92 | AE |
Ç | U + 00C7 | C7 | C7 | C7 | 80 | 80 | 82 |
È | U + 00C8 | C8 | C8 | C8 | D4 | E9 | |
É | U + 00C9 | C9 | C9 | C9 | 90 | 90 | 83 |
Ê | U + 00CA | CA | CA | CA | D2 | E6 | |
Ë | U + 00CB | CB | CB | CB | D3 | E8 | |
Я | U + 00CC | CC | CC | CC | DE | ED | |
Я | U + 00CD | CD | CD | CD | D6 | EA | |
Я | U + 00CE | CE | CE | CE | D7 | EB | |
Я | U + 00CF | CF | CF | CF | D8 | EC | |
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
Ð | U + 00D0 | D0 | D0 | D0 | D1 | ||
Ñ | U + 00D1 | D1 | D1 | D1 | A5 | A5 | 84 |
Ò | U + 00D2 | D2 | D2 | D2 | E3 | F1 | |
Ó | U + 00D3 | D3 | D3 | D3 | E0 | EE | |
Ô | U + 00D4 | D4 | D4 | D4 | E2 | EF | |
Õ | U + 00D5 | D5 | D5 | D5 | E5 | CD | |
Ö | U + 00D6 | D6 | D6 | D6 | 99 | 99 | 85 |
× | U + 00D7 | D7 | D7 | D7 | 9E | ||
Ø | U + 00D8 | D8 | D8 | D8 | 9D | AF | |
Ù | U + 00D9 | D9 | D9 | D9 | EB | F4 | |
Ú | U + 00DA | DA | DA | DA | E9 | F2 | |
Û | U + 00DB | БД | БД | БД | EA | F3 | |
Ü | U + 00DC | ОКРУГ КОЛУМБИЯ | ОКРУГ КОЛУМБИЯ | ОКРУГ КОЛУМБИЯ | 9А | 9А | 86 |
Ý | U + 00DD | DD | DD | DD | ED | ||
Þ | U + 00DE | DE | DE | DE | E8 | ||
SS | U + 00DF | DF | DF | DF | E1 | E1 | A7 |
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
à | U + 00E0 | E0 | E0 | E0 | 85 | 85 | 88 |
á | U + 00E1 | E1 | E1 | E1 | A0 | A0 | 87 |
â | U + 00E2 | E2 | E2 | E2 | 83 | 83 | 89 |
ã | U + 00E3 | E3 | E3 | E3 | C6 | 8B | |
ä | U + 00E4 | E4 | E4 | E4 | 84 | 84 | 8A |
å | U + 00E5 | E5 | E5 | E5 | 86 | 86 | 8C |
æ | U + 00E6 | E6 | E6 | E6 | 91 | 91 | БЫТЬ |
ç | U + 00E7 | E7 | E7 | E7 | 87 | 87 | 8D |
è | U + 00E8 | E8 | E8 | E8 | 8A | 8A | 8F |
é | U + 00E9 | E9 | E9 | E9 | 82 | 82 | 8E |
ê | U + 00EA | EA | EA | EA | 88 | 88 | 90 |
ë | U + 00EB | EB | EB | EB | 89 | 89 | 91 |
я | U + 00EC | EC | EC | EC | 8D | 8D | 93 |
я | U + 00ED | ED | ED | ED | A1 | A1 | 92 |
я | U + 00EE | EE | EE | EE | 8C | 8C | 94 |
я | U + 00EF | EF | EF | EF | 8B | 8B | 95 |
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
ð | U + 00F0 | F0 | F0 | F0 | D0 | ||
ñ | U + 00F1 | F1 | F1 | F1 | A4 | A4 | 96 |
ò | U + 00F2 | F2 | F2 | F2 | 95 | 95 | 98 |
ó | U + 00F3 | F3 | F3 | F3 | A2 | A2 | 97 |
ô | U + 00F4 | F4 | F4 | F4 | 93 | 93 | 99 |
х | U + 00F5 | F5 | F5 | F5 | E4 | 9B | |
ö | U + 00F6 | F6 | F6 | F6 | 94 | 94 | 9А |
÷ | U + 00F7 | F7 | F7 | F7 | F6 | F6 | D6 |
ø | U + 00F8 | F8 | F8 | F8 | 9B | BF | |
ù | U + 00F9 | F9 | F9 | F9 | 97 | 97 | 9D |
ú | U + 00FA | FA | FA | FA | A3 | A3 | 9C |
û | U + 00FB | FB | FB | FB | 96 | 96 | 9E |
ü | U + 00FC | FC | FC | FC | 81 год | 81 год | 9F |
ý | U + 00FD | FD | FD | FD | EC | ||
þ | U + 00FE | FE | FE | FE | E7 | ||
ÿ | U + 00FF | FF | FF | FF | 98 | 98 | D8 |
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
я | U + 0131 | D5 | F5 | ||||
Œ | U + 0152 | до н.э | 8C | CE | |||
œ | U + 0153 | BD | 9C | CF | |||
Š | U + 0160 | A6 | 8A | ||||
š | U + 0161 | A8 | 9А | ||||
Ÿ | U + 0178 | БЫТЬ | 9F | D9 | |||
Ž | U + 017D | B4 | 8E | ||||
ž | U + 017E | B8 | 9E | ||||
ƒ | U + 0192 | 83 | 9F | 9F | C4 | ||
ˆ | U + 02C6 | 88 | F6 | ||||
ˇ | U + 02C7 | FF | |||||
˘ | U + 02D8 | F9 | |||||
˙ | U + 02D9 | FA | |||||
˚ | U + 02DA | FB | |||||
˛ | U + 02DB | FE | |||||
˜ | U + 02DC | 98 | F7 | ||||
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
˝ | U + 02DD | FD | |||||
Γ | U + 0393 | E2 | |||||
Θ | U + 0398 | E9 | |||||
Σ | U + 03A3 | E4 | |||||
Φ | U + 03A6 | E8 | |||||
Ω | U + 03A9 | EA | BD | ||||
α | U + 03B1 | E0 | |||||
δ | U + 03B4 | EB | |||||
ε | U + 03B5 | EE | |||||
π | U + 03C0 | E3 | B9 | ||||
σ | U + 03C3 | E5 | |||||
τ | U + 03C4 | E7 | |||||
φ | U + 03C6 | ED | |||||
- | U + 2013 | 96 | D0 | ||||
- | U + 2014 | 97 | D1 | ||||
‗ | U + 2017 | F2 | |||||
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
' | U + 2018 | 91 | D4 | ||||
' | U + 2019 | 92 | D5 | ||||
‚ | U + 201A | 82 | E2 | ||||
« | U + 201C | 93 | D2 | ||||
” | U + 201D | 94 | D3 | ||||
„ | U + 201E | 84 | E3 | ||||
† | U + 2020 | 86 | A0 | ||||
‡ | U + 2021 | 87 | E0 | ||||
• | U + 2022 | 95 | A5 | ||||
… | U + 2026 | 85 | C9 | ||||
‰ | U + 2030 | 89 | E4 | ||||
‹ | U + 2039 | 8B | ОКРУГ КОЛУМБИЯ | ||||
› | U + 203A | 9B | DD | ||||
⁄ | U + 2044 | DA | |||||
ⁿ | U + 207F | FC | |||||
₧ | U + 20A7 | 9E | |||||
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
€ | U + 20AC | A4 | 80 | (D5) [nb 1] [2] [3] | БД | ||
™ | U + 2122 | 99 | AA | ||||
∂ | U + 2202 | B6 | |||||
∆ | U + 2206 | C6 | |||||
∏ | U + 220F | B8 | |||||
∑ | U + 2211 | B7 | |||||
∙ | U + 2219 | F9 | |||||
√ | U + 221A | FB | C3 | ||||
∞ | U + 221E | EC | B0 | ||||
∩ | U + 2229 | EF | |||||
∫ | U + 222B | BA | |||||
≈ | U + 2248 | F7 | C5 | ||||
≠ | U + 2260 | ОБЪЯВЛЕНИЕ | |||||
≡ | U + 2261 | F0 | |||||
≤ | U + 2264 | F3 | Би 2 | ||||
≥ | U + 2265 | F2 | B3 | ||||
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
⌐ | U + 2310 | A9 | |||||
⌠ | U + 2320 | F4 | |||||
⌡ | U + 2321 | F5 | |||||
─ | U + 2500 | C4 | C4 | ||||
│ | U + 2502 | B3 | B3 | ||||
┌ | U + 250C | DA | DA | ||||
┐ | U + 2510 | BF | BF | ||||
└ | U + 2514 | C0 | C0 | ||||
┘ | U + 2518 | D9 | D9 | ||||
├ | U + 251C | C3 | C3 | ||||
┤ | U + 2524 | B4 | B4 | ||||
┬ | U + 252C | C2 | C2 | ||||
┴ | U + 2534 | C1 | C1 | ||||
┼ | U + 253C | C5 | C5 | ||||
═ | U + 2550 | CD | CD | ||||
║ | U + 2551 | BA | BA | ||||
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
╒ | U + 2552 | D5 | |||||
╓ | U + 2553 | D6 | |||||
╔ | U + 2554 | C9 | C9 | ||||
╕ | U + 2555 | B8 | |||||
╖ | U + 2556 | B7 | |||||
╗ | U + 2557 | BB | BB | ||||
╘ | U + 2558 | D4 | |||||
╙ | U + 2559 | D3 | |||||
╚ | U + 255A | C8 | C8 | ||||
╛ | U + 255B | БЫТЬ | |||||
╜ | U + 255C | BD | |||||
╝ | U + 255D | до н.э | до н.э | ||||
╞ | U + 255E | C6 | |||||
╟ | U + 255F | C7 | |||||
╠ | U + 2560 | CC | CC | ||||
╡ | U + 2561 | B5 | |||||
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
╢ | U + 2562 | B6 | |||||
╣ | U + 2563 | B9 | B9 | ||||
╤ | U + 2564 | D1 | |||||
╥ | U + 2565 | D2 | |||||
╦ | U + 2566 | CB | CB | ||||
╧ | U + 2567 | CF | |||||
╨ | U + 2568 | D0 | |||||
╩ | U + 2569 | CA | CA | ||||
╪ | U + 256A | D8 | |||||
╫ | U + 256B | D7 | |||||
╬ | U + 256C | CE | CE | ||||
▀ | U + 2580 | DF | DF | ||||
▄ | U + 2584 | ОКРУГ КОЛУМБИЯ | ОКРУГ КОЛУМБИЯ | ||||
█ | U + 2588 | БД | БД | ||||
▌ | U + 258C | DD | |||||
▐ | U + 2590 | DE | |||||
Персонаж | Кодовая точка | ISO-8859-1 | ISO-8859-15 | ОКНА-1252 | IBM437 | IBM850 | МАКИНТОШ |
░ | U + 2591 | B0 | B0 | ||||
▒ | U + 2592 | B1 | B1 | ||||
▓ | U + 2593 | Би 2 | Би 2 | ||||
■ | U + 25A0 | FE | FE | ||||
◊ | U + 25CA | D7 | |||||
f | U + FB01 | DE | |||||
fl | U + FB02 | DF |
- Сопоставления кодовых страниц IBM взяты с сайта Unicode, предоставленного Microsoft . Обратитесь к документу Консорциума Unicode о различиях между отображениями IBM и Microsoft для этих кодовых страниц.
- IBM437 и IBM850 определили печатаемые символы для диапазонов управляющих кодов. Хотя их нельзя было использовать при печати текста через DOS , так как они будут захвачены до достижения экрана, они могут использоваться приложениями, которые напрямую используют память экрана.
- Macintosh имеет логотип Apple ⟨⟩ по адресу 0xF0 и переводит его в U + F8FF в области частного использования для Unicode.
Заметки
- ^ IBM PC DOS 2000 , выпущенный в 1998 году, изменил свое определение кодовой страницы 850 на то, что они назвали модифицированной кодовой страницей 850, теперь включая знак евро в кодовой точке 213 вместо добавления поддержки новой кодовой страницы 858 . Причина этого могла быть связана с существующими ограничениями в реализации логики переключениякодовых страниц в MS-DOS / PC DOS , которые ограничивали файлы .CPI размером 64 КБ или максимум шестью кодовыми страницами, ограничение, которое было обойдено в некоторые OEM-версии MS-DOS в Windows NT , а также отсутствуют в DR-DOS . Кроме того, синтаксический анализатор в MS-DOS / PC DOS ограничивает количество возможных записей страны / кодовой страницы вфайлах COUNTRY.SYS максимум до 146 или 438, а в DR-DOS такое ограничение отсутствует. Таким образом, добавление поддержки кодовой страницы 858 могло означать одновременное удаление другой (например, кодовой страницы 850), что могло не быть жизнеспособным решением в то время, учитывая, что некоторые приложения были жестко запрограммированы на использование кодовой страницы 850.
Рекомендации
- ^ "00858" . Кодовые страницы по CPGID . IBM . Архивировано 6 июня 2016 года . Проверено 6 июня 2016 .
- ^ Пол, Матиас Р. (15 августа 2001 г.). «Изменение кодовых страниц в FreeDOS» (Техническая спецификация на основе сообщения fd-dev [1] ). Архивировано из оригинала на 2016-06-06 . Проверено 6 июня 2016 .
Новый официальный идентификатор для многоязычной «кодовой страницы 850 с EURO SIGN» - 858, а не 850. IBM перейдет на использование 858 вместо своего варианта 850 в будущих выпусках своих продуктов. [...] Я могу только догадываться , почему они не добавили 858 к их EGAx.CPI , COUNTRY.SYS и KEYBOARD.SYS файлов в PC DOS 2000 . Многие сторонние приложения разработаны для работы с 850 и не знали о 858 на момент выпуска PC DOS 2000, так что это проще для всех, но, к сожалению, несовместимо. […] Как объяснялось выше, COUNTRY.SYS и KEYBOARD.SYS содержат только две записи кодовой страницы для данной страны в западных выпусках DOS. (В выпусках на арабском языке и иврите может быть до 8 кодовых страниц для одной страны, теоретически нет ограничений ниже диапазона разрешенных кодовых страниц 1..65534). […] Проблема в том, что удаление поддержки 850 могло вызвать проблемы совместимости с приложениями, которые жестко запрограммированы на использование 850. Добавление 858 в качестве третьего варианта ко всем файлам значительно увеличило бы размеры файлов и таблиц. Анализатор файлов COUNTRY.SYS в MS-DOS / PC DOS IO.SYS / IBMBIO.COM выделяет блокнот размером 6 Кбайт (для DOS 6) для загрузки всей информации. Это позволяет принять не более 438 записей в файле COUNTRY.SYS, в противном случае вы получите сообщение «COUNTRY.SYS too large.». NLSFUNC СА не имеют такого ограничения, а файл парсеры в DR-DOS (ядра и NLSFUNC) также не знают такого ограничения. В более старых выпусках MS-DOS / PC DOS даже был буфер размером 2 Кбайта для максимум 146 записей.
- ^ Пол, Матиас Р. (27 августа 2001 г.). «Изменение кодовых страниц в FreeDOS (продолжение)» . Архивировано 01.10.2014 . Проверено 8 мая 2013 .
[…] Можно также без проблем создавать собственные файлы .CPI в традиционном стиле FONT, но вы можете сохранить только до […] шести кодовых страниц в таком файле, если он должен использоваться MS-DOS / PC DOS (некоторые OEM issues, а NT может обрабатывать файлы размером более 64 КБ, но MS-DOS / PC DOS не может).