Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Windows-1252 или CP-1252 ( кодовая страница 1252) является однобайтная кодировка символов в латинице , используемой по умолчанию в старых компонентов Microsoft Windows на английском и многих европейских языках , включая испанский, французский и немецкий языки.

Это наиболее часто используемая кодировка однобайтовых символов в мире. По состоянию на март 2021 года 0,3% всех веб-сайтов заявили об использовании Windows-1252, [2] [3], но в то же время 1,4% [2] использовали ISO 8859-1 (в то время как только 0,9% веб-сайтов из первой тысячи [ 4] ), которая по стандартам HTML5 должна считаться такой же кодировкой [5], так что 1,7% веб-сайтов эффективно используют Windows-1252. Страницы, объявленные как US- ASCII , также будут считаться этим набором символов. Неизвестное (но, вероятно, большое) подмножество других страниц использует только часть ASCII UTF-8 или только коды, соответствующие Windows-1252 из их объявленного набора символов, и также может быть подсчитано.

В зависимости от страны использование может быть намного выше, чем в среднем в мире, например, для Германии (включая ISO-8859-1) на 6,6%. [6] [7]

Подробности [ править ]

Эта кодировка символов является подмножеством из ISO 8859-1 в терминах печатаемых символов, но отличается от IANA по ISO-8859-1 с помощью отображаемых символов , а не управляющие символы в 80-9F ( шестнадцатеричный ) диапазоне. Примечательные дополнительные символы включают фигурные кавычки и все печатаемые символы, которые находятся в ISO 8859-15 (в других местах, чем ISO 8859-15). Он известен Windows по номеру кодовой страницы 1252 и по утвержденному IANA названию "windows-1252".

Очень часто неправильно маркировать текст Windows-1252 меткой кодировки ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданные с помощью «умных кавычек» в текстовых редакторах) были заменены вопросительными знаками или квадратами в операционных системах, отличных от Windows, что затрудняло чтение текста. Большинство современных веб-браузеров и клиентов электронной почты обрабатывают кодировку типа мультимедиа ISO-8859-1 как Windows-1252, чтобы учесть такую ​​неправильную маркировку. Теперь это стандартное поведение в спецификации HTML5, которое требует, чтобы документы, рекламируемые как ISO-8859-1, фактически анализировались в кодировке Windows-1252. [5]

Исторически фраза «Кодовая страница ANSI» использовалась в Windows для обозначения кодировок, отличных от DOS; Предполагалось, что большинство из них будут стандартами ANSI, такими как ISO-8859-1 . Несмотря на то, что Windows-1252 была первой и, безусловно, самой популярной кодовой страницей, названной так на языке Microsoft Windows, кодовая страница никогда не была стандартом ANSI. Microsoft объясняет: «Термин ANSI, используемый для обозначения кодовых страниц Windows, является исторической справкой, но в настоящее время это неправильное название, которое продолжает сохраняться в сообществе Windows». [8]

В пакетах LaTeX CP-1252 упоминается как «ответный».

IBM использует кодовую страницу 1252 ( CCSID 1252 и расширенный CCSID 5348 для знака евро ) для Windows-1252. [9] [10] [11]

Это называется WE8MSWIN1252 по Oracle . [12]

Набор символов [ править ]

В следующей таблице показан Windows-1252. Каждый символ отображается с его эквивалентом в Юникоде на основе сопоставления Unicode.org Windows-1252 с «наилучшим соответствием». Десятичные числа (в стиле 0123 ) представляют собой альтернативный код, который можно использовать для их ввода в системах Windows. Отличия от ISO-8859-1 показаны более темным оттенком поверх цветов легенды.

  Письмо  Число  Пунктуация  Символ  Другой  Неопределенный

Согласно информации на сайтах Microsoft и Консорциума Unicode позиции 81, 8D, 8F, 90 и 9D не используются; однако Windows API MultiByteToWideCharсопоставляет их с соответствующими управляющими кодами C1 . Отображение «наилучшего соответствия» также документирует это поведение. [13]

История [ править ]

  • В первой версии кодовой страницы 1252, используемой в Microsoft Windows 1.0, не были определены позиции D7 и F7. Все символы в диапазонах 80–9F также не были определены.
  • Для второй версии, используемой в Microsoft Windows 2.0, были определены позиции D7, F7, 91 и 92.
  • В третьей версии, используемой с Microsoft Windows 3.1, были определены все современные позиции, кроме знака евро и Z с парой символов caron .
  • Последняя версия, указанная выше, дебютировала в Microsoft Windows 98 и была перенесена на более старые версии Windows с обновлением символа евро.

Расширения OS / 2 [ править ]

OS / 2 Операционная система поддерживает кодировку по имени кода страницы 1004 ( CCSID 1004) или «Windows Extended». [18] [19] Это в основном соответствует кодовой странице 1252, за исключением некоторых управляющих символов C0 , замененных диакритическими символами. Отличия от ISO-8859-1 показаны более темным оттенком поверх цветов легенды.

Расширения MSDOS [редко] [ править ]

Существует редко используемая, но полезная расширенная кодовая страница 1252 для графики, где коды от 0x00 до 0x1f позволяют рисовать блоки, как это используется в таких приложениях, как MSDOS Edit и Codeview. Одним из приложений, использующих эту кодовую страницу, была утилита установки / восстановления образа диска корпорации Intel, выпущенная в середине / конце 1995 года. Эти программы были написаны для ее компьютеров с пользовательской тестовой программой P6 (пример для США [24] ). Он использовался исключительно в тогдашнем регионе EMEA (Европа, Ближний Восток и Африка). Со временем программы были изменены, чтобы использовать кодовую страницу 850.

См. Также [ править ]

  • Наборы символов западной латыни (вычисления)
  • Окна-1250

Ссылки [ править ]

  1. ^ Наборы символов , Internet Assigned Numbers Authority (IANA), 2018-12-12
  2. ^ a b «Исторические тенденции использования кодировок символов, февраль 2021 г.» . Проверено 1 марта 2021 .
  3. ^ «Часто задаваемые вопросы» .
  4. ^ «Обзор использования кодировок символов с разбивкой по рейтингам» . w3techs.com . Источник 2021-01-24 .
  5. ^ a b «Кодировка» . WHATWG . 27 января 2015. сек. 5.2 Имена и ярлыки. Архивировано 4 февраля 2015 года . Проверено 4 февраля 2015 года .
  6. ^ «Распределение кодировок символов среди веб-сайтов, использующих .de» . w3techs.com . Проверено 1 марта 2021 .
  7. ^ «Распределение кодировок символов среди веб-сайтов, использующих немецкий язык» . w3techs.com . Проверено 1 марта 2021 .
  8. ^ Wissink, Cathy (5 апреля 2002). «Юникод и Windows XP» (PDF) . Microsoft . п. 1. Архивировано (PDF) из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 года .
  9. ^ "Кодовая страница 1252 информационного документа" . Архивировано из оригинала на 2016-03-03.
  10. ^ "Информационный документ CCSID 1252" . Архивировано из оригинала на 2016-03-26.
  11. ^ "Информационный документ CCSID 5348" . Архивировано из оригинала на 2014-11-29.
  12. ^ «Руководство по установке клиента базы данных» . Oracle . Проверено 14 февраля 2021 года .
  13. ^ a b «Сопоставления Unicode Windows-1252 с 'Best Fit ' » . Юникод . Архивировано 4 февраля 2015 года . Проверено 4 февраля 2015 года .
  14. ^ Кодовая страница CPGID 01252 (pdf) (PDF) , IBM
  15. ^ Кодовая страница CPGID 01252 (txt) , IBM
  16. ^ Международные компоненты для Unicode (ICU), ibm-1252_P100-2000.ucm , 2002-12-03
  17. ^ Международные компоненты для Unicode (ICU), ibm-5348_P100-1997.ucm , 2002-12-03
  18. ^ "Кодовая страница 1004 информационного документа" . Архивировано из оригинала на 2015-06-25.
  19. ^ "Информационный документ CCSID 1004" . Архивировано из оригинала на 2016-03-26.
  20. ^ "Кодовая страница 01004" (PDF) . IBM . Архивировано из оригинального (PDF) 08.07.2015. (версия основана на Windows 3.1, версия Windows-1252)
  21. ^ Кодовая страница CPGID 01004 (pdf) (PDF) , IBM
  22. ^ Кодовая страница CPGID 01004 (txt) , IBM
  23. ^ Borgendale, Кен (2001). «Кодовая страница 1004 - Windows Extended» . Кодовые страницы OS / 2 по номерам . Архивировано 13 мая 2018 года . Проверено 13 мая 2018 . (версия основана на текущей версии Windows-1252)
  24. ^ "Производительность решателей уравнений НАСА в приложениях вычислительной механики" (PDF) . НАСА.

Внешние ссылки [ править ]

  • Таблицы кодов Microsoft для Windows-1252 («Кодовая страница 1252 Windows Latin 1 (ANSI)»)
  • Таблица сопоставления Unicode и определение кодовой страницы с наиболее подходящими сопоставлениями для Windows-1252