Моджибаке

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: "Mojibake" - новости · газеты · книги · ученый · JSTOR ( октябрь 2020 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

UTF-8 закодирована Японской статьи в Википедии для кракозябров , как показан , если интерпретировать как Windows-1252 кодировки

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, квадраты или другие символы .

Моджибаке (文字化け; IPA: [mod͡ʑibake] ) - это искаженный текст, который является результатом декодирования текста с использованием непреднамеренной кодировки символов . ^[1] Результатом является систематическая замена символов на совершенно не связанные, часто из другой системы письма .

Это отображение может включать общий символ замены (« ») в местах, где двоичное представление считается недопустимым. Замена также может включать в себя несколько последовательных символов, если смотреть в одном кодировании, когда один и тот же двоичный код составляет один символ в другом кодировании. Это происходит либо из-за разницы в кодировке постоянной длины (как в азиатских 16-битных кодировках и европейских 8-битных кодировках), либо из-за использования кодировок переменной длины (особенно UTF-8 и UTF-16 ).

Неудачный рендеринг глифов из-за отсутствия шрифтов или глифов в шрифте - это другая проблема, которую не следует путать с моджибаке. Симптомы этой неудачной визуализации включают блоки с кодовой точкой, отображаемой в шестнадцатеричном формате, или с использованием универсального символа замены. Важно отметить, что эти замены действительны и являются результатом правильной обработки ошибок программным обеспечением.

Этимология [ править ]

Кракозябры означает «преобразование символов» в японском языке . Слово состоит из文字(moji, IPA: [mod͡ʑi] ), «характер» и化け(bake, IPA: [bäke̞] , произносится как «bah-keh»), «преобразовать».

Причины [ править ]

Для правильного воспроизведения исходного текста, который был закодирован, необходимо сохранить соответствие между закодированными данными и понятием их кодировки. Поскольку моджибаке является примером несоответствия между ними, это может быть достигнуто путем манипулирования самими данными или просто перемаркировкой их.

Моджибаке часто встречается с текстовыми данными, которые имеют неправильную кодировку; он может даже не быть помечен, а перемещаться между компьютерами с разными кодировками по умолчанию. Основным источником проблем являются протоколы связи, которые полагаются на настройки на каждом компьютере, а не отправляют или хранят метаданные вместе с данными.

Различия в настройках по умолчанию на разных компьютерах частично объясняются разным развертыванием Unicode в семействах операционных систем , а частично - специализацией устаревших кодировок для разных систем письма человеческих языков. В то время как дистрибутивы Linux в основном перешли на UTF-8 в 2004 году ^[2] Microsoft Windows по- прежнему использует кодовые страницы для текстовых файлов, которые различаются между языками. ^{[ сомнительно - обсудить ]}

Для некоторых систем письма , например японских , исторически использовалось несколько кодировок, из-за чего пользователи относительно часто видели моджибаке. В качестве примера на японском языке слово mojibake «文字化け», хранящееся как EUC-JP, может неправильно отображаться как «ﾊｸｻｽ､ｱ», «ﾊｸｻ嵂､ｱ» ( MS-932 ) или «ﾊｸｻ郾ｽ､. "( Shift JIS-2004 ). Тот же текст, сохраненный как UTF-8 , отображается как «譁蟄怜喧縺 », если интерпретируется как Shift JIS. Это еще больше усугубляется, если задействованы другие языковые стандарты: тот же текст UTF-8 отображается как «– ‡ å — åŒ – ã ??» в программном обеспечении, которое предполагает, что текст находится в Windows-1252 или ISO-8859-1кодировки, обычно обозначаемые как Western, или (например) как «鏂囧瓧鍖栥亼», если интерпретируются как локаль GBK (материковый Китай).

Пример моджибаке
Первоначальный текст	文		字		化		け
Необработанные байты кодировки EUC-JP	CA	B8	BB	FA	Би 2	BD	A4	B1
Байты интерпретируются как кодировка Shift-JIS	ﾊ	ｸ	ｻ	郾		ｽ	､	ｱ
Байты интерпретируются как кодировка ISO-8859-1	Ê	¸	»	ú	²	½	¤	±
Байты интерпретируются как кодировка GBK	矢		机		步		け

Уточнение [ править ]

Если кодировка не указана, программное обеспечение может решить ее другими способами. В зависимости от типа программного обеспечения типичным решением является эвристика определения конфигурации или кодировки . Оба они склонны к неверным предсказаниям в не столь редких сценариях.

На кодировку текстовых файлов влияет настройка локали , которая зависит от языка пользователя, марки операционной системы и, возможно, других условий. Следовательно, предполагаемая кодировка систематически неверна для файлов, которые поступают с компьютера с другими настройками или даже из другого локализованного программного обеспечения в той же системе. Для Unicode одним из решений является использование метки порядка байтов , но для исходного кода и другого машиночитаемого текста многие синтаксические анализаторы не допускают этого. Другой - сохранение кодировки как метаданных в файловой системе. Файловые системы, поддерживающие расширенные атрибуты файлов, могут хранить это как user.charset. ^[3] Это также требует поддержки со стороны программного обеспечения, которое хочет использовать это преимущество, но не мешает другому программному обеспечению.

Хотя некоторые кодировки легко обнаружить, в частности UTF-8, многие из них трудно различить (см. Определение кодировки ). Веб - браузер может не быть в состоянии отличить страницу , закодированной в EUC-JP , а другой в Shift-JIS , если схема кодирования не назначается явно с помощью HTTP заголовки отправляется вместе с документами, или с помощью HTML - документа мета - теги , которые используются для замените отсутствующие заголовки HTTP, если сервер не может быть настроен для отправки правильных заголовков HTTP; см. кодировки символов в HTML .

Неправильная спецификация [ править ]

Моджибаке также возникает, когда кодировка указана неправильно. Это часто происходит между похожими кодировками. Например, почтовый клиент Eudora для Windows, как известно, отправлял электронные письма с пометкой ISO-8859-1 , которые на самом деле были Windows-1252 . ^[4] Версия Eudora для Mac OS не проявляла такого поведения. Windows-1252 содержит дополнительные печатаемые символы в диапазоне C1 (наиболее часто встречающиеся - это типографически правильные кавычки и тире ), которые не отображались должным образом в программном обеспечении, соответствующем стандарту ISO; это особенно повлияло на программное обеспечение, работающее под другими операционными системами, такими какUnix .

Человеческое невежество [ править ]

Из кодировок, которые все еще используются, многие частично совместимы друг с другом, при этом ASCII является преобладающим общим подмножеством. Это создает почву для человеческого невежества:

Совместимость может быть обманчивым свойством, так как смешивание двух кодировок не влияет на общее подмножество символов (см. Проблемы в разных системах письма ).
Люди думают, что используют ASCII, и склонны маркировать любой надмножество ASCII, которое они фактически используют, как «ASCII». Может быть , для упрощения, но даже в научной литературе, слово «ASCII» можно найти в качестве примера чего - то не совместимого с Unicode, где , очевидно , «ASCII» является Windows-1252 и «Unicode» является UTF-8. ^[1] Обратите внимание , что UTF-8 является обратно совместимым с ASCII.

Превышение спецификации [ править ]

Когда существуют уровни протоколов, каждый из которых пытается указать кодировку на основе различной информации, наименьшая определенная информация может ввести получателя в заблуждение. Например, рассмотрим веб-сервер, обслуживающий статический HTML-файл через HTTP. Набор символов может быть передан клиенту тремя способами:

в заголовке HTTP. Эта информация может быть основана на конфигурации сервера (например, при обслуживании файла с диска) или контролироваться приложением, запущенным на сервере (для динамических веб-сайтов).
в файле в виде метатега HTML ( http-equivили charset) или encodingатрибута объявления XML . Это кодировка, в которой автор хотел сохранить конкретный файл.
в файле как отметка порядка байтов . Это кодировка, в которой авторский редактор фактически сохранил ее. Если не произошло случайного преобразования кодировки (путем открытия ее в одной кодировке и сохранения в другой), это будет правильно. Однако он доступен только в кодировках Unicode, таких как UTF-8 или UTF-16.

Отсутствие аппаратной или программной поддержки [ править ]

Более старое оборудование, как правило, предназначено для поддержки только одного набора символов, и этот набор символов обычно нельзя изменить. Таблица символов, содержащаяся в микропрограмме дисплея, будет локализована, чтобы содержать символы для страны, в которой устройство будет продаваться, и обычно таблица отличается от страны к стране. Таким образом, эти системы потенциально будут отображать моджибаке при загрузке текста, созданного в системе из другой страны. Точно так же многие ранние операционные системы не поддерживают несколько форматов кодирования и, таким образом, в конечном итоге будут отображать моджибаке, если они созданы для отображения нестандартного текста - ранние версии Microsoft Windows и Palm OS. например, локализованы для каждой страны и будут поддерживать только стандарты кодирования, соответствующие той стране, в которой будет продаваться локализованная версия, и будут отображать моджибаке, если файл, содержащий текст в формате кодирования, отличном от версии, в которой ОС предназначен для поддержки открыт.

Резолюции [ править ]

Приложения, использующие UTF-8 в качестве кодировки по умолчанию, могут достичь большей степени совместимости из-за его широкого использования и обратной совместимости с US-ASCII . UTF-8 также может напрямую распознаваться простым алгоритмом, поэтому хорошо написанное программное обеспечение должно избегать смешивания UTF-8 с другими кодировками.

Сложность разрешения экземпляра моджибаке зависит от приложения, в котором он встречается, и его причин. Два наиболее распространенных приложения, в которых может встречаться моджибаке, - это веб-браузеры и текстовые редакторы . Современные браузеры и текстовые процессоры часто поддерживают широкий спектр кодировок символов. Браузеры часто позволяют пользователю изменять настройки кодировки своего движка рендеринга на лету, в то время как текстовые процессоры позволяют пользователю выбирать соответствующую кодировку при открытии файла. Пользователям может потребоваться метод проб и ошибок, чтобы найти правильную кодировку.

Проблема усложняется, когда она возникает в приложении, которое обычно не поддерживает широкий диапазон кодировки символов, например, в компьютерных играх, не поддерживающих Unicode. В этом случае пользователь должен изменить настройки кодировки операционной системы в соответствии с настройками игры. Однако изменение общесистемных настроек кодирования также может вызвать Mojibake в уже существующих приложениях. В Windows XP или более поздних версиях пользователь также может использовать Microsoft AppLocale - приложение, которое позволяет изменять настройки локали для каждого приложения. Даже в этом случае изменение настроек кодировки операционной системы невозможно в более ранних операционных системах, таких как Windows 98.; чтобы решить эту проблему в более ранних операционных системах, пользователю пришлось бы использовать сторонние приложения для визуализации шрифтов.

Проблемы в разных системах письма [ править ]

Английский [ править ]

Моджибаке в английских текстах обычно используется в знаках препинания, таких как длинное тире (-), короткое тире (-) и фигурные кавычки («,», ','), но редко в тексте символов, поскольку большинство кодировок согласуются с ASCII в кодировка английского алфавита . Например, знак фунта «£» будет отображаться как «£», если он был закодирован отправителем как UTF-8, но интерпретирован получателем как CP1252 или ISO 8859-1 . Если итерация выполняется с использованием CP1252, это может привести к появлению «‚Â £», «â € šÃ‚Â £», «'Ã ¢ â‚¬Å¡Ãƒâ € šÃ‚Â £» и т. Д.

Некоторые компьютеры в старые времена имели кодировку, зависящую от производителя, что вызывало несоответствие также и для английского текста. В 8-битных компьютерах марки Commodore использовалось кодирование PETSCII , особенно примечательное инвертированием верхнего и нижнего регистра по сравнению со стандартным ASCII . Принтеры PETSCII отлично работали на других компьютерах того времени, но регистр всех букв был перевернут. В мэйнфреймах IBM используется кодировка EBCDIC, которая вообще не соответствует ASCII.

Другие западноевропейские языки [ править ]

Алфавиты северных германских языков , каталонского , финского , немецкого , французского , португальского и испанского языков являются расширениями латинского алфавита . Дополнительные символы, как правило, повреждаются, что делает текст нечитаемым с моджибаке:

å , ä и ö на финском и шведском языках
à, ç, è, é, ï, í, ò, ó, ú, ü на каталонском
æ , ø и å на норвежском и датском языках
á, é, ó, ĳ , è, ë, ï на голландском языке
ä, ö, ü и ß на немецком языке
á, ð , í , ó , ú , ý , æ и ø на Фарерских островах
á, ð, é , í, ó, ú, ý, þ , æ и ö на исландском
à, â, ç, è, é, ë, ê, ï, î, ô, ù, û, ü, ÿ, æ, œ на французском
à, è, é, ì, ò, ù по итальянски
á, é, í, ñ , ó, ú, ü, ¡, ¿ на испанском языке
à, á, â, ã, ç, é, ê, í, ó, ô, õ, ú на португальском языке (ü больше не используется)
á, é, í, ó, ú на ирландском
à, è, ì, ò, ù в шотландском гэльском
£ в британском английском

... и их аналоги в верхнем регистре, если применимо.

Это языки, для которых использовался набор символов ISO-8859-1 (также известный как Latin 1 или Western ). Однако ISO-8859-1 устарел двумя конкурирующими стандартами: обратно совместимой Windows-1252 и слегка измененным ISO-8859-15 . Оба добавляют знак евро € и французский œ, но в противном случае любое смешение этих трех наборов символов не приведет к созданию моджибаке на этих языках. Кроме того, всегда безопасно интерпретировать ISO-8859-1 как Windows-1252 и довольно безопасно интерпретировать его как ISO-8859-15, в частности, в отношении знака евро, который заменяет редко используемый знак валюты (¤) . Однако с появлением UTF-8, mojibake стал более распространенным явлением в определенных сценариях, например, при обмене текстовыми файлами между компьютерами UNIX и Windows , из-за несовместимости UTF-8 с Latin-1 и Windows-1252. Но UTF-8 имеет возможность напрямую распознаваться простым алгоритмом, поэтому хорошо написанное программное обеспечение должно избегать смешивания UTF-8 с другими кодировками, поэтому это было наиболее распространено, когда у многих было программное обеспечение, не поддерживающее UTF-8. Большинство этих языков поддерживалось CP437 по умолчанию для MS-DOS и другими машинными кодировками по умолчанию, кроме ASCII, поэтому проблемы при покупке версии операционной системы были менее распространены. Однако Windows и MS-DOS несовместимы.

В шведском, норвежском, датском и немецком языках гласные редко повторяются, и обычно это становится очевидным, когда один символ искажается, например, вторая буква в «kÃ⁠¤rlek» ( kärlek , «любовь»). Таким образом, даже если читателю придется угадывать между å, ä и ö, почти все тексты остаются разборчивыми. С другой стороны, финский текст содержит повторяющиеся гласные в таких словах, как hääyö (« первая брачная ночь»), из-за чего текст иногда может быть очень трудно читать (например, hääyö отображается как «hÃ⁠¤Ã⁠¤yÃ⁠¶»). В исландском и фарерском языках соответственно десять и восемь, возможно, несовместимых символов, что, таким образом, может затруднить угадывание искаженных символов; Исландские слова, такие как þjóðlö («выдающееся гостеприимство») становится почти совершенно непонятным, когда переводится как «Ã¾jÃ³Ã ° lÃ¶Ã °».

По-немецки Buchstabensalat («салат из букв») является обычным термином для этого явления, а по-испански - deformación (буквально деформация).

Некоторые пользователи транслитерируют свое письмо при использовании компьютера, либо опуская проблемные диакритические знаки, либо используя замену орграфа (å → aa, ä / æ → ae, ö / ø → oe, ü → ue и т. Д.). Таким образом, автор может написать «ueber» вместо «über», что является стандартной практикой в немецком языке, когда умляуты недоступны. Последняя практика кажется более терпимой в сфере немецкого языка, чем в странах Северной Европы . Например, в норвежском языке диграфы связаны с архаичным датским языком и могут использоваться в шутку. Однако орграфы полезны для общения с другими частями мира. Например, у норвежского футболиста Оле Гуннара Сольскьера на спине было написано «СОЛЬСКЬЯР», когда он играл за « Манчестер Юнайтед»..

Артефакт UTF-8, неверно интерпретированный как ISO-8859-1 , «Ring meg nÃ ¥» (« Ring meg nå »), был замечен в SMS-мошенничестве в Норвегии в июне 2014 г. ^[5]

Примеры
Кодировка файла	Настройка в браузере	Результат
Шведский пример:		Smörgås ( открытый сэндвич )
MS-DOS 437	ISO 8859-1	Sm "rg † s
ISO 8859-1	Мак Роман	SmˆrgÂs
UTF-8	ISO 8859-1	SmÃ¶rgÃ ¥ s
UTF-8	Мак Роман	Sm√∂rg√ • s

Центральная и Восточная Европа [ править ]

Пользователи языков Центральной и Восточной Европы также могут быть затронуты. Поскольку большинство компьютеров не были подключены к какой-либо сети в период с середины до конца 1980-х годов, для каждого языка существовали разные кодировки символов с диакритическими символами (см. ISO / IEC 8859 и KOI-8 ), часто также различающиеся в зависимости от операционной системы.

Венгерский [ править ]

Венгерский еще один затрагиваемой язык, который использует 26 основных английских символов, плюс акцентированные формы A, E, I, O, U, ö, ü (все присутствующие в наборе символов Latin-1), плюс два символа ö и ű, которых нет в Latin-1. Эти два символа могут быть правильно закодированы в Latin-2, Windows-1250 и Unicode. До того, как Unicode стал обычным явлением в почтовых клиентах, в электронных письмах, содержащих венгерский текст, буквы ő и ű часто были повреждены, иногда до неузнаваемости. Обычно на электронное письмо, которое оказывается нечитаемым (см. Примеры ниже), часто отвечают искажением символов (именуемым «betűszemét», что означает «мусор в письмах») фразой «Árvíztűrő tükörfúrógép», бессмысленной фразой (буквально «Потоп стойкий зеркально-сверлильный станок »), содержащий все акцентированные символы, используемые в венгерском языке.

Примеры [ править ]

Исходная кодировка	Целевая кодировка	Результат	Вхождение
Венгерский пример		ÁRVÍZTŰRŐ TÜKÖRFÚRÓGÉP árvíztűrő tükörfúrógép
CP 852	CP 437	╡ RV ╓ ZT δ R è TÜK Ö RF Θ R α G É P árvízt √ r ï tükörfúrógép	Это было очень распространено в DOS- era, когда текст кодировался среднеевропейской кодировкой CP 852 ; однако операционная система , программное обеспечение или принтер использовали кодировку CP 437 по умолчанию . Обратите внимание, что в основном правильными являются строчные буквы, за исключением ő (ï) и ű (√). Ü / ü правильно, потому что CP 852 был сделан совместимым с немецким языком. В настоящее время встречается в основном на печатных рецептах и чеках.
CWI-2	CP 437	Å RV ì ZT ÿ R º TÜKÖRF ù R ò GÉP árvízt û r ô tükörfúrógép	КРИ-2 кодирования был разработан таким образом , что текст остается достаточно хорошо читаемым , даже если дисплей или принтер по умолчанию использует в CP 437 кодирования. Эта кодировка широко использовалась в 1980-х и начале 1990-х годов, но в настоящее время полностью устарела.
Окна-1250	Окна-1252	ÁRVÍZT Û R Õ TÜKÖRFÚRÓGÉP árvízt û r õ tükörfúrógép	По умолчанию используется западная кодировка Windows вместо центральноевропейской. Только-Ő (õ-Õ) и ű-Ű (û-Û) неверны, но текст полностью читаем. На сегодняшний день это самая распространенная ошибка; из-за незнания это часто встречается на веб-страницах или даже в печатных СМИ.
CP 852	Окна-1250	µ RV Ö ZT ë R Š T š K ™ RF é R ŕ G ?? Р с.в. ztűr < т ?? к " рф Ł р ˘ г ‚ п	Среднеевропейская кодировка Windows используется вместо кодировки DOS. Использование правильно.
Окна-1250	CP 852	┴ Р.В. ═ ZT █ R BEST банками Т ▄ К Н РФ ┌ R Ë G ╔ Р бета с.в. Ý ztűr § т диам к ÷ ВЧ ˙ г г Ú р	Кодировка DOS из Центральной Европы используется вместо кодировки Windows. Использование правильно.
Цитата для печати	7-битный ASCII	= C1 RV = CD ZT = DB R = D5 T = DC K = D6 RF = DA R = D3 G = C9 P = E1 rv = ED zt = FB r = F5 t = FC k = F6 rf = FA r = F3 g = E9 p	В основном вызвано неправильно настроенными почтовыми серверами, но может также появляться в SMS- сообщениях на некоторых мобильных телефонах.
UTF-8	Окна-1252	Ã ?? RV Ã ?? ZT А ° Р Å ?? T Ãœ K Ã– RF Ãš R Ã " G Ã ‰ P Ã¡ rv Ã zt Å ± r Å ' t Ã¼ k Ã¶ rf Ãº r Ã³ g Ã © p	В основном это вызвано неправильно настроенными веб-службами или клиентами веб-почты, которые не были протестированы для международного использования (поскольку проблема остается скрытой для текстов на английском языке). В этом случае фактический (часто генерируемый) контент находится в UTF-8 ; однако он не настраивается в заголовках HTML , поэтому механизм визуализации отображает его в западной кодировке по умолчанию.

Примечание: символы красного цвета неверны.

Польский [ править ]

До создания ISO 8859-2 в 1987 году, пользователи различных вычислительных платформ использовали свои собственные кодировки символов , таких как AmigaPL на Amiga, Atari клуба на Atari ST и Мазовии, IBM CP852 , Мазовии и Windows , CP1250 на IBM PC. Польские компании, продававшие ранние компьютеры с DOS, создали свои собственные несовместимые способы кодирования польских символов и просто перепрограммировали EPROM видеокарт (обычно CGA , EGA или Hercules ) для предоставления аппаратных кодовых страниц. с необходимыми глифами для польского - произвольно размещенными без ссылки на то, где их разместили другие продавцы компьютеров.

Ситуация начала улучшаться, когда под давлением академических кругов и групп пользователей ISO 8859-2 стал «стандартом Интернета» с ограниченной поддержкой программного обеспечения доминирующих производителей (сегодня в значительной степени замененного на Unicode). Из-за многочисленных проблем, вызванных разнообразием кодировок, даже сегодня некоторые пользователи склонны называть польские диакритические символы krzaczki ([kshach-kih], букв. «Кусты»).

Русский и другие кириллические алфавиты [ редактировать ]

Моджибаке, вызванный названием песни на кириллице ( Моя страна ) на автомобильной аудиосистеме

Моджибаке в просторечии можно назвать кракозябры ( кракозя́бры [krɐkɐˈzʲæbrɪ̈] ) на русском языке , который был и остается сложным из-за нескольких систем кодирования кириллицы .^[6] Советский Союз иначале России Федерация разработали K кодировок ( Kod Obmena Informatsiey , Код Обмен Информация , что переводится как «код для обмена информации»). Это началось с 7-битного KOI7 , состоящего только из кириллицы , на основе ASCII, но с заменой латинских и некоторых других символов буквами кириллицы. Затем появилась 8-битнаякодировка KOI8, которая является расширением ASCII.который кодирует кириллические буквы только старшими октетами, соответствующими 7-битным кодам из KOI7. Именно по этой причине текст KOI8, даже русский, остается частично читаемым после удаления восьмого бита, что считалось большим преимуществом в эпоху неосведомленных систем электронной почты 8BITMIME . Например, слова « Школа русского языка » школы русского языка , закодированные в KOI8, а затем прошедшие процесс удаления старших битов, в итоге отображаются как «[КОЛА РУССКОГО qZYKA». Со временем KOI8 приобрел разные оттенки для русского и болгарского ( KOI8-R ), украинского ( KOI8-U ), белорусского (KOI8-RU) и даже таджикского (KOI8-T).

Между тем, на Западе кодовая страница 866 поддерживала украинский и белорусский, а также русский / болгарский языки в MS-DOS . Для Microsoft Windows , Code Page 1251 добавлена поддержка для сербского и других славянских вариантов кириллицы .

Совсем недавно кодировка Unicode включает кодовые точки практически для всех символов всех языков мира, включая все символы кириллицы.

До появления Unicode необходимо было согласовывать кодировку текста со шрифтом, используя ту же систему кодирования. Несоблюдение этого правила приводило к нечитаемой тарабарщине , конкретный вид которой зависел от точной комбинации кодировки текста и кодировки шрифта. Например, попытка просмотра кириллического текста, отличного от Unicode, с использованием шрифта, ограниченного латинским алфавитом, или с использованием кодировки по умолчанию («западная») обычно приводит к тексту, который почти полностью состоит из гласных с диакритическими знаками. (КОИ8 " Библиотека " ( библиотека, библиотека) становится "âÉÂÌÉÏÔÅËÁ".) Использование кодовой страницы 1251 Windows для просмотра текста в KOI8 или наоборот приводит к искаженному тексту, который состоит в основном из заглавных букв (KOI8 и кодовая страница 1251 имеют один и тот же регион ASCII, но в KOI8 в этом регионе есть прописные буквы. где кодовая страница 1251 имеет нижний регистр, и наоборот). В общем, кириллица - это признак использования неправильного кириллического шрифта. В первые годы существования российского сектора всемирной паутины как KOI8, так и кодовая страница 1251 были обычными. По состоянию на 2017 год все еще можно встретить HTML-страницы в кодовой странице 1251 и, реже, в кодировках KOI8, а также в Unicode. (Примерно 1,7% всех веб-страниц в мире, включая все языки, закодированы в кодовой странице 1251. ^[7]) Хотя стандарт HTML включает возможность указывать кодировку для любой данной веб-страницы в ее источнике ^[8], этим иногда пренебрегают, заставляя пользователя переключать кодировки в браузере вручную.

По- болгарски моджибаке часто называют маймуница ( маймуница ), что означает «обезьяний [алфавит]». По- сербски это называется ubre ( ђубре ), что означает « мусор ». В отличие от бывшего СССР, южные славяне никогда не использовали что-то вроде KOI8, и Code Page 1251 была доминирующей кодировкой кириллицы до Unicode. Поэтому в этих языках было меньше проблем с несовместимостью кодировок, чем в русском. В 1980-х болгарские компьютеры использовали собственную кодировку MIK , внешне похожую (хотя и несовместимую) с CP866.

Пример
Русский пример:		Кракозябры ( кракозябры , мусорные персонажи)
Кодировка файла	Настройка в браузере	Результат
MS-DOS 855	ISO 8859-1	Á ÆÖóÞ ¢ áñ
КОИ8-Р	ISO 8859-1	ëÒÁËÏÚÑÂÒÙ
UTF-8	КОИ8-Р	п я─п╟п╨п╬п╥я▐п╠я─я▀

Югославские языки [ править ]

Хорватский , боснийский , сербский (варианты югославского сербо-хорватского языка ) и словенский добавляют к основному латинскому алфавиту буквы š, đ, č, ć, ž и их заглавные аналоги Š, Đ, Č, Ć, Ž ( только č / Č, š / Š и ž / Ž на словенском языке; официально, хотя при необходимости используются другие, в основном также и в иностранных названиях). Все эти буквы определены в Latin-2 и Windows-1250 , в то время как только некоторые (š, Š, ž, Ž, Đ) существуют в обычной операционной системе Windows-1252 по умолчанию и существуют из-за некоторых других языков.

Хотя моджибаке может встречаться с любым из этих символов, буквы, отсутствующие в Windows-1252, гораздо более подвержены ошибкам. Таким образом, даже в наши дни «šđčćž ŠĐČĆŽ» часто отображается как «šðèæž ŠÐÈÆŽ», хотя ð, è, æ, È, Æ никогда не используются в славянских языках.

При ограничении базовым ASCII (например, большинство имен пользователей) распространенными заменами являются: š → s, đ → dj, č → c, ć → c, ž → z (заглавные буквы образуются аналогично, с Đ → Dj или Đ → DJ в зависимости от регистра). Все эти замены вносят неоднозначность, поэтому восстановление оригинала по такой форме обычно выполняется вручную, если это необходимо.

Windows-1252 кодирование является важным , поскольку английские версии операционной системы Windows , наиболее распространены, не локализован теми. ^{[ необходима цитата ]} Причины этого включают относительно небольшой и фрагментированный рынок, повышение цены на высококачественную локализацию, высокую степень пиратства программного обеспечения (в свою очередь, вызванное высокой ценой программного обеспечения по сравнению с доходом), что препятствует усилиям по локализации, и люди, предпочитающие английские версии Windows и другого программного обеспечения. ^{[ необходима цитата ]}

Стремление отличить хорватский от сербского, боснийский от хорватского и сербского, а теперь и черногорскийот остальных трех создает много проблем. Есть много разных локализаций, использующих разные стандарты и разного качества. Для огромного количества компьютерной терминологии с английского языка нет общих переводов. В конце концов, люди используют заимствованные английские слова ("компьютер" для "компьютера", "kompajlirati" для "компиляции" и т. Д.), И, если они не привыкли к переведенным терминам, могут не понять, какой вариант в меню предполагается. делать на основе переведенной фразы. Поэтому люди, которые понимают английский, а также те, кто привык к английской терминологии (а их больше всего, потому что английская терминология также в основном преподается в школах из-за этих проблем), регулярно выбирают оригинальные английские версии неспециализированного программного обеспечения.

Когда используется кириллица (для македонского и частично сербского языков ), проблема аналогична другим сценариям на основе кириллицы .

Более новые версии английской Windows позволяют изменять кодовую страницу (для более старых версий требуются специальные английские версии с этой поддержкой), но этот параметр может быть и часто устанавливался неправильно. Например, в Windows 98 и Windows Me можно настроить большинство однобайтовых кодовых страниц с написанием не справа налево, включая 1250, но только во время установки.

Кавказские языки [ править ]

Системы письма некоторых языков Кавказского региона, включая сценарии грузинского и армянского языков, могут давать моджибаке. Эта проблема особенно остро стоит в случае ArmSCII или ARMSCII, набора устаревших кодировок символов для армянского алфавита, которые были заменены стандартами Unicode. ArmSCII не получил широкого распространения из-за отсутствия поддержки в компьютерной индустрии. Например, Microsoft Windows не поддерживает его.

Азиатские кодировки [ править ]

Другой тип моджибаке возникает, когда текст ошибочно разбирается в многобайтовой кодировке, такой как одна из кодировок для языков Восточной Азии . Этот вид моджибаке повреждает сразу несколько символов (обычно два), например, «k 舐 lek» ( kärlek ) на шведском языке, где « är"разбирается как" ". По сравнению с приведенным выше моджибаке его труднее читать, поскольку буквы, не относящиеся к проблематичным å, ä или ö, отсутствуют, и особенно проблематичны короткие слова, начинающиеся с å, ä или ö, такие как «än» (превращается в «舅»). Поскольку две буквы объединены, моджибаке также кажется более случайным (более 50 вариантов по сравнению с обычными тремя, не считая более редких заглавных букв). В некоторых редких случаях целая текстовая строка, которая бывает, что он включает образец определенной длины слова, например, предложение « Буш скрыл факты » может быть неверно истолковано.

Японский [ править ]

В японском языке , это явление, как уже упоминалось, называется кракозябры (文字化け) . Это особая проблема в Японии из-за множества различных кодировок, которые существуют для японского текста. Помимо кодировок Unicode, таких как UTF-8 и UTF-16, существуют другие стандартные кодировки, такие как Shift-JIS (для компьютеров Windows) и EUC-JP (для систем UNIX). Моджибаке, с которым сталкиваются японские пользователи, также часто встречается у неяпонцев при попытке запустить программное обеспечение, написанное для японского рынка.

Китайский [ править ]

На китайском языке то же явление называется Luàn m ( пиньинь , упрощенный китайский 乱码, традиционный китайский 亂碼, что означает «хаотический код»), и может возникать, когда компьютеризированный текст закодирован в одной китайской кодировке символов, но отображается с использованием неправильной кодировки. Когда это происходит, часто можно решить проблему, переключив кодировку символов без потери данных. Ситуация осложняется тем, что существует несколько используемых систем кодировки китайских символов, наиболее распространенными из которых являются: Unicode , Big5 и Guobiao. (с несколькими версиями с обратной совместимостью), а также возможность кодирования китайских символов с использованием японской кодировки.

Когда luanma встречается в кодировках Guobiao, легко определить исходную кодировку:

Исходная кодировка	Рассматривается как	Результат	Первоначальный текст	Примечание
Big5	ГБ	瓣 в 眏	三國志１１威力加強 Version	Множество пустых или неотображаемых символов с случайными китайскими символами. Красные символы считаются символами частного использования .
Shift-JIS	ГБ	暥帤壔偗僥僗僩	文字化けテスト	Кана отображается как символы с радикалом 亻, а кандзи - другими символами. Большинство из них крайне необычны и не используются на практике в современном китайском языке.
EUC-KR	ГБ	叼力捞钙胶抛农聪墨	디제이 맥스 테크니카	Случайные распространенные символы упрощенного китайского языка, которые в большинстве случаев не имеют смысла. Легко идентифицировать благодаря пробелам между каждыми несколькими символами.

Дополнительная проблема возникает, когда в кодировках отсутствуют символы, что часто случается с редкими или устаревшими символами, которые все еще используются в личных именах или названиях мест. Примерами этого являются «煊» тайваньских политиков Ван Цзянь-шиен (китайский:王建煊; пиньинь: Ван Цзяньсюань ), Юй Ши-кун (упрощенный китайский:游锡堃; традиционный китайский:游錫堃; пиньинь: Ю Сикунь ) »堃 »и певца Дэвида Тао (кит .:陶喆; пиньинь: Táo Zhé )« », пропавшего без вести в Big5 , экс-премьер КНР Чжу Жунцзи (кит .:朱镕基; pinyin: Чжу Ронджи ) отсутствует в GB2312 , символ авторского права «©» отсутствует в GBK . ^[9]

В газетах эта проблема решается по-разному, в том числе с помощью программного обеспечения для объединения двух существующих похожих персонажей; использование изображения личности; или просто заменив этот редкий персонаж омофоном в надежде, что читатель сможет сделать правильный вывод.

Индийский текст [ править ]

Аналогичный эффект может иметь место в Brahmic или индоевропейских сценарии в Южной Азии , используемых в таких индоарийских или языках индоевропейских , как Hindustani (хинди-урду), бенгальская , пенджаби , маратхи и другие, даже если набор символов используются правильно распознаются приложение. Это связано с тем, что во многих индийских алфавитах правила, по которым отдельные буквенные символы объединяются для создания символов для слогов, могут быть неправильно поняты компьютером, в котором отсутствует соответствующее программное обеспечение, даже если доступны глифы для отдельных буквенных форм.

Одним из примеров этого является старый логотип Википедии , который пытается показать иероглиф, аналогичный «wi» (первый слог «Wikipedia»), на каждой из многих частей головоломки. Кусок головоломки, предназначенный для обозначения символа деванагари для «wi», вместо этого использовался для отображения символа «wa», за которым следует непарная гласная- модификатор «i» , легко распознаваемая как моджибаке, созданная компьютером, не настроенным для отображения индийского текста. ^[10] В обновленном логотипе по состоянию на май 2010 года ^[ref]эти ошибки исправлены.

Идея простого текста требует, чтобы операционная система предоставляла шрифт для отображения кодов Unicode. Этот шрифт отличается от ОС к ОС для Singhala и делает орфографически неправильные глифы для некоторых букв (слогов) во всех операционных системах. Например, «реф», краткая форма «р», является диакритическим знаком, который обычно ставится поверх простой буквы. Однако неправильно ставить поверх некоторых букв, таких как «я» или «ля», в определенных контекстах. Для санскритских слов или имен, унаследованных от современных языков, таких как कार्य, IAST: kārya или आर्या, IAST: āryā , его обычно помещают поверх этих букв. Напротив, для похожих звуков в современных языках, которые являются результатом их специфических правил, оно не ставится сверху, например, слово करणाऱ्या, IAST:Каранарья, основная форма общего слова करणारा / री, IAST: karaṇārā / rī в языке маратхи . ^[11] Но это происходит в большинстве операционных систем. Похоже, это ошибка внутреннего программирования шрифтов. В Mac OS и iOS комбинации muurdhaja l (темный l) и «u», а также их длинная форма дают неправильные формы. ^{[ необходима цитата ]}

Некоторые индийские и производные от нее скрипты, в первую очередь лаосские , официально не поддерживались Windows XP до выпуска Vista . ^[12] Однако различные сайты сделали шрифты для бесплатной загрузки.

Бирманский [ править ]

Из-за западных санкций ^[13] и позднего появления поддержки бирманского языка в компьютерах ^[14]^[15] большая часть ранней бирманской локализации была произведена самостоятельно без международного сотрудничества. Преобладающие средства поддержки бирманского языка - это шрифт Zawgyi, шрифт , который был создан как шрифт Unicode, но на самом деле был только частично совместим с Unicode. ^[15] В шрифте Zawgyi некоторые кодовые точки для бирманского скрипта были реализованы, как указано в Unicode , а другие - нет. ^[16] Консорциум Unicode называет это специальными кодировками шрифтов . ^[17]С появлением мобильных телефонов такие производители мобильных устройств, как Samsung и Huawei, просто заменили системные шрифты, совместимые с Unicode, версиями Zawgyi. ^[14]

Из-за этих специальных кодировок обмен данными между пользователями Zawgyi и Unicode будет отображаться как искаженный текст. Чтобы обойти эту проблему, производители контента публиковали сообщения как в Zawgyi, так и в Unicode. ^[18] Правительство Мьянмы обозначило 1 октября 2019 года как «День U» для официального перехода на Unicode. ^[13] Предполагается, что полный переход займет два года. ^[19]

Африканские языки [ править ]

В некоторых системах письма Африки незакодированный текст нечитаем. Тексты, которые могут производить моджибаке, включают тексты из Африканского Рога, такие как шрифт геэз в Эфиопии и Эритрее , используемый для амхарского , тигрского и других языков, а также сомалийский язык , в котором используется алфавит османья . В Южной Африке , то алфавит Mwangwego используется для записи языков Малави и алфавита Mandombe был создан для Демократической Республики Конго, но они обычно не поддерживаются. Различные другие системы письма, характерные для Западной Африки, представляют аналогичные проблемы, такие как алфавит нко , используемый для языков мандин в Гвинее , и слоговая система вай , используемая в Либерии .

Арабский [ править ]

Еще один затронутый язык - арабский (см. Ниже ). Если кодировки не совпадают, текст становится нечитаемым.

Примеры [ править ]

Кодировка файла	Настройка в браузере	Результат
Пример арабского языка:		( Всеобщая декларация прав человека )
Браузерный рендеринг:		الإعلان العالمى لحقوق الإنسان
UTF-8	Окна-1252	ï »¿Ø§Ù" Ø ¥ Ø¹Ù "Ø§Ù † Ø§Ù" Ø¹Ø§Ù "Ù… Ù ‰ Ù" ØÙ‚ÙˆÙ ‚Ø§Ù" Ø ¥ Ù † Ø³Ø§Ù †
	КОИ8-Р	О╩ © ь╖ы└ь╔ь╧ы└ь╖ы├ ь╖ы└ь╧ь╖ы└ы┘ы┴ ы└ь╜ы┌ы┬ы┌ ь╖ы└ь╔ы├ьЁь ╖ы├
	ISO 8859-5	яЛПиЇй иЅиЙй иЇй иЇй иЙиЇй й й й ий й й иЇй иЅй иГиЇй
	CP 866	я╗┐╪з┘Д╪е╪╣┘Д╪з┘Ж ╪з┘Д╪╣╪з┘Д┘Е┘Й ┘Д╪н┘В┘И┘В ╪з┘Д╪е┘Ж │╪з┘Ж
	ISO 8859-6	ُ ؛؟ ظ ع ظ ع ظ ع ظ ع ظ ظ ع ع ع ع ظع ع ع ظ ع ظ ع ظ ظ ع
	ISO 8859-2	ďťżŘ§Ů ŘĽŘšŮ Ř§Ů Ř§Ů ŘšŘ§Ů Ů Ů Ů ŘŮ Ů Ů Ř§Ů ŘĽŮ ŘłŘ§Ů
Окна-1256	Окна-1252	ÇáÅÚáÇä ÇáÚÇáãì áÍÞæÞ áÅäÓÇä

В примерах в этой статье не используется UTF-8 в качестве настройки браузера, поскольку UTF-8 легко распознается, поэтому, если браузер поддерживает UTF-8, он должен распознавать его автоматически, а не пытаться интерпретировать что-то еще как UTF-8.

См. Также [ править ]

Кодовая точка
Замещающий персонаж
Замещающий персонаж
Новая строка - соглашения об отображении разрыва строки различаются в системах Windows и Unix. Хотя большинство программного обеспечения поддерживает оба соглашения (что тривиально), программное обеспечение, которое должно сохранять или отображать разницу (например, системы контроля версий и инструменты сравнения данных), может стать значительно сложнее в использовании, если не придерживаться одного соглашения.
Отметка порядка байтов - самый внутренний способ сохранить кодировку вместе с данными - добавить ее. Это намеренно невидимо для людей, использующих совместимое программное обеспечение, но по замыслу будет восприниматься как «мусорные символы» для несовместимого программного обеспечения (включая многие интерпретаторы ).
Сущности HTML - кодирование специальных символов в HTML, в основном необязательно, но требуется для некоторых символов, чтобы избежать интерпретации как разметки.
Хотя неспособность применить это преобразование является уязвимостью (см. Межсайтовый скриптинг ), слишком частое его применение приводит к искажению этих символов. Например, кавычка "становится ", &quot;, &amp;quot;и так далее.
Буш скрыл факты

Ссылки [ править ]

^ a b Кинг, Ричи (2012). «Будет ли Юникод скоро универсальным кодом? [Данные]». IEEE Spectrum . 49 (7): 60. DOI : 10,1109 / MSPEC.2012.6221090 .
^ Windischmann, Stephan (31 марта 2004). "curl -v linux.ars (интернационализация)" . Ars Technica . Проверено 5 октября 2018 года .
^ «Рекомендации по расширенным атрибутам» . 2013-05-17 . Проверено 15 февраля 2015 .
^ "Список рассылки Unicode в почтовом клиенте Eudora" . 2001-05-13 . Проверено 1 ноября 2014 .
^ "смс-афера" . 18 июня 2014 . Проверено 19 июня 2014 года .
^ стр. 141, Control + Alt + Delete: словарь Cyberslang , Джонатон Китс, Globe Pequot, 2007, ISBN 1-59921-039-8 .
^ «Использование Windows-1251 для веб-сайтов» .
^ «Объявление кодировки символов в HTML» .
^ "PRC GBK (XGB)" . Архивировано из оригинала на 2002-10-01.Карта преобразования между кодовой страницей 936 и Unicode. Необходимо вручную выбрать GB18030 или GBK в браузере для правильного просмотра.
↑ Коэн, Ноам (25 июня 2007 г.). «Некоторые ошибки не поддаются исправлению: опечатка в логотипе Википедии разрушает санскрит» . Нью-Йорк Таймс . Проверено 17 июля 2009 года .
^ https://marathi.indiatyping.com/
^ «Контент перемещен (Windows)» . Msdn.microsoft.com . Проверено 5 февраля 2014 .
^ a b «Unicode in, Zawgyi out: современность, наконец, догоняет цифровой мир Мьянмы» . The Japan Times . 27 сентября 2019 . Проверено 24 декабря 2019 . 1 октября - «U-Day», когда Мьянма официально примет новую систему ... Microsoft и Apple много лет назад помогали другим странам стандартизировать, но западные санкции означали, что Мьянма проиграла.
^ a b Гочкис, Гриффин (23 марта 2016 г.). «Битва шрифтов» . Граница Мьянмы . Проверено 24 декабря 2019 .С выпуском пакета обновления 2 для Windows XP были поддержаны сложные сценарии, что позволило Windows отображать совместимый с Unicode бирманский шрифт, такой как Myanmar1 (выпущенный в 2005 году). ... Myazedi, BIT, а позже Zawgyi ограничили проблему рендеринга, добавив дополнительные кодовые точки, которые были зарезервированы для этнических языков Мьянмы. Повторное отображение не только предотвращает поддержку этнических языков в будущем, но и приводит к появлению системы набора текста, которая может сбивать с толку и неэффективна даже для опытных пользователей. ... Huawei и Samsung, два самых популярных бренда смартфонов в Мьянме, заинтересованы только в том, чтобы захватить самую большую долю рынка, а это означает, что они поддерживают Zawgyi из коробки.
↑ a b Sin, Thant (7 сентября 2019 г.). «Унифицированы под одной системой шрифтов, поскольку Мьянма готовится перейти с Zawgyi на Unicode» . Восходящие голоса . Проверено 24 декабря 2019 . Стандартные шрифты Unicode для Мьянмы никогда не были широко распространены, в отличие от частного и частично совместимого с Unicode шрифта Zawgyi. ... Unicode улучшит обработку естественного языка
^ «Зачем нужен Unicode» . Код Google: проект Zawgyi . Проверено 31 октября 2013 года .
^ «Сценарии и языки Мьянмы» . Часто задаваемые вопросы . Консорциум Unicode . Проверено 24 декабря 2019 . "UTF-8" технически не применяется к специальным кодировкам шрифтов, таким как Zawgyi.
^ ЛаГроу, Ник; Прузан, Мири (26 сентября 2019). «Интеграция автоконверсии: путь Facebook от Zawgyi к Unicode - Facebook Engineering» . Facebook Engineering . Facebook . Проверено 25 декабря 2019 . Это затрудняет общение на цифровых платформах, так как контент, написанный в Unicode, кажется пользователям Zawgyi искаженным, и наоборот. ... Чтобы лучше охватить свою аудиторию, производители контента в Мьянме часто размещают в одном сообщении как Zawgyi, так и Unicode, не говоря уже об английском или других языках.
↑ Видел Йи Нанда (21 ноября 2019 г.). «Мьянма переходит на Unicode на два года: разработчик приложений» . The Myanmar Times . Проверено 24 декабря 2019 .

Внешние ссылки [ править ]

Словарное определение моджибаке в Викисловаре
СМИ, связанные с моджибаке, на Викискладе?

[ieee-1] Кинг, Ричи (2012). «Будет ли Юникод скоро универсальным кодом? [Данные]». IEEE Spectrum . 49 (7): 60. DOI : 10,1109 / MSPEC.2012.6221090 .

[2] Windischmann, Stephan (31 марта 2004). "curl -v linux.ars (интернационализация)" . Ars Technica . Проверено 5 октября 2018 года .

[3] «Рекомендации по расширенным атрибутам» . 2013-05-17 . Проверено 15 февраля 2015 .

[4] "Список рассылки Unicode в почтовом клиенте Eudora" . 2001-05-13 . Проверено 1 ноября 2014 .

[5] "смс-афера" . 18 июня 2014 . Проверено 19 июня 2014 года .

[6] стр. 141, Control + Alt + Delete: словарь Cyberslang , Джонатон Китс, Globe Pequot, 2007, ISBN 1-59921-039-8 .

[7] «Использование Windows-1251 для веб-сайтов» .

[8] «Объявление кодировки символов в HTML» .

[9] "PRC GBK (XGB)" . Архивировано из оригинала на 2002-10-01.Карта преобразования между кодовой страницей 936 и Unicode. Необходимо вручную выбрать GB18030 или GBK в браузере для правильного просмотра.

[NYTimes-10] Коэн, Ноам (25 июня 2007 г.). «Некоторые ошибки не поддаются исправлению: опечатка в логотипе Википедии разрушает санскрит» . Нью-Йорк Таймс . Проверено 17 июля 2009 года .

[11] ttps://marathi.indiatyping.com/

[12] «Контент перемещен (Windows)» . Msdn.microsoft.com . Проверено 5 февраля 2014 .

[japantimes-13] «Unicode in, Zawgyi out: современность, наконец, догоняет цифровой мир Мьянмы» . The Japan Times . 27 сентября 2019 . Проверено 24 декабря 2019 . 1 октября - «U-Day», когда Мьянма официально примет новую систему ... Microsoft и Apple много лет назад помогали другим странам стандартизировать, но западные санкции означали, что Мьянма проиграла.

[griffin-14] Гочкис, Гриффин (23 марта 2016 г.). «Битва шрифтов» . Граница Мьянмы . Проверено 24 декабря 2019 .С выпуском пакета обновления 2 для Windows XP были поддержаны сложные сценарии, что позволило Windows отображать совместимый с Unicode бирманский шрифт, такой как Myanmar1 (выпущенный в 2005 году). ... Myazedi, BIT, а позже Zawgyi ограничили проблему рендеринга, добавив дополнительные кодовые точки, которые были зарезервированы для этнических языков Мьянмы. Повторное отображение не только предотвращает поддержку этнических языков в будущем, но и приводит к появлению системы набора текста, которая может сбивать с толку и неэффективна даже для опытных пользователей. ... Huawei и Samsung, два самых популярных бренда смартфонов в Мьянме, заинтересованы только в том, чтобы захватить самую большую долю рынка, а это означает, что они поддерживают Zawgyi из коробки.

[sin-15] Sin, Thant (7 сентября 2019 г.). «Унифицированы под одной системой шрифтов, поскольку Мьянма готовится перейти с Zawgyi на Unicode» . Восходящие голоса . Проверено 24 декабря 2019 . Стандартные шрифты Unicode для Мьянмы никогда не были широко распространены, в отличие от частного и частично совместимого с Unicode шрифта Zawgyi. ... Unicode улучшит обработку естественного языка

[16] «Зачем нужен Unicode» . Код Google: проект Zawgyi . Проверено 31 октября 2013 года .

[unicode_faq-17] «Сценарии и языки Мьянмы» . Часто задаваемые вопросы . Консорциум Unicode . Проверено 24 декабря 2019 . "UTF-8" технически не применяется к специальным кодировкам шрифтов, таким как Zawgyi.

[fb_eng-18] ЛаГроу, Ник; Прузан, Мири (26 сентября 2019). «Интеграция автоконверсии: путь Facebook от Zawgyi к Unicode - Facebook Engineering» . Facebook Engineering . Facebook . Проверено 25 декабря 2019 . Это затрудняет общение на цифровых платформах, так как контент, написанный в Unicode, кажется пользователям Zawgyi искаженным, и наоборот. ... Чтобы лучше охватить свою аудиторию, производители контента в Мьянме часто размещают в одном сообщении как Zawgyi, так и Unicode, не говоря уже об английском или других языках.

[mmti_Myan-19] Видел Йи Нанда (21 ноября 2019 г.). «Мьянма переходит на Unicode на два года: разработчик приложений» . The Myanmar Times . Проверено 24 декабря 2019 .

[1]

vтеКодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун / Кана Китайский Кириллица Корейский Бодо и Мюррей FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Телетекс и Видеотекс / Телетекст ISO / IEC 6937 / ITU T.51 ITU T.61 ITU T.101 Телетекст мировой системы фон наборы
ISO / IEC 8859	Одобренный -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16 Заброшенный -12 Адаптации ISO-IR-182 ISO-IR-200 ISO-IR-201 Предложено, но не утверждено ISO-IR-111 ISO-IR-197 Французский / голландский / турецкий проект
Библиографическое использование	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5427 / 5428 / 6438 /6861/ 6862 / 10585 /10586/10754/11822
Национальные стандарты	ArmSCII BraSCII CNS 11643 ELOT 927 ГОСТ 10859 ГБ 2312 ГБ 12052 ГБ 18030 HKSCS IS 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 КОИ-7 КПС 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 ТИС-620 TSCII VISCII VSCII ЮСКИИ
ISO / IEC 2022	7-битный CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Расширенный код Unix / EUC CN KR JP TW
Кодовые страницы Mac OS («скрипты»)	Армянский арабский Баренц кириллица кельтская CentEuro КитайскийSimp / EUC-CN Китайский Трад / Big5 хорватский Кириллица Деванагари / ISCII Дингбаты Фарси (персидский) Гэльский Грузинский Греческий Гуджарати / ISCII Гурмукхи / ISCII иврит Исландия Инуиты Японский / Shift JIS Клавиатура Корейский / EUC-KR Латынь (Кермит) Мальтийский / эсперанто Огам / IS 434 Римский румынский Саами Символ Тайский / TIS-620 турецкий Тюркская кириллица украинец VT100
Кодовые страницы DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 / 872 856 857 858 859 860 861 862 863 864 865 866 / 808 867 868 869 874 / одна тысячи сто шестьдесят одна / 1162 файл 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 / 848 1126 1127 1131 / 849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Индийский CSX Индийский CSX + Индийский CWI-2 Иранская система Каменицкий KOI8 Мазовецкое воеводство МИК
Кодовые страницы IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 / 901 922 / 902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 / 1163 1133 1350 1382 1383
Кодовые страницы IBM для кодировок других поставщиков	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DEC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Кодовые страницы Windows	CER-GS 874 / 1162 файла ( TIS-620 ) 932 / 943 ( Сдвиг JIS ) 936 / одна тысячи триста восемьдесят шесть ( GBK ) 950 / 1370 ( Big5 ) 949 / 1363 ( EUC-KR ) 1169 1174 Расширенная латиница-8 1200 ( UTF-16LE ) 1201 ( UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) Армянский Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий 65001 ( UTF-8 )
Кодовые страницы Microsoft для кодировок других поставщиков	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
Кодовые страницы EBCDIC	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 / 1364 935 / 1388 937 / 1371 939 / 1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
Терминалы DEC ( VTx )	Многонациональная (MCS) Национальная замена (NRCS) французский канадец Швейцарский испанский объединенное Королевство нидерландский язык Финский Французский Норвежский и датский Шведский Норвежский и датский (альтернативный) 8-битный греческий 8-битный турецкий 7-битный иврит 8-битный иврит Специальная графика Технические (TCS)
Для конкретной платформы	Желудь Adobe Standard Adobe Latin 1 Амстрад КТК Яблоко I Яблоко II Яблоко III ATASCII Atari ST BICS Калькуляторы Casio CDC Compucolor II CP / M + ДЕКАБРЬ RADIX 50 DEC MCS / NRCS DG International ЭЛВРО-Юниор FIELDATA GEM GEOS GSM 03.38 Расширение HP Roman HP Роман-8 HP Роман-9 HP FOCAL ХП РПЛ IBM SQUOZE LICS LMBCS Маттел Водолей Минитель MSX NEC APC Следующий OricSCII PCW PETSCII Sega SC-3000 Калькуляторы Sharp Sharp MZ Sinclair QL Телетекст Калькуляторы TI TRS-80 Ventura International Символ Вентуры WISCII XCCS ZX80 ZX81 ZX Spectrum
Юникод / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 ( UTF-16LE / UTF-16BE ) / UCS-2 UTF-32 ( UTF-32LE / UTF-32BE ) / UCS-4 UTF-EBCDIC ГБ 18030 BOCU-1 ЦЭСУ-8 ГКГУ
Система набора TeX	Пробка IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C T2D Т3 Т4 Т5 TS1 TS3 U X2
Разные кодовые страницы	ABICOMP APL 293 310 (графический побег) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 Гц IEC-P27-1 ИНИС 7-битный 8 бит Кириллица ISO-IR-169 ISO 2033 Йохаб Модзикё SEASCII Стэнфорд / ИТС TACE16 TRON UTF-5 UTF-6 WTF-8
Контрольные и непечатаемые наборы символов	Азбука Морзе Коды управления C0 и C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 ITU T.101 C0 C1 Коды управления EBCDIC Управление Unicode, формат и символы-разделители Пробельные символы
похожие темы	Кодовая страница Кодовая страница Windows CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Аппаратное обеспечение Моджибаке
Наборы символов