Японский язык и компьютеры

Японская клавиатура кана

Применительно к японскому языку и компьютерам возникает множество проблем адаптации, некоторые из которых характерны только для японского, а другие общие для языков, которые содержат очень большое количество символов. Количество символов, необходимое для написания английского языка, очень мало, и поэтому можно использовать только один байт (2 ⁸ = 256 возможных значений) для кодирования одного английского символа. Однако количество символов в японском языке намного превышает 256 и, следовательно, не может быть закодировано с использованием одного байта. Таким образом, японский язык кодируется с использованием двух или более байтов в так называемой «двухбайтовой» или «многобайтовой» кодировке. Проблемы, которые возникают при транслитерации и латинизации, кодировка символов и ввод японского текста.

Кодировки символов [ править ]

Существует несколько стандартных методов кодирования японских символов для использования на компьютере, включая JIS , Shift-JIS , EUC и Unicode . Если составить карту набора кана - это просто, то кандзи оказалось сложнее. Несмотря на усилия, ни одна из схем кодирования не стала стандартом де-факто, и к 2000-м годам использовалось несколько стандартов кодирования. По состоянию на 2017 год доля использования UTF-8 в Интернете увеличилась до более чем 90% во всем мире, а остальные 1,2% использовали Shift-JIS и EUC. Тем не менее, несколько популярных веб-сайтов, включая 2channel и kakaku.com , все еще используют Shift-JIS. ^[1]

До 2000-х годов большинство японских электронных писем были в формате ISO-2022-JP («кодировка JIS»), а веб-страницы в Shift-JIS, а мобильные телефоны в Японии обычно использовали ту или иную форму расширенного кода Unix . ^[2] Если программе не удается определить используемую схему кодирования, это может вызвать моджибаке (文字化け, «неправильно преобразованные, искаженные / мусорные символы», буквально «преобразованные символы») и, таким образом, нечитаемый текст на компьютерах.

Карта Kanji ROM, установленная в PC-98 , хранит около 3000 символов и позволяет быстро их отображать. У него также была оперативная память для хранения гайдзи.

Встроенные устройства по-прежнему используют кана половинной ширины

Первой кодировкой, получившей широкое распространение, была JIS X 0201 , однобайтовая кодировка , охватывающая только стандартные 7-битные символы ASCII с расширениями катаканы половинной ширины . Это широко использовалось в системах, которые были недостаточно мощными и не имели хранилища для обработки иероглифов (включая старое встроенное оборудование, такое как кассовые аппараты), потому что преобразование кана-кандзи требовало сложного процесса, а вывод в кандзи требовал большого объема памяти и высокого разрешения. Это означает, что с помощью этой техники поддерживалась только катакана, а не кандзи. Некоторые встроенные дисплеи все еще имеют это ограничение.

Развитие кодировок кандзи стало началом раскола. Shift JIS поддерживает кандзи и был разработан для полной обратной совместимости с JIS X 0201 и, следовательно, во многих встроенных электронных устройствах. Однако у Shift JIS есть досадное свойство: он часто ломает любой анализатор (программное обеспечение, считывающее закодированный текст), который специально не предназначен для его обработки.

Например, некоторые символы Shift-JIS включают обратную косую черту (005C "\") во втором байте, которая используется как escape-символ .

構		わ		な		い
8d	5c	82	ред	82	c8	82	а2

Синтаксический анализатор, не поддерживающий Shift JIS, распознает 005C как недопустимую escape-последовательность и удалит ее. ^[3] Следовательно, фраза вызывает моджибаке.

高			墲		ﾈ	い
8d		82	ред	82	c8	82	а2

Это может произойти, например, в языке программирования C , когда в текстовых строках есть Shift-JIS. Этого не происходит в HTML, поскольку ASCII 0x00–0x3F (который включает ",% и" и некоторые другие используемые escape-символы и разделители строк) не отображаются как второй байт в Shift-JIS.

EUC , с другой стороны, намного лучше обрабатывается парсерами, которые были написаны для 7-битного ASCII (и, таким образом, кодировки EUC используются в UNIX, где большая часть кода обработки файлов исторически писалась только для английских кодировок). Но EUC не имеет обратной совместимости с JIS X 0201, первой основной японской кодировкой. Дальнейшие сложности возникают из-за того, что исходные стандарты электронной почты Интернета поддерживают только 7-битные протоколы передачи. Таким образом, RFC 1468 (« ISO-2022-JP », часто просто называемый кодировкой JIS ) был разработан для отправки и получения электронной почты.

Гайдзи используется в субтитрах японского телевидения

В стандарты набора символов, такие как JIS , включены не все обязательные символы, поэтому иногда для дополнения набора символов используются гайдзи (外字«внешние символы»). Gaiji может быть в виде пакетов внешних шрифтов, в которых обычные символы были заменены новыми символами или новые символы были добавлены к неиспользуемым позициям символов. Однако гайджи непрактичны в среде Интернета, так как для использования гайджи набор шрифтов должен быть передан вместе с текстом. В результате такие символы записываются с аналогичными или более простыми символами на месте, или текст может потребоваться кодировать с использованием большего набора символов (например, Unicode), который поддерживает требуемый символ. ^[4]

Unicode был предназначен для решения всех проблем с кодировкой на всех языках. UTF-8 кодирование используется для кодирования Unicode в веб - страницах , не имеет недостатков , что Shift-JIS есть. Юникод поддерживается международным программным обеспечением, что устраняет необходимость в гайдзи. Однако до сих пор существуют разногласия. В японском языке символы кандзи объединены с китайскими; то есть символу, который считается одним и тем же в японском и китайском языках, присваивается один номер, даже если внешний вид на самом деле несколько отличается, а точный внешний вид остается на усмотрение шрифта, соответствующего языку. Этот процесс, получивший название ханьского объединения , вызвал споры. ^{[ необходима цитата ]}Предыдущие кодировки в Японии, Тайване , материковом Китае и Корее обрабатывали только один язык, а Unicode - все. Однако обработка кандзи / китайского языка была разработана комитетом, состоящим из представителей всех четырех стран / регионов. ^{[ необходима цитата ]}

Ввод текста [ править ]

В письменном японском языке используется несколько разных шрифтов: кандзи (китайские иероглифы), 2 набора кана (фонетические слоговые буквы) и латинские буквы. Хотя кана и латинские буквы можно набирать прямо на компьютере, ввод кандзи - более сложный процесс, поскольку кандзи гораздо больше, чем клавиш на большинстве клавиатур. Для ввода кандзи на современных компьютерах обычно сначала вводится чтение кандзи, а затем редактор метода ввода.(IME), также известный как интерфейсный процессор, показывает список подходящих кандзи, которые соответствуют фонетическому совпадению, и позволяет пользователю выбрать правильный кандзи. Более продвинутые IME работают не по словам, а по фразам, что увеличивает вероятность получения желаемых символов в качестве первого представленного варианта. Ввод значений кандзи может осуществляться либо посредством латинизации ( ромадзи ньюрёку, ローマ字入力), либо путем прямого ввода кана ( кана ньюрёку,かな入力). Ввод ромадзи более распространен на ПК и других полноразмерных клавиатурах (хотя прямой ввод также широко поддерживается), тогда как прямой ввод кана обычно используется на мобильных телефонах и аналогичных устройствах - каждая из 10 цифр (1–9,0) соответствует к одной из 10 колонн годзюона таблица каны, и несколько нажатий выберите строку.

Существует две основных системы латинизации японского языка, известные как Кунрей-сики и Хепберн ; на практике «клавиатура romaji» (также известная как wāpuro rōmaji или «текстовый процессор romaji») обычно допускает свободную комбинацию обоих. Реализации IME могут даже обрабатывать ключи для букв, не используемых в какой-либо схеме латинизации, такой как L , преобразовывая их в наиболее подходящий эквивалент. При вводе кана каждая клавиша на клавиатуре напрямую соответствует одной кане. JIS клавиатура система является национальным стандартом, но есть альтернативы, такие как большой палец переключения клавиатура , обычно используемых среди профессиональных машинисток.

Направление текста [ править ]

LibreOffice Writer поддерживает опцию нисходящего текста

На японском можно писать в двух направлениях . В стиле Ёкогаки пишут слева направо, сверху вниз, как в английском. Стиль Татегаки сначала пишет сверху вниз, а затем перемещается справа налево.

Чтобы конкурировать с Ichitaro , Microsoft предоставила несколько обновлений для ранних японских версий Microsoft Word, включая поддержку нисходящего текста, таких как Word 5.0 Power Up Kit и Word 98. ^[5]^[6]

QuarkXPress был самым популярным программным обеспечением DTP в Японии в 1990-х годах, даже несмотря на длительный цикл разработки. Однако из-за отсутствия поддержки нисходящего текста его превзошла Adobe InDesign, которая имела сильную поддержку нисходящего текста через несколько обновлений. ^[7]^[8]

В настоящее время ^{[ когда? ]} обработка нисходящего текста не завершена. Например, HTML не поддерживает татэгаки, и японские пользователи должны использовать таблицы HTML для его имитации. Однако уровень CSS 3 включает свойство « writing-mode », которое может отображать татегаки, если задано значение « vertical-rl » (т.е. сверху вниз, справа налево). Текстовые процессоры и программное обеспечение DTP имеют более полную поддержку для этого.

См. Также [ править ]

Японская система письма
японский язык
CJK персонажи
Корейский язык и компьютеры
Вьетнамский язык и компьютеры

Ссылки [ править ]

^ «【やじうま Watch】ウェブイトにおける文字コード割合、 UTF-8 が 90 ％超え Shift_JIS や EUC-JP は？ - INTERNET Watch» . ИНТЕРНЕТ Смотреть . 2017-10-17 . Проверено 11 мая 2019 .
^ "文字コードについて" . Корпорация ASH. 2002 . Проверено 14 мая 2019 .
^ «Shift_JIS 文字を含むソースドを gcc でコンパル後、警告メッが表示される» . Novell . 2006-02-10 . Проверено 14 мая 2019 .
^ 兵ちゃん (18 февраля 2016 г.). «住基ネット統一文字コードによる外字の統一について» . Проверено 14 мая 2019 .
^ «ASCII EXPRESS: マイクロソフが Access」と「Word 5.0 Power Up Kit」を発売 ». ASCII . 18 (1). 1994 г.
^ "Microsoft Office 97 Powered by Word 98" . web.archive.org . Microsoft . 2001-08-01. Архивировано из оригинала на 2001-08-01 . Проверено 14 мая 2019 .
^ エディット -U. «DTP って何よ（4）［編集って何よ］» . Проверено 14 мая 2019 .
^ «アンチ Quark ユーザーが気 QuarkXPress 8 の機能トップ 10 (3) 縦書きの組版だったけどのよ?» . Новости MyNavi . 2008-07-04 . Проверено 14 мая 2019 .

Внешние ссылки [ править ]

Японские компьютерные компании в США
Полное введение в японские кодировки символов 2003 года.
Стандарты набора символов и системы кодирования китайского, японского и корейского языков с 1996 г.
Кодировка японского текста
Коллекция бесплатных японских шрифтов
Японский онлайн-словарь лингвистики
Японский онлайн-словарь

[1] «【やじうま Watch】ウェブイトにおける文字コード割合、 UTF-8 が 90 ％超え Shift_JIS や EUC-JP は？ - INTERNET Watch» . ИНТЕРНЕТ Смотреть . 2017-10-17 . Проверено 11 мая 2019 .

[2] "文字コードについて" . Корпорация ASH. 2002 . Проверено 14 мая 2019 .

[3] «Shift_JIS 文字を含むソースドを gcc でコンパル後、警告メッが表示される» . Novell . 2006-02-10 . Проверено 14 мая 2019 .

[4] 兵ちゃん (18 февраля 2016 г.). «住基ネット統一文字コードによる外字の統一について» . Проверено 14 мая 2019 .

[5] «ASCII EXPRESS: マイクロソフが Access」と「Word 5.0 Power Up Kit」を発売 ». ASCII . 18 (1). 1994 г.

[6] "Microsoft Office 97 Powered by Word 98" . web.archive.org . Microsoft . 2001-08-01. Архивировано из оригинала на 2001-08-01 . Проверено 14 мая 2019 .

[7] エディット -U. «DTP って何よ（4）［編集って何よ］» . Проверено 14 мая 2019 .

[8] «アンチ Quark ユーザーが気 QuarkXPress 8 の機能トップ 10 (3) 縦書きの組版だったけどのよ?» . Новости MyNavi . 2008-07-04 . Проверено 14 мая 2019 .

[1]