Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Японская клавиатура кана

Применительно к японскому языку и компьютерам возникает множество проблем адаптации, некоторые из которых характерны только для японского, а другие общие для языков, которые содержат очень большое количество символов. Количество символов, необходимое для написания английского языка, очень мало, и поэтому можно использовать только один байт (2 8 = 256 возможных значений) для кодирования одного английского символа. Однако количество символов в японском языке намного превышает 256 и, следовательно, не может быть закодировано с использованием одного байта. Таким образом, японский язык кодируется с использованием двух или более байтов в так называемой «двухбайтовой» или «многобайтовой» кодировке. Проблемы, которые возникают при транслитерации и латинизации, кодировка символов и ввод японского текста.

Кодировки символов [ править ]

Существует несколько стандартных методов кодирования японских символов для использования на компьютере, включая JIS , Shift-JIS , EUC и Unicode . Если составить карту набора кана - это просто, то кандзи оказалось сложнее. Несмотря на усилия, ни одна из схем кодирования не стала стандартом де-факто, и к 2000-м годам использовалось несколько стандартов кодирования. По состоянию на 2017 год доля использования UTF-8 в Интернете увеличилась до более чем 90% во всем мире, а остальные 1,2% использовали Shift-JIS и EUC. Тем не менее, несколько популярных веб-сайтов, включая 2channel и kakaku.com , все еще используют Shift-JIS. [1]

До 2000-х годов большинство японских электронных писем были в формате ISO-2022-JP («кодировка JIS»), а веб-страницы в Shift-JIS, а мобильные телефоны в Японии обычно использовали ту или иную форму расширенного кода Unix . [2] Если программе не удается определить используемую схему кодирования, это может вызвать моджибаке (文字 化 け, «неправильно преобразованные, искаженные / мусорные символы», буквально «преобразованные символы») и, таким образом, нечитаемый текст на компьютерах.

Карта Kanji ROM, установленная в PC-98 , хранит около 3000 символов и позволяет быстро их отображать. У него также была оперативная память для хранения гайдзи.
Встроенные устройства по-прежнему используют кана половинной ширины

Первой кодировкой, получившей широкое распространение, была JIS X 0201 , однобайтовая кодировка , охватывающая только стандартные 7-битные символы ASCII с расширениями катаканы половинной ширины . Это широко использовалось в системах, которые были недостаточно мощными и не имели хранилища для обработки иероглифов (включая старое встроенное оборудование, такое как кассовые аппараты), потому что преобразование кана-кандзи требовало сложного процесса, а вывод в кандзи требовал большого объема памяти и высокого разрешения. Это означает, что с помощью этой техники поддерживалась только катакана, а не кандзи. Некоторые встроенные дисплеи все еще имеют это ограничение.

Развитие кодировок кандзи стало началом раскола. Shift JIS поддерживает кандзи и был разработан для полной обратной совместимости с JIS X 0201 и, следовательно, во многих встроенных электронных устройствах. Однако у Shift JIS есть досадное свойство: он часто ломает любой анализатор (программное обеспечение, считывающее закодированный текст), который специально не предназначен для его обработки.

Например, некоторые символы Shift-JIS включают обратную косую черту (005C "\") во втором байте, которая используется как escape-символ .

Синтаксический анализатор, не поддерживающий Shift JIS, распознает 005C как недопустимую escape-последовательность и удалит ее. [3] Следовательно, фраза вызывает моджибаке.

Это может произойти, например, в языке программирования C , когда в текстовых строках есть Shift-JIS. Этого не происходит в HTML, поскольку ASCII 0x00–0x3F (который включает ",% и" и некоторые другие используемые escape-символы и разделители строк) не отображаются как второй байт в Shift-JIS.

EUC , с другой стороны, намного лучше обрабатывается парсерами, которые были написаны для 7-битного ASCII (и, таким образом, кодировки EUC используются в UNIX, где большая часть кода обработки файлов исторически писалась только для английских кодировок). Но EUC не имеет обратной совместимости с JIS X 0201, первой основной японской кодировкой. Дальнейшие сложности возникают из-за того, что исходные стандарты электронной почты Интернета поддерживают только 7-битные протоколы передачи. Таким образом, RFC  1468 (« ISO-2022-JP », часто просто называемый кодировкой JIS ) был разработан для отправки и получения электронной почты.

Гайдзи используется в субтитрах японского телевидения

В стандарты набора символов, такие как JIS , включены не все обязательные символы, поэтому иногда для дополнения набора символов используются гайдзи (外 字«внешние символы»). Gaiji может быть в виде пакетов внешних шрифтов, в которых обычные символы были заменены новыми символами или новые символы были добавлены к неиспользуемым позициям символов. Однако гайджи непрактичны в среде Интернета, так как для использования гайджи набор шрифтов должен быть передан вместе с текстом. В результате такие символы записываются с аналогичными или более простыми символами на месте, или текст может потребоваться кодировать с использованием большего набора символов (например, Unicode), который поддерживает требуемый символ. [4]

Unicode был предназначен для решения всех проблем с кодировкой на всех языках. UTF-8 кодирование используется для кодирования Unicode в веб - страницах , не имеет недостатков , что Shift-JIS есть. Юникод поддерживается международным программным обеспечением, что устраняет необходимость в гайдзи. Однако до сих пор существуют разногласия. В японском языке символы кандзи объединены с китайскими; то есть символу, который считается одним и тем же в японском и китайском языках, присваивается один номер, даже если внешний вид на самом деле несколько отличается, а точный внешний вид остается на усмотрение шрифта, соответствующего языку. Этот процесс, получивший название ханьского объединения , вызвал споры. [ необходима цитата ]Предыдущие кодировки в Японии, Тайване , материковом Китае и Корее обрабатывали только один язык, а Unicode - все. Однако обработка кандзи / китайского языка была разработана комитетом, состоящим из представителей всех четырех стран / регионов. [ необходима цитата ]

Ввод текста [ править ]

В письменном японском языке используется несколько разных шрифтов: кандзи (китайские иероглифы), 2 набора кана (фонетические слоговые буквы) и латинские буквы. Хотя кана и латинские буквы можно набирать прямо на компьютере, ввод кандзи - более сложный процесс, поскольку кандзи гораздо больше, чем клавиш на большинстве клавиатур. Для ввода кандзи на современных компьютерах обычно сначала вводится чтение кандзи, а затем редактор метода ввода.(IME), также известный как интерфейсный процессор, показывает список подходящих кандзи, которые соответствуют фонетическому совпадению, и позволяет пользователю выбрать правильный кандзи. Более продвинутые IME работают не по словам, а по фразам, что увеличивает вероятность получения желаемых символов в качестве первого представленного варианта. Ввод значений кандзи может осуществляться либо посредством латинизации ( ромадзи ньюрёку, ロ ー マ 字 入 力), либо путем прямого ввода кана ( кана ньюрёку,か な 入 力). Ввод ромадзи более распространен на ПК и других полноразмерных клавиатурах (хотя прямой ввод также широко поддерживается), тогда как прямой ввод кана обычно используется на мобильных телефонах и аналогичных устройствах - каждая из 10 цифр (1–9,0) соответствует к одной из 10 колонн годзюона таблица каны, и несколько нажатий выберите строку.

Существует две основных системы латинизации японского языка, известные как Кунрей-сики и Хепберн ; на практике «клавиатура romaji» (также известная как wāpuro rōmaji или «текстовый процессор romaji») обычно допускает свободную комбинацию обоих. Реализации IME могут даже обрабатывать ключи для букв, не используемых в какой-либо схеме латинизации, такой как L , преобразовывая их в наиболее подходящий эквивалент. При вводе кана каждая клавиша на клавиатуре напрямую соответствует одной кане. JIS клавиатура система является национальным стандартом, но есть альтернативы, такие как большой палец переключения клавиатура , обычно используемых среди профессиональных машинисток.

Направление текста [ править ]

LibreOffice Writer поддерживает опцию нисходящего текста

На японском можно писать в двух направлениях . В стиле Ёкогаки пишут слева направо, сверху вниз, как в английском. Стиль Татегаки сначала пишет сверху вниз, а затем перемещается справа налево.

Чтобы конкурировать с Ichitaro , Microsoft предоставила несколько обновлений для ранних японских версий Microsoft Word, включая поддержку нисходящего текста, таких как Word 5.0 Power Up Kit и Word 98. [5] [6]

QuarkXPress был самым популярным программным обеспечением DTP в Японии в 1990-х годах, даже несмотря на длительный цикл разработки. Однако из-за отсутствия поддержки нисходящего текста его превзошла Adobe InDesign, которая имела сильную поддержку нисходящего текста через несколько обновлений. [7] [8]

В настоящее время [ когда? ] обработка нисходящего текста не завершена. Например, HTML не поддерживает татэгаки, и японские пользователи должны использовать таблицы HTML для его имитации. Однако уровень CSS 3 включает свойство « writing-mode », которое может отображать татегаки, если задано значение « vertical-rl » (т.е. сверху вниз, справа налево). Текстовые процессоры и программное обеспечение DTP имеют более полную поддержку для этого.

См. Также [ править ]

  • Японская система письма
  • японский язык
  • CJK персонажи
  • Корейский язык и компьютеры
  • Вьетнамский язык и компьютеры

Ссылки [ править ]

  1. ^ «【や じ う ま Watch】 ウ ェ ブ イ ト に お け る 文字 コ ー ド 割 合 、 UTF-8 が 90 % 超 え Shift_JIS や EUC-JP は? - INTERNET Watch» . ИНТЕРНЕТ Смотреть . 2017-10-17 . Проверено 11 мая 2019 .
  2. ^ "文字 コ ー ド に つ い て" . Корпорация ASH. 2002 . Проверено 14 мая 2019 .
  3. ^ «Shift_JIS 文字 を 含 む ソ ー ス ド を gcc で コ ン パ ル 後 、 警告 メ ッ が 表示 さ れ る» . Novell . 2006-02-10 . Проверено 14 мая 2019 .
  4. ^ 兵 ち ゃ ん (18 февраля 2016 г.). «住 基 ネ ッ ト 統一 文字 コ ー ド に よ る 外 字 の 統一 に つ い て» . Проверено 14 мая 2019 .
  5. ^ «ASCII EXPRESS: マ イ ク ロ ソ フ が Access」 と 「Word 5.0 Power Up Kit」 を 発 売 ». ASCII . 18 (1). 1994 г.
  6. ^ "Microsoft Office 97 Powered by Word 98" . web.archive.org . Microsoft . 2001-08-01. Архивировано из оригинала на 2001-08-01 . Проверено 14 мая 2019 .
  7. ^ エ デ ィ ッ ト -U. «DTP っ て 何 よ (4) [編 集 っ て 何 よ]» . Проверено 14 мая 2019 .
  8. ^ «ア ン チ Quark ユ ー ザ ー が 気 QuarkXPress 8 の 機能 ト ッ プ 10 (3) 縦 書 き の 組 版 だ っ た け ど の よ?» . Новости MyNavi . 2008-07-04 . Проверено 14 мая 2019 .

Внешние ссылки [ править ]

  • Японские компьютерные компании в США
  • Полное введение в японские кодировки символов 2003 года.
  • Стандарты набора символов и системы кодирования китайского, японского и корейского языков с 1996 г.
  • Кодировка японского текста
  • Коллекция бесплатных японских шрифтов
  • Японский онлайн-словарь лингвистики
  • Японский онлайн-словарь