Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В Unicode , сценарий представляет собой набор букв и других письменных знаков , используемых для представления текстовой информации в одном или нескольких системах письменности . [1] Некоторые скрипты поддерживают одну и только одну систему письма и язык , например, армянский . Другие скрипты поддерживают множество различных систем письма; например, латинский сценарий поддерживает английский , французский , немецкий , итальянский , вьетнамский , латинский языки.сам и несколько других языков. Некоторые языки используют несколько альтернативных систем письма и, следовательно, также используют несколько скриптов; например, в турецком , то арабский сценарий был использован до 20 - го века, но переход на латиницу в начале 20 - го века. Список языков, поддерживаемых каждым скриптом, см. В списке языков по системе написания . Более или менее дополняющими сценарии являются символы и управляющие символы Unicode .

Унифицированные диакритические символы и унифицированные знаки пунктуации часто имеют «общее» или «унаследованное» свойство скрипта. Однако отдельные скрипты часто имеют свою собственную пунктуацию и диакритические знаки , поэтому многие скрипты включают не только буквы, но также диакритические и другие знаки, знаки препинания, цифры и даже свои собственные идиосинкразические символы и пробелы .

Unicode 13.0 определяет 154 отдельных сценария, включая 91 современный сценарий и 63 древних или исторических сценария. [2] [3] Другие сценарии находятся в процессе кодирования или предварительно выделены для кодирования в дорожных картах. [4]

Определение и классификация [ править ]

Когда несколько языков используют один и тот же сценарий, часто возникают некоторые различия: особенно в диакритических знаках и других знаках. Например, в шведском и английском языках используется латинский алфавит. Однако в шведском языке есть иероглиф «å» (иногда называемый «шведским О»), в то время как в английском языке такого символа нет. В английском языке также не используется диакритический объединяющий круг выше.для любого персонажа. Как правило, в языках, использующих одни и те же сценарии, используются одни и те же символы. Несмотря на эти периферийные различия в шведской и английской системах письма, говорят, что они используют один и тот же латинский шрифт. Таким образом, абстракция сценариев Unicode - это основной метод организации. Различия между разными алфавитами или системами письма сохраняются и поддерживаются с помощью гибких сценариев Unicode, сочетающих метки и алгоритмы сопоставления.

Сценарий против системы письма [ править ]

« Система письма » иногда рассматривается как синоним сценария. Однако его также можно использовать как конкретную систему письма, поддерживаемую сценарием. Например, вьетнамская система письма поддерживается латинским шрифтом. Система письма может также охватывать более одного письма, например, японская система письма использует сценарии хань , хирагана и катакана .

Большинство систем письма можно условно разделить на несколько категорий: логографические , слоговой , алфавитный (или сегментный ), абугид , абджад и featural ; однако все особенности любого из них могут быть обнаружены в любой данной системе письма в различных пропорциях, что часто затрудняет чисто категоризацию системы. Термин комплексная система иногда используется для описания тех, в которых примесь затрудняет классификацию.

Unicode поддерживает все эти типы систем письма посредством своих многочисленных скриптов. Unicode также добавляет дополнительные свойства к символам, чтобы помочь различать различные символы и способы их поведения в алгоритмах обработки текста Unicode.

Значения специальных свойств скрипта [ править ]

В дополнение к явным или конкретным свойствам скрипта Unicode использует три специальных значения: [5]

Общий
Unicode может назначить символ в ПСК только одному сценарию. Однако многие символы - те, которые не являются частью формальной системы письма естественного языка или унифицированы во многих системах письма, могут использоваться более чем в одном алфавите. Например, знаки валюты, символы, цифры и знаки препинания. В этих случаях Unicode определяет их как принадлежащие к «общему» сценарию ( код ISO 15924 «Zyyy»).
Унаследовано
Многие диакритические знаки и комбинированные символы без пробелов могут применяться к символам из более чем одного алфавита. В этих случаях Unicode назначает их «унаследованному» сценарию (код ISO 15924 Zinh), что означает, что они имеют тот же класс сценария, что и базовый символ, с которым они сочетаются, и поэтому в разных контекстах они могут рассматриваться как принадлежащие разным скрипты. Например, U + 0308  ̈   ОБЪЕДИНЕНИЕ диэрезисом может сочетать либо с U + 0065 е Строчная латинская буква E , чтобы создать латынь «Е», или с U + 0435 е кириллице строчная IE для кириллицы «ё». В первом случае он наследует латинский алфавит основного символа, тогда как во втором случае он наследует кириллицу основного символа.
Неизвестный
Значение «неизвестного» сценария (код ISO 15924 Zzzz) присваивается неназначенным, частному использованию, несимвольным и суррогатным кодовым точкам.

Категории персонажей в скриптах [ править ]

Unicode предоставляет свойство общей категории для каждого символа. Так что, помимо принадлежности к сценарию, у каждого персонажа есть общая категория. Обычно скрипты включают буквенные символы, в том числе: прописные буквы, строчные буквы и буквы модификатора. Некоторые символы считаются заглавными буквами для нескольких предварительно составленных лигатур, таких как Dz (U + 01F2). Все такие лигатуры в заглавных буквах присутствуют в латинском и греческом шрифтах и ​​являются символами совместимости , поэтому Unicode не рекомендует их использование авторами. Маловероятно, что в будущем будут добавлены новые заглавные буквы.

Большинство систем письма не различают прописные и строчные буквы. Для этих скриптов все буквы относятся к категории «другая буква» или «буква-модификатор». Идеографы, такие как иероглифы Unihan, также относятся к категории «других букв». Однако в некоторых скриптах различают прописные и строчные буквы: латынь, кириллица, греческий, армянский, грузинский и десеретский. Даже в этих сценариях есть буквы, которые не являются ни прописными, ни строчными.

Скрипты также могут содержать любые другие символы общей категории, такие как знаки (диакритические и другие), числа (цифры), знаки препинания , разделители (разделители слов, такие как пробелы), символы и символы неграфического формата . Они включаются в конкретный сценарий, если они уникальны для этого сценария. Другие такие символы обычно унифицированы и включаются в знаки пунктуации или диакритические знаки. Однако большая часть символов в любом скрипте (кроме обычных и унаследованных скриптов) - это буквы.

Список скриптов в Юникоде [ править ]

Unicode определяет более сотни имен сценариев (называемых «Псевдонимом» или «псевдонимом значения свойства») на основе списка ISO 15924. Unicode использует «Common» имя сценария для ISO 15924's Zyyy (код для неопределенного сценария), «Inherited» для ISO 15924's Zinh (код для унаследованного сценария) и «Unknown» для ISO 15924's Zzzz (код для незакодированного сценария). Не используются, среди прочего, коды сценариев ISO 15924: Zsym (символы) и Zmth (математические обозначения). Они не считаются сценариями в смысле Юникода.

См. Также [ править ]

  • Латинский шрифт в Юникоде
  • Символы Unicode
  • Символы Юникода
  • Фонематическая и фонетическая орфография

Ссылки [ править ]

  1. ^ «Глоссарий» . unicode.org .
  2. ^ «База данных символов Unicode: сценарии» . unicode.org .
  3. ^ «Глава 14: Дополнительные древние и исторические сценарии». Стандарт Unicode, версия 6.2 (PDF) . Маунтин-Вью, Калифорния: Unicode, Inc., сентябрь 2012 г. с. 473. ISBN  978-1-936213-07-8.
  4. ^ https://www.unicode.org/roadmaps/ Дорожные карты для Unicode
  5. ^ "UAX # 24: Свойство сценария Unicode" . www.unicode.org .
  6. ^ a b c d e f g h i «Предлагаемые новые сценарии» . Консорциум Unicode . 2018-05-25 . Проверено 12 сентября 2019 .
  7. ^ Майкл Эверсон (1997-09-18). «Предложение по кодированию клингонов в плоскости 1 стандарта ISO / IEC 10646-2» .
  8. ^ Консорциум Unicode (2001-08-14). «Утвержденный протокол совместного заседания UTC 87 / L2 184» .
  9. ^ Мори, Стивен; Панди, Аншуман (2021-01-07). «Предложение о добавлении скрипта Tangsa в SMP UCS» (PDF) . Консорциум Unicode . L2 / L2021 / 21027 . Проверено 19 февраля 2021 .
  10. ^ «Ближний Восток-II, Древние сценарии» (PDF) . 13.0.0. The Unicode Consortiumtitle = Ближневосточные скрипты II . Проверено 28 января 2021 .