Подстрочные и надстрочные индексы Unicode

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, квадраты или другие символы .

Разница между глифами надстрочного / подстрочного и числителя / знаменателя. Во многих популярных шрифтах символы Unicode «надстрочный» и «подстрочный» фактически являются глифами числителя и знаменателя.

Unicode имеет версии ряда символов с индексами и надстрочными индексами, включая полный набор арабских цифр . ^[1] Эти символы позволяют представить любые полиномиальные , химические и некоторые другие уравнения в виде простого текста без использования какой-либо разметки, такой как HTML или TeX .

World Wide Web Consortium и консорциум Unicode разработали рекомендации по выбору между использованием разметки и используя верхние и нижние индексы символов:

При использовании в математическом контексте ( MathML ) рекомендуется последовательно использовать разметку стилей для надстрочных и подстрочных индексов .... Однако, когда надстрочные и подскрипты должны отражать семантические различия, легче работать с этими значениями, закодированными в тексте. чем разметка, например, в фонетической или фонематической транскрипции . ^[2]

Использует [ редактировать ]

Предназначено использование ^[2] , когда эти символы были добавлены в Unicode должна была позволить химической и алгебраические формулы и фонетика быть написаны без разметки, но дают истинные надстрочный и подстрочный. Таким образом, предполагается, что «H₂O» (с использованием символа нижнего индекса) идентично «H ₂ O» (с разметкой нижнего индекса).

На самом деле, большинство шрифтов, которые включают эти символы, игнорируют определение Unicode и создают цифры для глифов математического числителя и знаменателя , ^{[ необходима цитата ],} которые меньше обычных символов, но выровнены по верхней и базовой линиям , соответственно. При использовании с солидусом эти глифы полезны для создания произвольных диагональных дробей (аналогично глифу ½ ). Создание фракции с использованием существующего программного обеспечения супер / подстрочный требует много символов и не выглядит как оказанная дробь (пример: ¹ / ₂), поэтому дизайнеры шрифтов предоставили эту альтернативу. Это также делает верхние индексы полезными для порядковых указателей , более точно совпадающих с символами ª и º. Однако это делает их неправильными для обычных надстрочных и нижних индексов, а формулы отображаются правильно с использованием разметки, а не этих символов.

Unicode предназначен для получения диагональных дробей с помощью другого механизма, но он очень плохо поддерживается. Фракция слэш U + 2044 визуально похож на солидус, но при использовании обычных цифр ( а не верхние и нижних индексах) предназначен сказать систему компоновки , что часть таких как ¾ должна быть оказана ^[3] с помощью автоматической замены глифа ^[a] для цифр. Некоторые браузеры поддерживают это ^[b], но не для всех шрифтов, выбор шрифтов показан в таблице ниже.

Символы	Шрифт	Результат
U + 00BD ½ ВУЛГАРНАЯ ФРАКЦИЯ ОДНА ПОЛОВИНА	По умолчанию	½
U + 00B9 ¹ ПОДПИСАТЬСЯ НА ОДИН , U + 002F / SOLIDUS , U + 2082 ₂ ПОДПИСАТЬСЯ НА ВТОРОЙ		¹ / ₂
U + 00B9 ¹ Superscript ONE , U + 2044 / ФРАКЦИИ Слэш , U + 2082 ₂ Подстрочный ДВА		¹⁄₂
U + 0031 1 ЦИФРА ОДИН , U + 2044 ⁄ ДРОБНАЯ ПЕРЕЧЕРСТЬ , U + 0032 2 ЦИФРА ДВА		1⁄2
	Arial	1⁄2
	Камбрия	1⁄2
	Consolas	1⁄2
	Times New Roman	1⁄2

Блок надстрочных и подстрочных индексов [ править ]

Наиболее распространенные цифры надстрочного индекса (1, 2 и 3) были в ISO-8859-1 и поэтому были перенесены в эти позиции в диапазоне Latin-1 Unicode. Остальные были размещены в специальном разделе Unicode от U + 2070 до U + 209F. В двух таблицах ниже показаны эти символы. Каждому надстрочному или подстрочному символу предшествует нормальный x, чтобы показать подстрочный / надстрочный индекс. Таблица слева содержит фактические символы Юникода; один справа содержит эквиваленты, использующие разметку HTML для подстрочного или надстрочного индекса.

Символы Юникода
	0	1	2	3	4	5	6	7	8	9	А	B	C	D	E	F
U + 00Bx			x²	x³						x¹
U + 207x	x⁰	xⁱ			x⁴	x⁵	x⁶	x⁷	x⁸	x⁹	x⁺	x⁻	x⁼	Икс⁽	Икс⁾	xⁿ
U + 208x	x₀	x₁	x₂	x₃	x₄	x₅	x₆	x₇	x₈	x₉	x₊	x₋	x₌	Икс₍	Икс₎
U + 209x	xₐ	xₑ	xₒ	xₓ	xₔ	xₕ	xₖ	xₗ	xₘ	xₙ	xₚ	xₛ	xₜ

Simulated using `<sup>` or `<sub>` tags
	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
U+00Bx			x²	x³						x¹
U+207x	x⁰	xⁱ			x⁴	x⁵	x⁶	x⁷	x⁸	x⁹	x⁺	x⁻	x⁼	x⁽	x⁾	xⁿ
U+208x	x₀	x₁	x₂	x₃	x₄	x₅	x₆	x₇	x₈	x₉	x₊	x₋	x₌	x₍	x₎
U+209x	x_a	x_e	x_o	x_x	x_ə	x_h	x_k	x_l	x_m	x_n	x_p	x_s	x_t

Reserved for future use.

Other characters from Latin-1 not related to super- or sub-scripts.

Other superscript and subscript characters[edit]

Unicode version 13.0 also includes subscript and superscript characters that are intended for semantic usage, in the following blocks:^[1]^[4]

The Latin-1 Supplement block contains the feminine and masculine ordinal indicators ª and º.
The Latin Extended-C block contains one additional superscript, ⱽ, and one additional subscript ⱼ.
The Latin Extended-D block contains three superscripts: ꝰ ꟸ ꟹ.
The Latin Extended-E block contains five superscripts: ꭜ ꭝ ꭞ ꭟ ꭩ.
The Combining Diacritical Marks block contains medieval superscript letter diacritics. These letters are written directly above other letters appearing in medieval Germanic manuscripts, and so these glyphs do not include spacing, for example uͤ. They are shown here over the dotted circle placeholder ◌: ◌ͣ ◌ͤ ◌ͥ ◌ͦ ◌ͧ ◌ͨ ◌ͩ ◌ͪ ◌ͫ ◌ͬ ◌ͭ ◌ͮ ◌ͯ.
The Combining Diacritical Marks Extended block contains two combining letters for linguistic transcriptions of Scots. They are shown here over the dotted circle placeholder ◌: ◌ᪿ ◌ᫀ.
The Combining Diacritical Marks Supplement block contains additional medieval superscript letter diacritics, enough to complete the basic lowercase Latin alphabet except for j, q and y, a few small capitals and ligatures (ae, ao, av), and additional letters: ◌ᷓ ◌ᷔ ◌ᷕ ◌ᷖ ◌ᷗ ◌ᷘ ◌ᷙ ◌ᷚ ◌ᷛ ◌ᷜ ◌ᷝ ◌ᷞ ◌ᷟ ◌ᷠ ◌ᷡ ◌ᷢ ◌ᷣ ◌ᷤ ◌ᷥ ◌ᷦ ◌ᷧ ◌ᷨ ◌ᷩ ◌ᷪ ◌ᷫ ◌ᷬ ◌ᷭ ◌ᷮ ◌ᷯ ◌ᷰ ◌ᷱ ◌ᷲ ◌ᷳ ◌ᷴ. There is also a combining subscript: ◌᷊..
The Spacing Modifier Letters block has superscripted letters and symbols used for phonetic transcription: ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ˀ ˁ ˠ ˡ ˢ ˣ ˤ.
The Phonetic Extensions block has several sub- and super-scripted letters and symbols: Latin/IPA ᴬ ᴭ ᴮ ᴯ ᴰ ᴱ ᴲ ᴳ ᴴ ᴵ ᴶ ᴷ ᴸ ᴹ ᴺ ᴻ ᴼ ᴽ ᴾ ᴿ ᵀ ᵁ ᵂ ᵃ ᵄ ᵅ ᵆ ᵇ ᵈ ᵉ ᵊ ᵋ ᵌ ᵍ ᵏ ᵐ ᵑ ᵒ ᵓ ᵖ ᵗ ᵘ ᵚ ᵛ ᵢ ᵣ ᵤ ᵥ, Greek ᵝ ᵞ ᵟ ᵠ ᵡ ᵦ ᵧ ᵨ ᵩ ᵪ, Cyrillic ᵸ, other ᵎ ᵔ ᵕ ᵙ ᵜ. These are intended to indicate secondary articulation.
The Phonetic Extensions Supplement block has several more: Latin/IPA ᶛ ᶜ ᶝ ᶞ ᶟ ᶠ ᶡ ᶢ ᶣ ᶤ ᶥ ᶦ ᶧ ᶨ ᶩ ᶪ ᶫ ᶬ ᶭ ᶮ ᶯ ᶰ ᶱ ᶲ ᶳ ᶴ ᶵ ᶶ ᶷ ᶸ ᶹ ᶺ ᶻ ᶼ ᶽ ᶾ, Greek ᶿ.
The Cyrillic Extended-B block contains two Cyrillic superscripts: ꚜ ꚝ.
The Cyrillic Extended-A and -B blocks contains multiple medieval superscript letter diacritics, enough to complete the basic lowercase Cyrillic alphabet used in Church Slavonic texts, also includes an additional ligature (ст): ◌ⷠ ◌ⷡ ◌ⷢ ◌ⷣ ◌ⷤ ◌ⷥ ◌ⷦ ◌ⷧ ◌ⷨ ◌ⷩ ◌ⷪ ◌ⷫ ◌ⷬ ◌ⷭ ◌ⷮ ◌ⷯ ◌ⷰ ◌ⷱ ◌ⷲ ◌ⷳ ◌ⷴ ◌ⷵ ◌ⷶ ◌ⷷ ◌ⷸ ◌ⷹ ◌ⷺ ◌ⷻ ◌ⷼ ◌ⷽ ◌ⷾ ◌ⷿ ◌ꙴ ◌ꙵ ◌ꙶ ◌ꙷ ◌ꙸ ◌ꙹ ◌ꙺ ◌ꙻ ◌ꚞ ◌ꚟ.
The Georgian block contains one superscripted Mkhedruli letter: ჼ.
The Kanbun block has superscripted annotation characters used in Japanese copies of Classical Chinese texts: ㆒ ㆓ ㆔ ㆕ ㆖ ㆗ ㆘ ㆙ ㆚ ㆛ ㆜ ㆝ ㆞ ㆟.
The Tifinagh block has one superscript letter : ⵯ.
The Unified Canadian Aboriginal Syllabics and its Extended blocks contain several mostly consonant-only letters to indicate syllable coda called Finals, along with some characters that indicate syllable medial known as Medials: Main block ᐜ ᐝ ᐞ ᐟ ᐠ ᐡ ᐢ ᐣ ᐤ ᐥ ᐦ ᐨ ᐩ ᐪ ᑉ ᑊ ᑋ ᒃ ᒄ ᒡ ᒢ ᒻ ᒼ ᒽ ᒾ ᓐ ᓑ ᓒ ᓪ ᓫ ᔅ ᔆ ᔇ ᔈ ᔉ ᔊ ᔋ ᔥ ᔾ ᔿ ᕐ ᕑ ᕝ ᕪ ᕻ ᕽ ᖅ ᖕ ᖖ ᖟ ᖦ ᖮ ᗮ ᘁ ᙆ ᙇ ᙚ ᙾ ᙿ, Extended block ᣔ ᣕ ᣖ ᣗ ᣘ ᣙ ᣚ ᣛ ᣜ ᣝ ᣞ ᣟ ᣳ ᣴ ᣵ.

Additionally, there are two Finals, a Medial, and two punctuations written as raised characters in the main block: ᐀ ᐧ ᕀ ᕁ ᕯ.

Latin and Greek tables[edit]

Consolidated, the Unicode standard contains superscript and subscript versions of a subset of Latin and Greek letters. Here they are arranged in alphabetical order for comparison (or for copy and paste convenience). Since these characters appear in different Unicode ranges, they may not appear to be the same size and position due to font substitution in the browser. Shaded cells mark small capitals that are not very distinct from minuscules, and Greek letters that are indistinguishable from Latin, and so would not be expected to be supported by Unicode.

Latin superscript and subscript letters
	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O	P	R	S	T	U	V	W	X	Y	Z
Superscript capital	ᴬ	ᴮ		ᴰ	ᴱ		ᴳ	ᴴ	ᴵ	ᴶ	ᴷ	ᴸ	ᴹ	ᴺ	ᴼ	ᴾ	ᴿ		ᵀ	ᵁ	ⱽ	ᵂ
Superscript small cap									ᶦ			ᶫ		ᶰ						ᶸ
Superscript minuscule	ᵃ	ᵇ	ᶜ	ᵈ	ᵉ	ᶠ	ᵍ	ʰ	ⁱ	ʲ	ᵏ	ˡ	ᵐ	ⁿ	ᵒ	ᵖ	ʳ	ˢ	ᵗ	ᵘ	ᵛ	ʷ	ˣ	ʸ	ᶻ
Overscript small cap							◌ᷛ					◌ᷞ	◌ᷟ	◌ᷡ			◌ᷢ
Overscript minuscule	◌ͣ	◌ᷨ	◌ͨ	◌ͩ	◌ͤ	◌ᷫ	◌ᷚ	◌ͪ	◌ͥ		◌ᷜ	◌ᷝ	◌ͫ	◌ᷠ	◌ͦ	◌ᷮ	◌ͬ	◌ᷤ	◌ͭ	◌ͧ	◌ͮ	◌ᷱ	◌ͯ		◌ᷦ
Subscript minuscule	ₐ				ₑ			ₕ	ᵢ	ⱼ	ₖ	ₗ	ₘ	ₙ	ₒ	ₚ	ᵣ	ₛ	ₜ	ᵤ	ᵥ		ₓ
Underscript minuscule																	◌᷊					◌ᪿ

Greek superscript and subscript letters
	Β	Γ	Δ	Ε	Θ	Ι	Ρ	Υ	Φ	Χ
Superscript minuscule	ᵝ	ᵞ	ᵟ	⁽ᵋ⁾	ᶿ	⁽ᶥ⁾		⁽ᶹ⁾	ᵠ	ᵡ
Overscript minuscule	◌ᷩ
Subscript minuscule	ᵦ	ᵧ					ᵨ		ᵩ	ᵪ

For basic IPA, see superscript IPA letters. Other phonetic symbols are,

other IPA superscript and subscript letters
	ɑ	æ	ç	ð	ə	ɩ	ᶅ	ʃ	ƫ	ʍ	ʔ
Superscript	ᵅ		ᶜ̧ ^[c]	ᶞ	ᵊ	ᶥ	ᶪ	ᶴ	ᶵ	ꭩ	ˀ
Overscript	◌ᷧ	◌ᷔ	◌ᷗ	◌ᷙ	◌ᷪ			◌ᷯ			◌̉
Subscript					ₔ
Underscript										◌ᫀ

Composite characters[edit]

Primarily for compatibility with earlier character sets, Unicode contains a number of characters that compose super- and subscripts with other symbols.^[1] In most fonts these render much better than attempts to construct these symbols from the above characters or by using markup.

The Latin-1 Supplement block contains the precomposed fractions ½, ¼, and ¾. The copyright © and registered trademark signs ® are also in this block.
The General Punctuation block contains the permille sign ‰ and the per-ten-thousand sign ‱, and Basic Latin has the percent sign %.
The Number Forms block contains several precomposed fractions: ⅐ ⅑ ⅒ ⅓ ⅔ ⅕ ⅖ ⅗ ⅘ ⅙ ⅚ ⅛ ⅜ ⅝ ⅞ ⅟ ↉.
The Letterlike Symbols block contains a few symbols composed of subscript and superscript characters: ℀ ℁ ℅ ℆ № ℠ ™ ⅍.
The Enclosed Alphanumeric Supplement block contains three superscript abbreviations 🅪 🅫 🅬: MC for marque de commerce (trademark), MD for marque déposée (registered trademark), both used in Canada; MR for marca registrada (registered trademark) in Spanish and Portuguese speaking countries^[5]
The Miscellaneous Technical block has one additional subscript, a subscript 10 (⏨), for the purpose of scientific notation.

The Unified Canadian Aboriginal Syllabics and its Extended blocks contain several letters composed with superscripted letters to indicate extended sound values: Main block ᐂ ᐫ ᐬ ᐭ ᐮ ᐰ ᑍ ᑧ ᑨ ᑩ ᑪ ᑬ ᒅ ᒆ ᒇ ᒈ ᒊ ᒤ ᓁ ᓔ ᓮ ᔌ ᔍ ᔎ ᔏ ᔧ ᕅ ᕔ ᕿ ᖀ ᖁ ᖂ ᖃ ᖄ ᖎ ᖏ ᖐ ᖑ ᖒ ᖓ ᖔ ᙯ ᙰ ᙱ ᙲ ᙳ ᙴ ᙵ ᙶ, Extended block ᢰ ᢱ ᢲ ᢳ ᢴ ᢵ ᢶ ᢷ ᢸ ᢹ ᢺ ᢻ ᢼ ᢽ ᢾ ᢿ ᣀ ᣁ ᣂ ᣃ ᣄ ᣅ.

Notes[edit]

^ For a general overview and technical information on glyph substitution (though not specifically for fractions): GSUB — Glyph Substitution Table in the OpenType specification on the Microsoft Typography site.
^ Such as Chrome on Windows, Firefox^{[failed verification]}
^ Superscript ⟨ç⟩ is composed of superscript ⟨c⟩ and a combining cedilla, which should display properly in a good font. Superscript ⟨c⟩ was specifically requested for this purpose in Unicode proposal L2/03-180.

References[edit]

^ a b c "UCD: UnicodeData.txt". The Unicode Standard. Retrieved 2016-05-14.
^ a b Martin Dürst, Asmus Freytag (16 May 2007). "Unicode in XML and other Markup Languages". W3C. Retrieved 13 September 2010.
^ Martin Dürst, Asmus Freytag (16 May 2007). "Fraction Slash". W3C. Retrieved 13 September 2010.
^ "UCD: Scripts.txt". The Unicode Standard. Retrieved 2020-03-17.
^ Silva, Eduardo Marín (2017-03-01). "L2/17-066R: Proposal to encode the Marca Registrada sign" (PDF).

[4] For a general overview and technical information on glyph substitution (though not specifically for fractions): GSUB — Glyph Substitution Table in the OpenType specification on the Microsoft Typography site.

[5] Such as Chrome on Windows, Firefox^{[failed verification]}

[7] Superscript ⟨ç⟩ is composed of superscript ⟨c⟩ and a combining cedilla, which should display properly in a good font. Superscript ⟨c⟩ was specifically requested for this purpose in Unicode proposal L2/03-180.

[UnicodeData.txt-1] "UCD: UnicodeData.txt". The Unicode Standard. Retrieved 2016-05-14.

[w3-2] Martin Dürst, Asmus Freytag (16 May 2007). "Unicode in XML and other Markup Languages". W3C. Retrieved 13 September 2010.

[3] Martin Dürst, Asmus Freytag (16 May 2007). "Fraction Slash". W3C. Retrieved 13 September 2010.

[Scripts.txt-6] "UCD: Scripts.txt". The Unicode Standard. Retrieved 2020-03-17.

[8] Silva, Eduardo Marín (2017-03-01). "L2/17-066R: Proposal to encode the Marca Registrada sign" (PDF).

[1]