Комбинируемый символ

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Кириллическая У в сочетании с комбинируемой краткой даёт Ў.

В цифровой типографике комбинируемые символы — это символы, предназначенные для изменения других символов. Наиболее распространенными комбинируемыми символами в латинице являются комбинируемые диакритические знаки (в том числе комбинируемые акценты).

Юникод также содержит много предварительно составленных символов, так что во многих случаях можно использовать как комбинируемые диакритические знаки, так и предварительно составленные символы по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Юникода перед сравнением двух строк Юникода и тщательно разработать преобразователи кодирования, чтобы правильно сопоставить все допустимые способы представления символа в Юникоде с устаревшей кодировкой, чтобы избежать потери данных.

В Юникоде основным блоком для комбинируемых диакритических знаков европейских языков и Международного фонетического алфавита является U+0300…U+036F. Комбинируемые диакритические знаки также присутствуют во многих других блоках Юникода. В Юникоде диакритические знаки всегда ставятся после основного символа (в отличие от некоторых более старых наборов комбинируемых символов, таких как ANSEL[англ.], что позволяет добавлять несколько диакритических знаков к одному символу.

Пример Zalgo-текста

Комбинируемые символы также используются для создания так называемого «Zalgo-текста» — текста, выглядящего искажённым из-за чрезмерного использования диакритических знаков. Это заставляет текст расширяться по вертикали, перекрывая этим другой текст[1].

Диапазоны в Юникоде

[править | править код]

Юникод содержит следующие блоки, предназначенные специально для комбинируемых диакритических знаков:

Канонический класс комбинируемости

[править | править код]

Одна из характеристик символа в Юникоде — канонический класс комбинируемости, принимающий только числовые значения[2].

Значение Полное английское название Русский перевод Описание
0 Not_Reordered Не определён Некомбинируемые и обрамляющие знаки; также многие знаки для гласных и согласных, даже если они комбинируемые
1 Overlay Накладывающийся знак Знаки, накладывающиеся на базовую букву или символ
7 Nukta Нукта Нукта — знак в системах письма, происходящих от брахми
8 Kana_Voicing Знаки звонкости каны Знаки звонкости в кане — дакутэн и хандакутэн
9 Virama Вирама Вирама — знак в системах письма, происходящих от брахми
10—199 Ccc10—Ccc199 Канонические классы комбинируемости 10—199 Классы фиксированных позиций
200 Attached_Below_Left Контактный знак слева снизу
202 Attached_Below Контактный знак снизу
204
208
210
212
214 Attached_Above Контактный знак сверху
216 Attached_Above_Right Контактный знак справа сверху
218 Below_Left Знак слева снизу
220 Below Знак снизу
222 Below_Right Знак справа снизу
224 Left Знак слева
226 Right Знак справа
228 Above_Left Знак слева сверху
230 Above Знак сверху
232 Above_Right Знак справа сверху
233 Double_Below Двойной знак снизу
234 Double_Above Двойной знак сверху
240 Iota_Subscript Подстрочная йота Только греческая подстрочная йота

Примечания

[править | править код]
  1. How does Zalgo text work? Stack Overflow. Дата обращения: 11 апреля 2019. Архивировано 27 мая 2019 года.
  2. Unicode Standard Annex #44 — Canonical Combining Class Values. Дата обращения: 6 июня 2019. Архивировано 8 июня 2019 года.