Плоскость (Юникод)

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

В стандарте Юникод плоскость — непрерывный диапазон из 65 536 (216) кодовых позиций. Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00—1016 первым двум шестнадцатеричным цифрам в шестизначном формате номера кодовой позиции (U+hhhhhh). Последняя кодовая позиция в Юникоде — последняя кодовая позиция в плоскости 16, U+10FFFF. Плоскость 0 называется Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP), которая содержит наиболее часто используемые символы. Остальные плоскости (1—16) называются «дополнительными»[1]. В версии Юникода 11.0 задействованы кодовые позиции шести плоскостей, при этом четырём плоскостям присвоены названия.

Ограничение в 17 плоскостей обусловлено кодировкой UTF-16, в которой могли быть закодированы 220 кодовых позиций (16 плоскостей) и BMP[2]. Кодировка UTF-8 была разработана с гораздо большим лимитом в 231 (2 147 483 648) кодовых позиций (32 768 плоскостей) и могла задействовать 221 (2 097 152) кодовых позиций (32 плоскости) даже при лимите 4 байта[3].

Плоскости Юникода:

  • Плоскость 0 (0000—FFFF): Основная многоязычная плоскость (Basic Multilingual Plane, BMP)
  • Плоскость 1 (10000—1FFFF): Дополнительная многоязычная плоскость (Supplementary Multilingual Plane, SMP)
  • Плоскость 2 (20000—2FFFF): Дополнительная идеографическая плоскость (Supplementary Ideographic Plane, SIP)
  • Плоскость 3 (30000—3FFFF): Третичная идеографическая плоскость (Tertiary Ideographic Plane, TIP)[4]
  • Плоскости 4—13 (40000—DFFFF) не используются
  • Плоскость 14 (E0000—EFFFF): Специализированная дополнительная плоскость (Supplementary Special-purpose Plane, SSP)
  • Плоскость 15 (F0000—FFFFF) Дополнительная область для частного использования — A (Supplementary Private Use Area-A, SPUA-A)
  • Плоскость 16 (100000—10FFFF) Дополнительная область для частного использования — B (Supplementary Private Use Area-B, SPUA-B)

Основная многоязычная плоскость[править | править код]

Основная многоязычная плоскость

Плоскость 0 (Основная многоязычная плоскость, англ. Basic Multilingual Plane, BMP) отведена для символов практически всех современных письменностей и большого числа специальных символов. Большая часть таблицы занята китайско-японскими иероглифами и своеобразными корейскими буквами.

В Юникоде 11.0 в этой плоскости представлены следующие блоки:

Дополнительная многоязычная плоскость[править | править код]

Дополнительная многоязыковая плоскость

Плоскость 1 (Дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена преимущественно для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.

В Юникоде 11.0 в этой плоскости представлены следующие наборы символов:

Дополнительная идеографическая плоскость[править | править код]

Дополнительная идеографическая плоскость

Плоскость 2 (Дополнительная идеографическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.

В Юникоде 11.0 в этой плоскости представлены следующие наборы иероглифов:

Третичная идеографическая плоскость[править | править код]

Плоскость 3 (Третичная идеографическая плоскость, англ. Tertiary Ideographic Plane, TIP) зарезервирована для архаичных китайских иероглифов.

Третичная идеографическая плоскость предварительно разделена на следующие поддиапазоны:

В вышеперечисленные диапазоны предполагается включить следующие наборы иероглифов:

  • в диапазон U+30000—U+317FF — древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях, черепах и костях животных[5][6].
  • в диапазон U+32000—U+32FFF — иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах[6].
  • в диапазон U+34000—U+368FF — иероглифы в стиле «малая печать» (сяочжуань, 小篆)[7][6].

В будущем также предполагается включить наборы иероглифов Периода Сражающихся царств[6].

В настоящее время в Консорциуме Юникода поставлен вопрос о будущем названии плоскости 3.

Специализированная дополнительная плоскость[править | править код]

Специализированная дополнительная плоскость

Плоскость 14 (Специализированная дополнительная плоскость, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.

В Юникоде 10.0 в этой плоскости представлены следующие блоки:

Области для частного использования[править | править код]

Некоторые диапазоны Юникода отведены для частного использования и экспериментов. Они включают:

  • Частную область в Базовой многоязыковой плоскости (E000—F8FF)
  • Дополнительные плоскости 15 (F0000—U+FFFFF) и 16 (100000—10FFFF)

См. также[править | править код]

Примечания[править | править код]

  1. Unicode Consortium Glossary—Supplementary Planes
  2. See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. На данный момент не задействована, но зарезервирована для древних форм китайской письменности.
  5. Request for comment on encoding Oracle Bone Script (англ.) (PDF) (21 October 2015). Проверено 20 ноября 2017.
  6. 1 2 3 4 Roadmap to the TIP (англ.) (PDF) (27 June 2017). Проверено 20 ноября 2017.
  7. Proposal to encode Small Seal Script in UCS (англ.) (PDF) (20 October 2015). Проверено 20 ноября 2017.

Ссылки[править | править код]

Кодировки символов
Основы алфавиттекст (файлданные) • набор символовконверсия
Исторические кодировки Докомп.: семафорная (Макарова)МорзеБодоМТК-2
Комп.: 6-битнаяУППRADIX-50EBCDIC (ДКОИ-8) • КОИ-7ISO 646
современное
8-битное
представление
символы ASCII (управляющиепечатные) • не-ASCII (псевдографика)
8-битные код.стр. Кириллица: КОИ-8Основная кодировкаMacCyrillic
ISO 8859 1 (лат.)2345 (кир.)6789101112131415 (€)16
Windows 12501251 (кир.)1252125312541255125612571258WGL4
IBM & DOS 437850852855866 «альт.»МИК
Многобайтные Традиционные DBCS (GB2312) • HTML
Unicode UTF-32UTF-16UTF-8список символов (кириллица)
Связанные темы интерфейс пользователяраскладка клавиатурылокальперевод строкишрифттранслитнестандартные шрифты
Утилиты iconvrecode