Символы, представленные в Юникоде

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

В Юникоде зарезервировано 1 112 064 ({{{1}}}) позиций символов, из которых сейчас используется свыше 100 000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 («Латиница-1»).

Кодовое пространство разделено на 17 «плоскостей» по 65 536 (= 216) символов:

  • Плоскость 0 (0000—FFFF): Базовая многоязыковая плоскость (Basic Multilingual Plane, BMP)
  • Плоскость 1 (10000—1FFFF): Дополнительная многоязыковая плоскость (Supplementary Multilingual Plane, SMP)
  • Плоскость 2 (20000—2FFFF): Дополнительная иероглифическая плоскость (Supplementary Ideographic Plane, SIP)
  • Плоскость 3 (30000—3FFFF): Третичная иероглифическая плоскость (Tertiary Ideographic Plane, TIP)
  • Плоскости 4—13 (40000—DFFFF) не используются
  • Плоскость 14 (E0000—EFFFF): Дополнительная плоскость особого назначения (Supplementary Special-purpose Plane, SSP)
  • Плоскость 15 (F0000—FFFFF) используется как дополнительная область для частного использования — A (Supplementary Private Use Area-A, SPUA-A)
  • Плоскость 16 (100000—10FFFF) используется как дополнительная область для частного использования — B (Supplementary Private Use Area-B, SPUA-B)

Базовая многоязыковая плоскость[править | править вики-текст]

Базовая многоязыковая плоскость

Плоскость 0 (Базовая многоязыковая плоскость, англ. Basic Multilingual Plane, BMP) отведена для символов практически всех современных письменностей и большого числа специальных символов. Большая часть таблицы занята китайско-японскими иероглифами и своеобразными корейскими буквами.

В Unicode 10.0 в этой плоскости представлены следующие блоки:

Дополнительная многоязыковая плоскость[править | править вики-текст]

Дополнительная многоязыковая плоскость

Плоскость 1 (Дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена преимущественно для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.

В Unicode 10.0 в этой плоскости представлены следующие наборы символов:

Дополнительная иероглифическая плоскость[править | править вики-текст]

Дополнительная иероглифическая плоскость

Плоскость 2 (Дополнительная иероглифическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.

В Unicode 10.0 в этой плоскости представлены следующие наборы иероглифов:

Третичная иероглифическая плоскость[править | править вики-текст]

Плоскость 3 (Третичная иероглифическая плоскость, англ. Tertiary Ideographic Plane, TIP) зарезервирована для архаичных китайских иероглифов.

Третичная иероглифическая плоскость предварительно разделена на следующие поддиапазоны:

В вышеперечисленные диапазоны предполагается включить следующие наборы иероглифов:

  • в диапазон U+30000—U+317FF — древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях черепах и костях животных.
  • в диапазон U+32000—U+32FFF — иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах.
  • в диапазон U+34000—U+368FF — иероглифы в стиле «малая печать» (сяочжуань, 小篆).

В будущем также предполагается включить наборы иероглифов Периода Сражающихся царств.

В настоящее время в Консорциуме Юникода поставлен вопрос о будущем названии плоскости 3.

Специализированная дополнительная плоскость[править | править вики-текст]

Дополнительная плоскость особого назначения

Плоскость 14 (Дополнительная плоскость особого назначения, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.

В Unicode 10.0 в этой плоскости представлены следующие блоки:

Области для частного использования[править | править вики-текст]

Некоторые диапазоны Юникода отведены для частного использования и экспериментов. Они включают:

  • Частную область в Базовой многоязыковой плоскости (E000—F8FF)
  • Дополнительные плоскости 15 (F0000—U+FFFFF) и 16 (100000—10FFFF)

Ссылки[править | править вики-текст]

Кодировки символов
Основы алфавиттекст (файлданные) • набор символовконверсия
Исторические кодировки Докомп.: семафорная (Макарова)МорзеБодоМТК-2
Комп.: 6-битнаяУППRADIX-50EBCDIC (ДКОИ-8) • КОИ-7ISO 646
современное
8-битное
представление
символы ASCII (управляющиепечатные) • не-ASCII (псевдографика)
8-битные код.стр. Кириллица: КОИ-8Основная кодировкаMacCyrillic
ISO 8859 1 (лат.)2345 (кир.)6789101112131415 (€)16
Windows 12501251 (кир.)1252125312541255125612571258WGL4
IBM & DOS 437850852855866 «альт.»МИКНИИ ЭВМ
Многобайтные Традиционные DBCS (GB2312) • HTML
Unicode UTF-32UTF-16UTF-8список символов (кириллица)
Связанные темы интерфейс пользователяраскладка клавиатурылокальперевод строкишрифттранслитнестандартные шрифты
Утилиты iconvrecode