Символы, представленные в Юникоде
В Юникоде зарезервировано 1 112 064 (= 220 + 216 − 211) позиций символов, из которых сейчас используется свыше 100 000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 («Латиница-1»).
Кодовое пространство разделено на 17 «плоскостей» по 65 536 (= 216) символов:
- Плоскость 0 (0000—FFFF): Базовая многоязыковая плоскость (Basic Multilingual Plane, BMP)
- Плоскость 1 (10000—1FFFF): Дополнительная многоязыковая плоскость (Supplementary Multilingual Plane, SMP)
- Плоскость 2 (20000—2FFFF): Дополнительная иероглифическая плоскость (Supplementary Ideographic Plane, SIP)
- Плоскость 3 (30000—3FFFF): Третичная иероглифическая плоскость (Tertiary Ideographic Plane, TIP)
- Плоскости 4—13 (40000—DFFFF) не используются
- Плоскость 14 (E0000—EFFFF): Дополнительная плоскость особого назначения (Supplementary Special-purpose Plane, SSP)
- Плоскость 15 (F0000—FFFFF) используется как дополнительная область-A для частного использования (Supplementary Private Use Area-A, SPUA-A)
- Плоскость 16 (100000—10FFFF) используется как дополнительная область-B для частного использования (Supplementary Private Use Area-B, SPUA-B)
Содержание |
Базовая многоязыковая плоскость [править]
![]() |
|
Базовая плоскость UNICODE |
Плоскость 0 (Основная многоязыковая плоскость, англ. Basic Multilingual Plane, BMP) содержит символы практически для всех современных письменностей и большое число специальных символов. Большая часть таблицы занята китайско-японскими иероглифами и своеобразными корейскими буквами.
В Unicode 5.2 в этой плоскости представлены следующие наборы символов:
- Управляющие символы C0 (0000—001F)
- Основная латиница (0020—007F)
- Управляющие символы C1 (0080—009F)
- Дополнительные символы Latin-1 (00A0—00FF)
- Расширенная латиница-A (0100—017F)
- Расширенная латиница-B (0180—024F)
- Расширенный набор символов международного фонетического алфавита (0250—02AF)
- Некомбинируемые протяжённые символы-модификаторы (02B0—02FF)
- Комбинируемые диакритические знаки (0300—036F)
- Греческий и коптский алфавиты (0370—03FF)
- Кириллица (0400—04FF), см. также Кириллица в Юникоде
- Дополнительные символы кириллицы (0500—052F)
- Армянский алфавит (0530—058F)
- Письменности с направлением справа налево:
- Иврит (0590—05FF)
- Арабское письмо (0600—06FF)
- Сирийский алфавит (0700—074F)
- Дополнительные символы арабского письма (0750—077F)
- Тана (мальдивское письмо) (0780—07BF)
- Нко (07C0—07FF)
- Самаритянское письмо (0800-083F)
- Мандейский алфавит (0840-085F)
- Расширенный набор символов арабского письма-А (08A0-08FF)
- Индийские письменности:
- Деванагари (0900—097F)
- Бенгальская (0980—09FF)
- Гурмукхи (0A00—0A7F)
- Гуджарати (0A80—0AFF)
- Ория (0B00—0B7F)
- Тамильская (0B80—0BFF)
- Телугу (0C00—0C7F)
- Каннада (0C80—0CFF)
- Малаялам (0D00—0D7F)
- Сингальская (0D80—0DFF)
|
|
Наборы символов, предложенные для кодирования и находящиеся на стадии рассмотрения:
- Комбинированные диакритические знаки (расширение A) (1AB0-1AFF)
- Расширенный набор символов сунданского письма (1CC0-1CCF)
- Мьянманская письменность (расширение B) (A9E0-A9FF)
- Расширенный набор символов письменности мейтей (AAE0-AAFF)
- Расширенная латиница-E (AB30—AB8F)
- Варанг-кшити (AB30—AB6F)
- Письменность Бериа для языка загхава (AB90—ABBF)
Дополнительная многоязыковая плоскость [править]
Плоскость 1 (дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена, в первую очередь, для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.
Дополнительная многоязыковая плоскость разделена на следующие поддиапазоны:
- U+10000—U+100FF Линейное письмо Б
- U+10100—U+1018F Древние системы счисления
- U+10190—U+107FF Алфавиты, слоговые письменности и наборы символов с направлением письма слева направо
- U+10800—U+10FFF Алфавиты и слоговые письменности с направлением письма справа налево
- U+11000—U+11D7F Брахмические письменности
- U+11D80—U+12FFF Клинопись и другие древние письменности
- U+13000—U+15BFF Иероглифы древних египтян и майя
- U+15C00—U+15FFF Ацтекские пиктограммы
- U+16000—U+167FF Вновь созданные письменности
- U+16800—U+16FFF Африканские и другие письменности
- U+17000—U+1B4FF Большие азиатские письменности
- U+1B500—U+1BBFF Протоэламская письменность
- U+1BC00—U+1BFFF Стенография
- U+1C000—U+1CA7F Иероглифы микмак
- U+1CA80—U+1CDFF Ронго-ронго
- U+1CE00—U+1CFFF Не используется
- U+1D000—U+1DFFF Системы условных обозначений
- U+1E000—U+1E7FF Не используется
- U+1E800—U+1EFFF Письменности с направлением справа налево
- U+1F000—U+1F0FF Игровые символы
- U+1F100—U+1F2FF Наборы буквенно-цифровых и иероглифических символов
- U+1F300—U+1F7FF Наборы пиктограмм
- U+1F800—U+1FFFF Не используется
В Unicode 5.2 в этой плоскости представлены следующие наборы символов:
|
|
Наборы символов, предложенные для кодирования и находящиеся на стадии рассмотрения:
|
|
Дополнительная иероглифическая плоскость [править]
Плоскость 2 (Дополнительная иероглифическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.
В Unicode 5.2 в этой плоскости представлены следующие наборы иероглифов:
- Унифицированные иероглифы ККЯ (расширение B) (20000—2A6DF)
- Дополнение совместимых иероглифов ККЯ (2F800—2FA1F)
Наборы иероглифов, предложенные для кодирования и находящиеся на стадии рассмотрения:
- Унифицированные иероглифы ККЯ (расширение C) (2A700—2B74F)
- Унифицированные иероглифы ККЯ (расширение D) (2B750—2B81F)
- Унифицированные иероглифы ККЯ (расширение E) (2B820—2F7FF)
Третичная иероглифическая плоскость [править]
Плоскость 3 (Третичная иероглифическая плоскость, англ. Tertiary Ideographic Plane, TIP) зарезервирована для архаичных китайских иероглифов.
Третичная иероглифическая плоскость предварительно разделена на следующие поддиапазоны:
- U+30000—U+317FF Гадательные надписи на костях
- U+31800—U+31FFF Не используется
- U+32000—U+32FFF Надписи на бронзовых сосудах
- U+33000—U+33FFF Не используется
- U+34000—U+368FF Письмо стиля «малая печать»
- U+36900—U+3FFFF Не используется
В вышеперечисленные диапазоны предполагается включить следующие наборы иероглифов:
- в диапазон U+30000—U+317FF — древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях черепах и костях животных.
- в диапазон U+32000—U+32FFF — иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах.
- в диапазон U+34000—U+368FF — иероглифы в стиле «малая печать» (сяочжуань, 小篆).
В будущем также предполагается включить наборы иероглифов Периода Сражающихся царств.
В настоящее время в Консорциуме Юникод поставлен вопрос о будущем названии плоскости 3.
Дополнительная плоскость особого назначения [править]
Плоскость 14 (Дополнительная плоскость особого назначения, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.
В Unicode 5.2 в этой плоскости представлены следующие наборы символов:
- Символы тегов (E0000—E007F)
- Дополнительные селекторы вариантов начертания (E0100—E01EF)
Области для частного использования [править]
Некоторые диапазоны Юникода выделены для частного использования и экспериментов. Они включают:
- Частную область в Базовой многоязыковой плоскости U+E000—U+F8FF
- Дополнительные плоскости 15 (U+F0000—U+FFFFF) и 16 (U+100000—U+10FFFF)
Ссылки [править]
- The Unicode Standard Latest Version (англ.) — последняя версия стандарта.
- The Unicode Standard 5.0 (англ.)
- Таблица символов Юникода (англ.) (рус.) (нем.)
- Изображения всех Unicode символов в PDF-файлах (англ.)
| Кодировки символов | |||
|---|---|---|---|
| Основы → | алфавит • текст ( файл • данные ) • набор символов • конверсия | ||
| Исторические кодировки → | Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 | Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 | |
| совре- менное 8-битное представ- ление |
символы → | ASCII ( управляющие • печатные ) | не-ASCII ( псевдографика ) |
| 8бит. код.стр. | Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic | ||
| ISO 8859 → | 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16 | ||
| Windows → | 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258 | WGL4 | ||
| IBM&DOS → | 437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ ) | ||
| Много- байтные |
Традиционные → | DBCS ( GB2312 ) • HTML | |
| Unicode → | UTF-16 • UTF-8 • список символов ( кириллица ) | ||
| Связанные темы → |
интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение | Утилиты: iconv • recode | |
