Универсальный набор символов

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

UCS (англ. Universal Coded Character Set) представляет собой стандартный набор символов, определенный международным стандартом ISO/IEC 10646, который является основой многих символьных кодировок. UCS содержит чуть более 128 000 абстрактных символов, как и в Unicode 9.0, каждый из которых определяется однозначно сочетанием имени и целого числа (так называемый "кодовый пункт").

Символы (буквы, цифры, идеограммы, логограммы и т.д.) из многих языков, манускриптов, традиций мира представлены в UCS с уникальными кодовыми пунктами. Символы из ранее не представленных письменностей добавляются в UCS, постоянно совершенствуя ее.

С 1991 года Unicode Inc. и ISO в сотрудничестве разработали Стандарт Unicode и ISO / IEC 10646. Уникальные имена символов и их кодовые пункты в Unicode 2.0 в точности совпадают с ISO/IEC 10646-1: 1993. После того, как Unicode 3.0 был опубликован в феврале 2000 года, соответствующие новые и обновленные символы вошли UCS по стандарту ISO/IEC 10646-1: 2000. В 2003 году 2 части ISO / IEC 10646 были объединены, и теперь добавление символов проходит с приблизительной синхронностью со стандартом Unicode.

UCS содержит более 1,1 миллиона возможных кодовых пунктов, доступных для использования/распределения, но только первые 65 536 (Базовая многоязыковая плоскость (Basic Multilingual Plane, BMP)) вошли в общее употребление до 2000 года. Ситуация начала меняться, когда Китайская Народная Республика (КНР) вынесла решение в 2006 году о том,что все программное обеспечение, продаваемое под их юрисдикцией, должно поддерживать стандарт GB 18030. Это решение привело к тому,что программное обеспечение, предназначенное для продажи в КНР, должно было выходить за пределы BMP. Система сознательно оставляет много кодовых пунктов не заполненными, даже в BMP, для будущего расширения набора и для того, чтобы свести к минимуму конфликты с другими формами кодирования.