Кодовая страница

Материал из Википедии — свободной энциклопедии

Перейти к: навигация, поиск

Кодовая страница (англ. code page) — таблица, сопоставляющая каждому значению байта некоторый символ (или его отсутствие). Обычно код символа имеет размер 8 бит, так что кодовая страница может содержать максимум 256 символов, из чего вытекает резкая недостаточность всякой 8-битной кодовой страницы для представления многоязычных текстов. К тому же часть символов используется как управляющие, из-за чего число печатных символов редко превышает 223.

Исторически термин code page был введён корпорацией IBM; сменные кодовые страницы использовались для поддержки различных языков (имеющих алфавитные системы письма). В последнее время кодовой страницей нередко называют (неправильно) более общее понятие набора символов.

[править] Кодовые страницы сегодня

В настоящее время в основном используются кодировки двух типов: совместимые с ASCII и совместимые с EBCDIC[1], с подавляющим преобладанием первых. В ASCII-совместимых кодировках фиксированы коды 95 печатных и 33 управляющих символов, а остальные 128 кодовых позиций используются для различных символов, не входящих в ASCII.

Для кодирования текстов на русском языке (т.е. букв кириллицы) наиболее широко применяются следующие кодовые страницы:

Использование различных кодовых страниц создаёт много неудобств как для пользователей, так и для программистов. При попытке прочесть текстовый файл при помощи кодовой страницы, несовместимой с той в которой он был создан, возникают крокозябры. В последние годы получил широкое распространение Unicode как альтернатива традиционным кодовым страницам.

  1. Кодировки на базе EBCDIC (например, ДКОИ-8) используются только на некоторых мэйнфреймах.
Кодировки символов
Основы → алфавиттекстфайлданные ) • набор символовконверсия
Исторические кодировки → Докомп.: семафорная (Макарова)МорзеБодоМТК-2 Комп.: 6 битУППRADIX-50EBCDICДКОИ-8 ) • КОИ-7ISO 646
совре-
менное
8-битное
представ-
ление
символы ASCIIуправляющиепечатные ) не-ASCIIпсевдографика )
8бит. код.стр. Разные →   Кириллица: КОИ-8ГОСТ 19768-87MacCyrillic
ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16
Windows → 1250 1251(кир.) 1252 1253 1254 1255 1256 1257 1258WGL4
IBM&DOS → 437850855866 «альт.»МИК )
Много-
байтные
Традиционные → DBCSGB2312 ) • HTML
Unicode → UTF-16UTF-8список символовкириллица )
Связанные
темы →
интерфейс пользователяраскладки клавиатурлокальперевод строкишрифткрокозябрытранслит Утилиты: iconvrecode