Обсуждение:Юникод

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Метод ввода в Windows[править код]

В разделе "Метод ввода" написан следующий абзац: "Более универсальный способ ввода символа, код которого известен — зажать Alt, нажать клавишу «плюс» в дополнительном блоке клавиатуры, и затем набрать шестнадцатеричный код требуемого символа. Например, нажатие Alt+Plus+f1 вставит букву «ñ». Этот способ, однако, работает не во всех элементах управления, позволяющих вводить текст."

Это очень странный способ, и он, конечно, не работает. Во-первых, клавишу Плюс нажимать совсем не обязательно (хотя и можно). Во-вторых, набрать код нужно целиком на цифровой клавиатуре (то есть, "f" в данном случае набрать не удастся :) И в-третьих (именно из-за второго) код нужно набрать не в шестнадцатеричном, а в десятеричном виде.

Предлагаю абзац исправить вот так: "Более универсальный способ ввода символа, код которого известен — зажать Alt, а затем на дополнительном цифровом блоке клавиатуры набрать код требуемого символа в десятеричном представлении. Например, нажатие Alt+937 вставит букву «Ω». Этот способ, однако, работает не во всех элементах управления, позволяющих вводить текст."

92.125.254.9 06:13, 14 декабря 2008 (UTC)[ответить]
Предложенный абзац содержит больше ошибок, чем исходный :). Я дополнил текст, теперь он точнее. Если что — критикуйте. Sergei 11:37, 14 декабря 2008 (UTC)[ответить]
Уточнил и добавил примеры. Ещё есть идея добавить методы ввода с альтом в статью Alt (клавиша). Abc3 13:10, 15 февраля 2009 (UTC)[ответить]

Из текущей(21:07, 1 мая 2010 (UTC)) версии статьи:

Иногда можно набрать шестнадцатеричный код, нажать Alt+X, и код будет заменён на соответствующий символ, например, в WordPad, Microsoft Word и в адресной строке браузера. В редакторах Alt+X выполняет и обратное преобразование.

Тут речь, скорее, не о поддержке в Windows, а о поддержке в WordPad и Microsoft Word. А про адресную строку браузера — так вообще неправда, как минимум не работает в Хроме. Предполагаю, это работает только в IE(пока не проверял на нём и других браузерах, кроме Хрома). (В WordPad'е сработал сработал, а MSWord у меня не установлен. В notepad и Notepad++ — нет.)

И почему в статье нету:

Более универсальный способ ввода символа, код которого известен — зажать Alt, а затем на дополнительном цифровом блоке клавиатуры набрать код требуемого символа в десятеричном представлении. Например, нажатие Alt+937 вставит букву «Ω».

?

Вот здесь — речь действительно о поддержке в самих «окошках», у меня ещё ни разу не было, чтобы он где-нибудь не работал. Если он действительно «не работает» в каком-то приложении, то в каком тогда?

P.S. Требуется проверка на версиях винды, отличных от той, которой я пользуюсь т.е. отличных от Windows XP. Не думаю, что не будет работать в последующих, но в предыдущих может и не работать. --エクス4 21:07, 1 мая 2010 (UTC)[ответить]

Дополнение: ...работает, только не всегда вводится ожидаемый символ, попробую найти в Гугле описание этого способа... --エクス4 21:43, 1 мая 2010 (UTC)[ответить]

Да работает оно. Добавьте уже кто-нибудь. 92.113.169.190 10:03, 13 июня 2010 (UTC)[ответить]

Переименование в Unicode[править код]

Участник:Maxim Razin очень решительно переименовал статью в Unicode. Мне это кажется не очень правильным. У нас русская энциклопедия и в ней максимальное число статей должно быть названо по-русски. В данном случае русское название вполне устоялось (хотя есть споры насчёт первой буквы), да и звучит оно вполне нормально. Предлагаю совершить обратное переименование. LoKi 18:35, 28 января 2006 (UTC)[ответить]

Участник:Maxim Razin, Вы утверждаете, что переименовали статью, чтобы закончить споры на тему «Ю» или «У». Так вот эти споры уже давно не ведутся, а Вы своим переименованием можете сейчас их заново развязать. LoKi 18:35, 28 января 2006 (UTC)[ответить]

Я тоже за русское название. Написание латиницей следует использовать только когда более-менее общепонятного русского названия нет совсем. — Monedula 21:32, 28 января 2006 (UTC)[ответить]
Поддерживаю. Аргументы в пользу «У» не кажутся мне такими уж весомыми. Давайте, пожалуйста, вернём «Юникод». CodeMonk 22:02, 28 января 2006 (UTC)[ответить]

Готово, переменовал обратно. Я допускаю, что существуют и другие точки зрения на вопрос, но в отношении спорных статей лучше сначала обсуждать. Особенно когда речь идёт о настолько значительной статье. LoKi 22:56, 28 января 2006 (UTC)[ответить]

Пусть будет по-русски. — doublep 23:01, 28 января 2006 (UTC)[ответить]

<!--грязные ругательства--> любители Майкрософт Уиндоуз! Ну сколько можно заниматься <!--ещё более грязные ругательства-->! Выяснили же экспериментально, что общепринятого русского названия нет, так ведь опять <!--совсем грязные ругательства-->. Часть участников считает, что название «Юникод» никуда не годится (кстати, основное возражение противников избрания статьи), другая часть — что статью нельзя называть «Уникод», поэтому Unicode — единственное нейтральное название. Если можете предложить более нейтральное, предлагайте. Maxim Razin 00:10, 10 февраля 2006 (UTC)[ответить]

Товарищ Maxim Razin! Зачем Вы опять переименовываете статью, не посоветовавшись с народом? Народ решил, что лучше всего Юникод, чуть похуже Уникод, и совсем плохо Unicode. Так что переименовывайте обратно. — Monedula 07:01, 10 февраля 2006 (UTC)[ответить]
Поддерживаю. Пусть будет кириллицей. —ajvol 08:17, 10 февраля 2006 (UTC)[ответить]
А другой народ решил, что Юникод ни в коем случае не годится, см. напр. ВП:КИС#Юникод. Да и в здесь в обсуждении договориться по человечески, Юникод или Уникод не удалось. Или вы считаете, что название «Юникод» более нейтрально, чем «Unicode»?
Удивляет, что сложившаяся практика — при отсутствии стандартной транслитерации давать оригинальное название — даёт осечку на этой статье. Или Java, Windows и GNU тоже надо переименовать? Maxim Razin 09:28, 10 февраля 2006 (UTC)[ответить]
Не все читают ВП:КИС. Надо было сначала здесь предложить переименование, а потом переименовывать. Статья называется «Юникод» уже давно, вроде всех это устраивало. Можно попробовать устроить голосование (с 3 вариантами — Ю, У, U). — Monedula 10:09, 10 февраля 2006 (UTC)[ответить]

Назовите хоть один критерий, по которому случай Unicode отличается от Java. Maxim Razin 10:56, 10 февраля 2006 (UTC)[ответить]

Участник:Maxim Razin, не стыдно Вам? Вы же член Арбитражного комитета, а ведёте себя, как начинающий участник. :-(У вас одно мнение, у других участников — другое. Давайте сначала обсуждать, а потом переименовывать. LoKi 10:59, 10 февраля 2006 (UTC)[ответить]

Я второй раз вынужден был переименовать статью в её исходный вариант. Настоятельно прошу не переименовывать до решения этого вопроса. Кстати, решение уже было давно принято (в пользу «Юникод»), ну да ладно: если появились новые мнения, давайте обсуждать. LoKi 11:03, 10 февраля 2006 (UTC)[ответить]

Было бы обсуждение — а то ведь сплошные эмоции… Maxim Razin 18:46, 10 февраля 2006 (UTC)[ответить]
Вы инициатор переименования — Вы и начните обсуждать. ;) Обсуждение, на самом деле, давно было и давно прошло. Не помню правда, на какой странице. Если кто-то знает, дайте ссылку. LoKi 18:59, 10 февраля 2006 (UTC)[ответить]
Начали обсуждать задолго до меня. Мне просто надоела война У и Ю, так что захотелось решительных мер. Наверное, своими действиями я лишил сторонников У и Ю повода для holy war, за это на меня и набросились :) По крайней мере, ни одного аргумента, почему Unicode не является наиболее нейтральным вариантом, пока не поступило. Maxim Razin 17:35, 11 февраля 2006 (UTC)[ответить]
Боже мой, какой детский уровень!!! :^(Ув. Максим Батькович. Неужели Вы не понимаете элементарного: если это русский вариант Википедии, то всё, за малым исключением, должно быть на русском языке, поэтому Microsoft Windows NT, Unicode должны уйти, исключая строку пояснения для 2-го? — ТЖА.
Вперёд! Докажите, что Майкрософт Уиндоус ЭнТи — это правильное название для статьи (или перестаньте троллить) Maxim Razin 19:07, 11 февраля 2006 (UTC)[ответить]
Тролингом я не занимаюсь. Эту побасёнку оставьте для кого-то иного. Повторять элементарное — влом. — ТЖА.
Максим, наверное, потому, что в русском языке используется не латинский алфавит, а русский гражданский. :) – Wolliger Mensch

Разделение статьи[править код]

По-моему, статья получается уже слишком большой. Предлагаю вынести разделы про UTF-8, UTF-16, UTF-32 и ISO/IEC 10646 в отдельные статьи. Есть возражения? CodeMonk 23:53, 21 июля 2005 (UTC)[ответить]

Думаю, что статья ещё не такая большая, чтобы её делить. Хотя, конечно, когда-нибудь делить придётся. См. en:Unicodeajvol 05:48, 22 июля 2005 (UTC)[ответить]
Уже разделение, видимо, идёт — см. UTF-8, нужно отразить в основной статье --Yar-Tour 23:43, 1 апреля 2007 (UTC)[ответить]

Ю или У?[править код]

По Яндексу частота использования слова «Юникод» в 3,5 раза превышает «Уникод». А личные нападки — признак нехватки реальных аргументов. MaxiMaxiMax 12:38, 10 Окт 2004 (UTC)

Вообще-то, в Яндексе полно зеркал Википедии. То, что написано в Вики становится стандартом.—Nxx 11:40, 18 января 2006 (UTC)[ответить]
Частота здесь — не показатель. Одно время было модно писать «Таллинн», «в Украине» и «Кыргызстан», но теперь здравый смысл явно побеждает. Так что и «Юникод» скоро вымрет. — Monedula 05:31, 11 Окт 2004 (UTC)
«в Украине», допустим, писать было никогда не модно. Что же касается Юникода, то, когда (если) он станет большинством писаться «Уникод», тогда и мы у себя поменяем. Не надо забегать вперёд паровоза, мы не определяем каков должен быть русский язык, мы его используем в таком виде каков он есть на текущий момент. MaxiMaxiMax 05:39, 11 Окт 2004 (UTC)
Я нигде до «Википедии» не встречал «Юникод». Уж поверьте. А мама у меня была учителем информатики. Ни в одном учебнике такого не было.—Nxx 11:42, 18 января 2006 (UTC)[ответить]
Именно мы, пишущие, и определяем, каким должен быть русский язык. — Monedula 07:53, 11 Окт 2004 (UTC)
Угу, «Мы, Николай II». Может стоит несколько пересмотреть масштабы своего величия и влияния? Большинством в разговорной речи употребляется именно «Юникод», что и отражено в письменной речи. Поверьте, я совсем не против чтобы было «Уникод» или даже «Равнознак», но нужно соответствовать сложившейся ситуации MaxiMaxiMax 08:00, 11 Окт 2004 (UTC)
А если эта «сложившаяся ситуация» — плохая и неправильная?  Будем ждать, когда она сама исправится? — Monedula 09:23, 11 Окт 2004 (UTC)
А чем «плоха и неправильна» ситуация с юникодом? Может, ещё Юникс в Уникс начать насильно переименовывать? Aldanur
Чем плоха и неправильна — см. саму статью.  Речь как раз и идёт о том, чтобы не насаждать насильно «юникод» в качестве единственно правильного написания. — Monedula 10:15, 11 Окт 2004 (UTC)
Никто его и не насаждает. Оно само сложилось. Правильное оно или нет — судить не нам, а всем носителям русского языка. А в энциклопедии во всех статьях термины должны называться одинаково, последовательно. Поскольку именно Юникод сейчас является нормой в русском языке, то и нужно всмегда использовать его, а не так что кто как хочет тот так и пишетMaxiMaxiMax 10:22, 11 Окт 2004 (UTC)
С чего Вы взяли, что «Юникод» — более распространено? Всякий раз, когда мы слышим компьютерное слово в русской речи, мы должны сперва решить, использовано английское слово или русское. А уж потом, для русского варианта решать, насколько оно распространено. Так, очень часто у нас говорят «юзер», «партишн», «колокейшн», «мемори». Но это же не значит, что пользователь компьютера называется юзером! Просто человек не стал употреблять русское слово, а употребил английское. Хотя я сам компьютерщик и часто использую подобные слова, но статьи в энциклопедии, такие как «юзабилити», «юникод» меня шокируют. Не энциклопедия, а хакерский портал какой-то dabaume eщe bot tak pucat, y xakepob так тоже принято! Так что тут, как раз решение однозначно — по-русски приваильно «уникод». В качестве компромисса можно сделать статью с английским заголовком Unicode и создать на неё два равноправных перенаправления. Dims 20:18, 17 декабря 2005 (UTC)[ответить]
Нравится это или не нравится, но сейчас в языке именно такая тенденция, заимствовать как слышыцца. И не надо гадать, как бы выглядело слово унiкодъ в XIX веке. И дело не в компьютерщиках — аниме, драм-энд-бэйс, пиар, сиквел следуют той же схеме. Maxim Razin 09:25, 18 января 2006 (UTC)[ответить]
MaxiMaxiMax, Вы же не считаете всерьёз, что Яндекс может служить арбитром в данном вопросе (да и во многих других — тоже)? «Правильное оно или нет — судить не нам, а всем носителям русского языка.» — норма языка к Яндексу (или Гуглу) не имеет почти никакого отношения. Потому что норма — это не просто «среднее арифметическое». И, кстати, ни Яндекс, ни Гугол не претендуют на то, чтобы правильно отражать какие-то языковые характеристики. Всё, что Вы можете получить из этих поисковых машин — это количество ссылок, соответствующих Вашему запросу. Ни больше, ни меньше. К правильности, к норме, к грамотности это имеет только касательное отношение.
P.S. Мне одинаково не нравятся оба варианта: Юникод выглядит странно для глаза, Уникод — для уха.
DIG 00:56, 8 Ноя 2004 (UTC)
Это не показатель. Я ставил эксперимент — переводил язык Си++ на русский язык при помощи definов. Сначала воспринимается необычно, а потом привыкаешь и даже появляется вкус. Действительно, ведь слова — это произвольные сочетания звуков. Было бы странно, если бы некоторые из них резали слух. Dims 20:25, 17 декабря 2005 (UTC)[ответить]
Да пожалуйста, можно перевести хоть на китайский. Вот только тогда программистам, использующим чужой код, придётся стать полиглотами (вспоминаю, каково разбирать имена переменных и комментарии на малознакомом языке вроде нидерландского). Basic English, конечно, не идеален для международного общения, но это лучше, чем ничего. Maxim Razin 22:27, 17 декабря 2005 (UTC)[ответить]
Минуточку :) В данном случае я не говорил, что это хорошо. Я просто привёл результаты своих опытов над чувством странности. Но, если уж на то пошло, разбирать чужой код в любом случае архисложная задача. Когда это приходится делать — это значит, что что-то не так построено в технологии производства. Использование чужого кода должно быть сведено к использованию открытых, хорошо документированных (причём, желательно на родном языке) интерфейсов. В случае же, когда ведётся разработка внутреннего комплексного проекта, использование имён на родном языке просто повысило бы производительность труда. В общем, в данном вопросе в определённой степени требование совместимости вступает в противоречие с требованием дружественности. В различных ситуация оптимальное решение может быть разным. Dims 15:45, 18 декабря 2005 (UTC)[ответить]

Разрешите и мне своё словечко вставить. слово «Unicode» напрямую связано с английским языком, так как первоначально было «придумано» компаниями IBM и Xerox как сокращение от «Unification Code». Так что… решайте. -Влад Ярославлев 22:33, 25 Дек 2004 (UTC)

Такую ценную инфу о происхождении термина надо ИМХО писать в статье, а не на странице обсуждения. CodeMonk 23:58, 21 июля 2005 (UTC)[ответить]
С другой стороны, в русском языке тоже есть слова «унификация» и «код». Что мешает нам «отзеркалить» английскую логику (то есть сделать кальку)? — Monedula 00:21, 26 Дек 2004 (UTC)

Вопрос «правильно или неправильно» не может и не должен стоять в Википедии, если есть две точки зрения, одинаково объективные, имеющие доводы в свою защиту и сторонников. Так сказано в правилах Википедии. Одинаково не может стоять и вопрос о возобладании одной точки зрения, её общепринятости. Единственное, чем можно показать приверженность точке зрения — это названием статьи. Сравните: статья помещена в Уникод, а на Юникод — редирект; или наоборот, как это есть сейчас. Так что я считаю: есть две точки зрения, обе должны быть отражены беспристрастно. Как это и сделано сейчас. Пометка «редк.» указывает на фактические данные, а именно — на частоту употребления той или иной версии (а в этом деле Яндекс и Гугл — очень даже показатели). Если в русском языке будет чаще употреблятся «уникод» — надо будет перенести статью в «Уникод», а здесь поставить редирект. И в «Уникод» поставить у «Юникод» помету «редк.». Bes island 00:50, 26 Дек 2004 (UTC)

Мне кажется, что «уникод», как сокращение от «универсальное кодирование», может относиться к чему угодно в зависимости от контекста (то есть более общее понятие), а «Юникод» — это устоявшаяся транслитерация названия станарта универсального кодорования символов языков (имя собственное). —ajvol 23:33, 13 декабря 2005 (UTC)[ответить]

Дело в том, что никто не употребляет слово «уникод» в значении «универсальное кодирование» (любое) или «универсальный код» (любой). «Уникод» всегда означает «Unicode», т. е. слова «Уникод» и «Юникод» равнозначны. — Monedula 09:06, 14 декабря 2005 (UTC)[ответить]

Вопрос всплывает с регулярностью, достойной иного применения. Судя по количеству ломаемых копий, ни один из вариантов нельзя назвать предпочтительным — поэтому в название лучше вынести оригинальное написание Unicode. Maxim Razin 09:25, 18 января 2006 (UTC)[ответить]

Из раздела «Юникод» или «Уникод»?[править код]

С пуристической же точки зрения предпочтительнее использовать написание «Уникод», так как в русском языке уже есть морфемы «уни-» и «код».
По-моему, фраза не совсем корректна: с пуристической точки зрения предпочтительнее использовать «равнознак» или «равнокод». Да я и не уверен, что стоит строить фразу таким образом: «с пуристической точки зрения предпочтительнее…» LoKi 23:12, 14 декабря 2005 (UTC)[ответить]

«Unicode» — международный термин, никак не привязанный к английскому языку
Эта фраза также вызывает сомнение. «Unicode», безусловно, произошёл именно от английских слов и в английском языке. А то, что сейчас это слово используется повсеместно, не имеет значения: мы ведь рассматриваем именно генезис слова. LoKi 23:12, 14 декабря 2005 (UTC)[ответить]

Вообще-то, хоть слово возникло в английском, но от заимствованных из латыни слов.—Nxx 10:51, 18 января 2006 (UTC)[ответить]

Участники забыли о процесах стандартизации языка, поэтому будут писать «уникод».

Текст "Написание «Юникод» уже твёрдо вошло в русскоязычные тексты. Согласно «Яндексу», частота использования этого слова в 33 раза превышает «Уникод»" представляются некорректным, поскольку не указан момент замера соотношения 33, и, например, на данный момент (11 мая 2009 г.) «Яндекс» даёт 2 миллиона страниц на слово юникод и 1 миллион страниц на слово уникод, а 2 миллиона, как известно, больше 1 миллиона примерно в 2 раза, а никак не в 33. От такой фразы возникает впечатление, что автор статьи не представляет тебе факты, а старается убедить тебя в том, в чём сам не уверен. Pancar 19:22, 11 мая 2009 (UTC)[ответить]

С пуристической же точки зрения предпочтительнее использовать написание «Уникод», так как в русском языке уже есть морфемы «уни-» и «код».

Надо быть последовательным[править код]

Кто пишет "Юникод", тот также должен тогда писать "Юниверситет".

Согласен! Это какая-то странная русская особенность: либо полностью игнорировать устоявшееся в мире звучание, либо, наоборот, в тех случаях, когда и не сильно обязательно, намеренно коверкать устоявшиеся в русском корни... Как это было с тем же «ноутбуком». Очевидно, все политики отправляют друг другу «ноуты протеста», мысли свои записывают в «блокноуты» етц... Кстати, в мире нигде не говорят «ноутбук», говорят «лаптоп» (ну, или «лэптоп») ;) --посторонний 12:33, 31 января 2013 (UTC)[ответить]

UCS-2 и UCS-4[править код]

В статью надо бы внести понятия UCS-2 и UCS-4. Кратко сказано, что когда-то было 16 бит, но нужны формулировки.

Кстати, в Microsoft OS-ах действительно UTF-16 или только UCS-2? Понимает ли винда символы выше 0xFFFF? —Maxim Razin 23:50, 4 Янв 2005 (UTC)

Начиная с Windows 2000 у них везде UTF-16, а до этого было UCS-2. — Monedula 03:38, 5 Янв 2005 (UTC)
Действительно было бы неплохо написать, что такое UCS-2/UCS-4 и чем они отличаются от UTF-16/UTF-32, дабы такие как я не продолжали пребывать в уверении, что это одно и то же :) SiMM 10:22, 24 июн 2005 (UTC)
Кстати, не совсем так, разница очень небольшая но есть. В ядре WCHAR (т.е. это ближе к UCS-2) (кэш, если сервер лежит) так и остается, а уже сверху, на уровне Uniscribe, сделана работа с суррогатами. drdaeman 07:50, 25 сентября 2006 (UTC)[ответить]

Коллеги, ну так:

старший байт (MSB) может записываться либо перед младшим (UTF-16 Big Endian, от big end-ian* — большим концом), либо после младшего (UTF-16 Little Endian, от little end-ian* — малым концом).

по русски уже не пишут. Двусмысленность какая-то!

Вданном контексте нельзя говорить о «большом» или «малом», так my big brother переводится как «мой старший брат», а не «мой большой брат». Я - за «старшее окончание» / «младшее окончание». --AlefZet 08:01, 2 августа 2006 (UTC)[ответить]
Не понимаю, в чём двусмысленность? CodeMonk 13:34, 13 августа 2005 (UTC)[ответить]
Двусмысленность в слове «конец». Конечно, каждый всё понимает в меру своей испорченности, но, чтобы устранить двусмысленность совсем, предлагаю заменить «конец» на «окончание». То есть, например, писать «с большим окончанием». LoKi 11:14, 14 декабря 2005 (UTC)[ответить]
Не стоит принимать это в расчёт. —CodeMonk 20:46, 18 января 2006 (UTC)[ответить]
По-моему, тоже. ;) LoKi 14:59, 19 января 2006 (UTC)[ответить]

Строчная или заглавная буква[править код]

Мне кажется, что «Юникод» является названием и следовательно должен писаться с заглавной буквы. Так, например, это делается на сайте Майкрософт [1]. —ajvol 07:59, 26 ноября 2005 (UTC)[ответить]

Слово «уникод» действительно должно писаться с маленькой буквы как сокращение от «универсальный код». Кстати Лингво переводит «Unicode» именно как «уникод» (со строчной буквы) и даже не даёт варианта написания «Юникод». —ajvol 07:50, 8 декабря 2005 (UTC)[ответить]
Lingvo ни в коем случае не должен считаться экспертом в области правописания, произношения и т. п. Хотя я глубоко уважаю и постоянно использую этот словарь, я никогда не обращаюсь к нему в спорных случаях, так как Lingvo содержит массу ошибок. LoKi 11:19, 14 декабря 2005 (UTC)[ответить]
Уникод — это собственное имя технологии, согласено правилам должно писаться с большой буквы.--A.I. 12:18, 14 декабря 2005 (UTC)

Юникод и программисты[править код]

Раздел очень виндоцентричный. Перенёс содержание в отдельную статью Юникод в операционных системах Microsoft, а вместо него напишу «Реализации» с упоминанием основных ОС, и сред разработки (Java как первопроходец). Maxim Razin 10:24, 11 декабря 2005 (UTC)[ответить]

Латинский шовинизм[править код]

Просто так, констатация. Любопытно заметить, что то, что в Юникоде (и во всех других кодах) латинские буквы кодируются одинаково, называется модным и уважаемым словом «совместимость», а аналогичное желание с русскими буквами никак не называется и никто к этому не стремится, вследствие чего мы имеем бардак с русскими кодировками. Dims 14:39, 16 декабря 2005 (UTC)[ответить]

Вы кажется плохо знаете историю и принцыпы кодирования… Дело в том, что ещё давно латинские буквы (точнее американские) и спец. символы были определны в стандарте ASCII (там определялось первые 128 симоволов). И ASCII стал общепринятым стандартом, который и «держит» Unicode (там не только буквы, но и основные спец. симовлы). В том же ASCII (или другом нормативном документе) обсуждалось, что остальные 129—256 символов будут кодироваться в зависимости от языка. С русским есть огромные разнобой даже в этом — поскольку очень не много языков содержат такую неразбириху с кодировками… И какое желание может быть с русскими буквами, когда номера от 129—256 занимают так же буквы кучи других алфавитов? --A.I. 14:47, 16 декабря 2005 (UTC)
Давайте не будем начинать с обвинений. Я начинал работать ещё на ЕС-1010. БЭСМ, правда, не застал. Так вот, я, как раз, и обращаю внимание на забавный факт, что у нас, у русских, когда говоришь о латинском алфавите, они прекрасно понимают, что такое совместимость. А когда о русском, то словно отключается какая-то часть мозга. Вы разве не понимаете, что стандарт ASCII, где буква A означает American, просто-напросто наплевал на совместимость для русского алфавита? И это естественно, посколько с какой стати оны должны заботиться о нас. Непонятно, почему наши этого не понимают. Нужно было разработать свой стандарт, где коды от 0-128 отданы русским буквам, вот и всё. Dims 15:19, 16 декабря 2005 (UTC)[ответить]
Ага, и разработать свои собственные операционные системы, которые бы такое насилие над аски переваривали бы, и софтику понаписать… На самопальных компиляторах, ессно. Чтоуж, Расея всегда была родиной слонов --MaxSemtalk 15:53, 16 декабря 2005 (UTC)[ответить]
Почему такая парадоксальная реакция? Почему мы адекватно воспринимаем желание производить собственные продукты питания, собственные самолёты, собственные автомобили, но когда речь заходит о собственных операционных системах, то крыша едет? Ещё когда компьютеры были не так распространены, меня ещё тогда удивляло, почему какая-нибудь версия Юникс или дажа совершенно своя операционная система, которая ни с чем не совместима — и та писалась с использованием английского языка и кодировок? Dims 08:19, 17 декабря 2005 (UTC)[ответить]
См. КОИ-7. Там русские буквы расположены как раз так, как Вам хочется (в диапазоне 0-128). Жаль только, что никто его не использует (по вполне понятным причинам). — Monedula 18:49, 16 декабря 2005 (UTC)[ответить]
Конечно по понятным — лежащим в области психологии. Каждый раз, когда американцы собирались, чтобы придумать новую кодировку, они аккуратно заботились о совместимости, о сохранении инвестиций. Каждый раз, когда собирались мы, мы рушили всё до основания и переделывали всё с нуля. Видимо, из страха оказаться «родиной слонов». Dims 08:19, 17 декабря 2005 (UTC)[ответить]
Те же американцы не побоялись отказаться от EBCDIC или, скажем, кода Бодо. Maxim Razin 08:26, 17 декабря 2005 (UTC)[ответить]
См. для примера en:Polish codepages. Тот же бардак (к счастью, распространяющийся только на часть польских букв — те, которые с диакритикой). — Monedula 15:02, 16 декабря 2005 (UTC)[ответить]

О целостности[править код]

В обсуждении были баталии — как назвать статью: по-русски, еще раз по-русски или по-английски… А в статье черным по белому наспиано:

"На сайте консорциума есть специальная страница(…). Для русской кириллицы указан вариант «Юникод».
«В Википедии используется наиболее широко распространённый вариант».
— То есть «Юникод»

Сказали — официально используется «Юникод» — так надо его и использовать…

С уважением Колесников П. А. 12:03, 16 июня 2006 (UTC)[ответить]

Хм. Забавно. А Вам не кажется, Колесников П. А., что Ваша реплика сама очень напоминает то, что Вы так раскритиковали? LoKi 12:10, 16 июня 2006 (UTC)[ответить]
Прошу прощения за столь «горячую» реакцию. Просто очень зацепило. Спасибо за исправления в ссылках — я как-то и не догадался посмотреть туда. Еще раз прошу извинить за троллинг. А изменения в тексте У->Ю, кроме ссылок естественно, сделал я, только еще не зарегристрировавшийся, поэтому и возмутился.... Колесников П.А. 19:39, 16 июня 2006 (UTC)[ответить]
Нет проблем. :)

Мои правки 2006-08-01 (UTF-8)[править код]

  1. Нет смысла в этой статье расписывать все тонкости латинского алфавита (про J, W и т. п.).
  2. Западноевропейские буквы с диакритиками в UTF-8 изображаются двумя байтами, тут была явная ошибка.
Да, тут я спутал юникод как таковой с представлением в UTF-8.--AlefZet 07:44, 2 августа 2006 (UTC)[ответить]
  1. UTF-8 не может быть «переходным (от ASCII к Юникоду) форматом», потому что он и есть Юникод, и никуда от него переходить не надо. — Monedula 09:06, 1 августа 2006 (UTC)[ответить]
Пункт 3 я написал и готов здесь поспорить. UTF-8 это не чистый Юникод, это переходный гибридный формат, который призван обеспечить обратную совместимость между Юникодом и ASCII. --CodeMonk 23:59, 1 августа 2006 (UTC)[ответить]
Переходным, простите, куда? (в смысле, к какому представлению?) Представление UTF-8 обеспечивает все возможности Юникода (в отличие, например, от древнего UCS-2). Ну а совместимость - это приятное дополнение. Maxim Razin 00:31, 2 августа 2006 (UTC)[ответить]
Переходный от ASCII к Юникоду. --CodeMonk 21:14, 2 августа 2006 (UTC)[ответить]
Тут дело в том, что поначалу Юникод представлялся как фиксированная 16-битная кодировка (отсюда и традиция обозначения символов 4-разрядными 16-ричными числами, типа U+0443). В настоящее же время принято, что символы Юникода кодируются абстрактными целыми числами, которые в компьютере можно представлять множеством разных способов. Поэтому сейчас нет никаких причин считать UTF-8 не чистым Юникодом. — Monedula 05:53, 2 августа 2006 (UTC)[ответить]
А тут вы неправы. Во-первых исторически Юникод был предложен именно в 32 битной последовательности компанией Microsoft. Под давлением Adobe и других шрифтостроителей была избрана 16 битная последовательность. Во-вторых не надо путать стандарт с его представлением. Выражение «переходным (от ASCII к Юникоду) форматом», конечно же неудачное, поскольку об ASCII можно говорить только про вымирающий формат UTF-7. И ещё: слово «переходный» в русском языке предполагает вре́менность, м.б. лучше «транзитный» или «промежуточный»? --AlefZet 07:44, 2 августа 2006 (UTC)[ответить]
Я не против «промежуточный», хотя не вижу особого отличия от «переходный». --CodeMonk 21:14, 2 августа 2006 (UTC)[ответить]
Прежде всего, UTF-8 не чистый Юникод, потому что в нём неправильно (не в формате Юникод, а фактически в формате ASCII) кодируются символы английского алфавита. --CodeMonk 21:14, 2 августа 2006 (UTC)[ответить]
Как это «неправильно»? А как же кодировать «правильно»? Ещё раз объясняю: в настоящее время Юникодовский номер — это просто абстрактное число (не двоичное, не десятичное, не шестнадцатеричное, не 16-битное, не 32-битное и т. п.) Это число в компьютере можно кодировать как угодно, его сущность от этого никак не меняется. Более того, сейчас даже традиционные 8-битные кодировки (типа KOI-8) превратились в форму представления Юникода, поскольку они определяются таблицей соответствия между этой кодировкой и Юникодом. — Monedula 06:07, 3 августа 2006 (UTC)[ответить]
Ну сейчас и старые версии HTML считают подмножеством XHTML, но от этого они не становятся «чистым» и «правильным» XHTML. Следуя этой логике можно считать и ASCII частью Юникода, и KOI-8, и это формально будет правдой, но ни ASCII ни KOI-8 от этого в Юникод не превратятся. --CodeMonk 20:26, 3 августа 2006 (UTC)[ответить]
Так я и не понял, что же Вы считаете Юникодом? UTF-16 и UTF-32 ведь тоже не являются Юникодом — это только способ его представления. (А HTML, кстати, не является подмножеством XHTML.) — Monedula 06:18, 4 августа 2006 (UTC)[ответить]
«Чистым» Юникодом я считаю 32-битное кодирование символов, как это обозначено в чартах Юникода. (Рад, что вы не считаете HTML вариантом XHTML.)--CodeMonk 20:57, 4 августа 2006 (UTC)[ответить]
В чартах Юникода про 32-битное кодирование ничего не сказано. Там просто шестнадцатеричные числа. — Monedula 19:21, 5 августа 2006 (UTC)[ответить]
Вы шутите? В чартах написаны 32-битные коды каждого символа. Например, для ℉ это 2109, что и отобразится, если в HTML написать &#x2109;. Вот именно это и есть код, это не просто шестнадцатеричные числа. --CodeMonk 21:03, 6 августа 2006 (UTC)[ответить]
Вы обсчитались. 0x2109 — это 16 бит, а не 32. А в HTML можно записать и в десятичном коде &#8457; — это никак не изменит сущность записанного символа. — Monedula 05:28, 7 августа 2006 (UTC)[ответить]
Нет, я не обсчитался, в чартах указаны именно 32-битные коды. И 0x2109 это код, который занимает в памяти 32 бита и обозначается во внтуреннем программном представлении как int32. В данном случае не важно, что число может реально занимать меньше 32 бит (в нашем случае только 14 бит, 0x2109 = 8457 < 214 = 16384), код всё равно будет занимать в памяти 32 бита. Это сделано для возможностей будущего расширения чартов Юникода, когда появятся символы с более крупными кодами. --CodeMonk 19:12, 8 августа 2006 (UTC)[ответить]
Какая-такая «память»? У Юникода нет никакой «памяти», и про int32 в стандарте ничего не сказано. А чарты Юникода никто расширять и не собирается. Для кодов установлен предел 0x10FFFF, поэтому 21 бита будет всегда достаточно. Если кто-то использует для хранения кодов 32-битные (или 36-битные) поля — это его проблемы. — Monedula 06:16, 9 августа 2006 (UTC)[ответить]
Какие проблемы? UTF-32 предполагает именно 32-битные коды. И именно они указаны в чартах Юникода. Про int32: я говорю про реализацию поддержки Юникода внутри программ. У всех крупных производителей поле реализовано как int32. Да никто и не будет реализовывать это как 21-битную или 24-битную величину, поскольку это не рационально с точки зрения современных 32-битных и будущих 64-битных микропроцессоров. Поэтому 21-битного кода не будет. --CodeMonk 00:15, 10 августа 2006 (UTC)[ответить]
UTF-32 — это лишь один из способов изображения символов Юникода в компьютере. Внутри программ он может быть удобнее других. Но при записи в файл он очень неудобен из-за: (1) громоздкости (2) зависимости от порядка байтов (3) несовместимости с файлами ASCII. Поэтому-то стандарт Юникода и не предписывает UTF-32 в качестве «самого правильного». — Monedula 06:32, 10 августа 2006 (UTC)[ответить]
Я понимаю, что кодировка UTF-32 длиннее UTF-8, но чистым Юникодом я считаю именно её. Аргументы я уже приводил. Я уже устал спорить по этому поводу. --CodeMonk 22:06, 10 августа 2006 (UTC)[ответить]
Да, спор подзатянулся. В целом у нас расхождение в том, что Вы считаете «чистым Юникодом» UTF-32, а я считаю, что «чистый Юникод» существует лишь в воображении, а в компьютере есть только разные его реализации. — Monedula 06:28, 11 августа 2006 (UTC)[ответить]
Вообще, судя по всему, UTF-8 становится окончательным всеобщим стандартом для файлов plain text, а UTF-32 вряд ли когда-нибудь будет использоваться кроме как во внутреннем представлении в программах. Так что называть UTF-8 «переходным» или «временным» не сто́ит. — Monedula 05:28, 7 августа 2006 (UTC)[ответить]
Да, я вижу, что UTF-8 становится самостоятельным стандартом, взять хотя бы кодировку нашей Википедии. Не знаю во что это выльется. Надеюсь, что это временное явление, которое пройдёт вместе с отмиранием ASCII. --CodeMonk 19:12, 8 августа 2006 (UTC)[ответить]
Но почему же «временное»? UTF-8 всех устраивает, зачем от него отказываться? — Monedula 06:16, 9 августа 2006 (UTC)[ответить]
Если какой-либо производитель захочет, наконец, создать т. н. «legacy-free» систему без поддержки ASCII, то пропадёт надобность и в англоцентричной кодировке UTF-8. Ведь ASCII используется всё меньше. В той же Windows XP использование ASCII уже сокращено до минимума. --CodeMonk 00:15, 10 августа 2006 (UTC)[ответить]
Пусть UTF-8 и англоцентричная, зато она самая удобная, поэтому никто от UTF-8 просто так не откажется. А исходные тексты программ, по-видимому, всегда будут писаться в ASCII, тут уж ничего не поделаешь. — Monedula 06:32, 10 августа 2006 (UTC)[ответить]
Тексты программ пишутся в специальных текстовых редакторах, и эти редакторы, по крайней мере у известных производителей, уже давно отходят от использования ASCII. Да иначе и нельзя: как бы иначе в тексте программ задавались строковые константы на других языках? Никак. А это в современных программах часто бывает необходимо. --CodeMonk 22:06, 10 августа 2006 (UTC)[ответить]
А вот тут-то и приходит на помощь UTF-8: основная часть программы как была, так и остаётся в ASCII, а где нужны национальные символы (в комментариях или ещё где) — ставятся байты UTF-8. — Monedula 06:28, 11 августа 2006 (UTC)[ответить]
Хорошо. Я устал спорить. Давайте откажемся от слова «переходный», я думаю, в статье и так достаточно сказано о совместимости с ASCII. --CodeMonk 21:18, 11 августа 2006 (UTC)[ответить]
Пожалуй, пора разделы о конкретных реализациях/представлениях UTF-8 и др. вынести из основной статьи, поскольку к непосредственно Юникоду не имеют отношения. --AlefZet 07:50, 2 августа 2006 (UTC)[ответить]

Сей мир полон хреновени[править код]

Какие только бредни не прочтёш в Вике: вечность допотопного ASCII, связь с микропроцесором кодировки (интересно, когда изменится архитектрура ВС, что произойдёт?). Я охреневаю потихоньку/тихо, шифером шурша, едет крыша, не спеша... 65.54.154.13
ASCII будет жить, пока живы UNIX и C. — Monedula 06:28, 11 августа 2006 (UTC)[ответить]
  • Благодарю за разъяснение. 65.54.154.17
Если когда-нибудь появятся, скажем, 20-битные процессоры (хотя это очень наврядли), то могут появиться и 20-битные переменные под 5/10/20-битные регистры такого процессора. А пока стандартные переменные, включая кодировки символов, кратны 8 битам (1 байту), поскольку элементарный раздел регистра микропроцессора, к которому можно обратиться, это 8 бит. Это удобно. --CodeMonk 20:52, 11 августа 2006 (UTC)[ответить]
  • Вы не въезжаете. Офтоп. Почему Вы ограничились 64-битовым (в предыдущей секции) м-процем (микропроцесор), а не 1К (1024)-м? Конец_офтопа. Я имел ввиду вообще отказ от текущей архитектуры. Не будет она существовать вечно. Что произойдёт с кодировкой? У каждого своя религия: для Монедулы — это допотопные Юникс и Си, для Вас — текущая разрядность м-проца. Поэтому столь удручающ Ваш диалог. 65.54.98.27 21:15, 11 августа 2006 (UTC)[ответить]
Что произойдёт с кодировкой, спрашиваете? А вот что: первые 128 позиций как совпадали с ASCII, так и будут совпадать. — Monedula 06:12, 14 августа 2006 (UTC)[ответить]

Об «уникоде»[править код]

Я прошу прощения, что вмешиваюсь в ваши беседы о названиях. Я хотел бы только высказать точку зрения одного лингвиста. Свою. :)

Было мнение о том, что кем-то там в консорциуме предписано, что по-русски правильно «Юникод», значит нужно так писать и говорить. Все это глупости, не стоящие выеденного яйца. Мы уже проходили, когда из заграницы нам предписывали, что и как по-русски правильно говорить и писать, напр., из Эстонии, — что правильно Таллинн, а не Таллин, с Украины, — что нужно «в Украине», а не «на Украине», из Молдавии, — что правильно «Молдова», а не «Молдавия» и т. д. и т. п. Конечно, слово Unicode не настолько в русском языке прижилось, как, например, «Молдавия», но сути дела это не меняет. Например, фирма Unitas «Единство» (лат.) делала унитазы, у нас в слове «унитас» быстро распознали конец -таз (который, как вы понимаете, никакого отношения к латинскому суффиксу -tas не имеет), и стали так писать и говорить (род. п. «унитаза» и т. д.), ничего, никто не умер, но зато появилось новое уникальное слово в русском языке. Язык обогатился. А обогатился бы он, если бы до сих пор писали бы в кавычках название фирмы: «Купил себе новый „Унитас“»? То же самое с патефонами и ксероксами. В слове Unicode, наверное, только слепой не увидит двух привычных уже частей: уни- и -код, которые, ко всему прочему, и замечательно расшифровываются и на русской почве: универсальная кодировка. Форма «юникод» встречается чаще в Яндексе по одной простой причине: большинство пишущих в интернете из иностранных языков знают только английский, часто хреново, при этом умуюдряются так же хреново знать русский, но все равно на нем пишут, отсюда и тупое переписывание английских названий в русском тексте (что пишут русскими буквами «Юникод» — это даже прогресс, а то без обиняков — латинскими). Давление англоязычного интернета на мозги наших «писателей» иногда вообще доходит до абсурда: на одном спортивном сайте имя болгарского спортсмена было дано в английской транскрипции (!).

Я согласен с теми, кто говорил, что форма «юникод» вымрет. Такие слова-уродцы появляются поначалу, когда слово еще новое и не обжилось в языке, но потом все возвращается к нормальному состоянию. Думаю, что этот случай не станет исключением.

Это все, конечно, ИМХО.

[Кстати, слово «интернет» тоже сначала не склонялось, и тоже спорили. Прошло. ;)]

Я прошу прощения. По неумелости стер предыдущее сообщение. Теперь восстановил.

  • Добавлю мысль, которую хотел написать сначала, но забыл. :) Форма «юникод» в названии организации «Юникод Консорциум» вполне уместна, но сам стандарт, который фактически перестал быть собственным именем, я называю «уникод», чего и всем желаю. :)
  • Просто Вики не должна идти в первой в словоупотреблении, вот когда будут чаще писать и говорить, «Уни», тогда и статью можно будет переименовывать. --ajvol 06:34, 29 августа 2006 (UTC)[ответить]
  • "Юникод" - это вообще гибрид какой-то. Тогда уж "Юникоуд"(AE) или "Юникэуд"(BE).

Господа, прежде всего, в русском языке есть норма произношения латинских и греческих имён и частей слов во взаимствованных словах. Именно поэтому «ксерокс», а не «зирэкс» и т.д. Поэтому, давайте статью назовём Уникод, и сделаем ссылку на неё с Юникода. Если наши труды претендуют на "энциклопедию", то давайте писать так, как принято было, а не как привык говорить "программист", которого выгнали со 2-го курса университета в своей "креативной" конторе. --Scaldov 16:26, 21 февраля 2009 (UTC)[ответить]

Шаблон Юникод[править код]

Есть ли шаблон, предупреждающий о том, что некоторые символы могут отображаться некорректно, как в других википедиях? Grenadine 17:00, 29 октября 2006 (UTC)[ответить]

Порядок байтов[править код]

В разделе "Порядок байтов" есть фраза: "Файлы, следующие этому соглашению, начинаются с..." и т.д. Хорошо бы поподробнее написать, кто и когда этому соглашению следует, а кто - нет, а то непонятно, насколько можно расчитывать на наличие этих байтов в начале файла. К примеру, validator.w3.org рекомендует не использовать BOM в UTF-8 (см., например, http://validator.w3.org/check?uri=http://microsoft.ru). ЮраШ 19:03, 13 февраля 2009 (UTC)

Нашел разъяснение на http://unicode.org/faq/utf_bom.html#gen6. Внесу в текст статьи. ЮраШ 19:07, 13 февраля 2009 (UTC)

Как подключить юникод (Windows XP)?[править код]

Не читабельные крякозяблы показываются вместо текста на страницах: http://got.wikipedia.org/wiki/ и http://ru.wikipedia.org/wiki/Руны в разделе "Руны в Юникоде". Вместе с этим большая проблема в том, что копируя url-ссылки с русскими буквами, при вставки в другую программу или все ровно куда (видимо искажается в буфере обмена) в url русские буквы превращаются в коды, пример: http://ru.wikipedia.org/wiki/%D0%A0%D1%83%D0%BD%D1%8B. Это неприятно и делает url не только не читабельным, но и слишком длинным. Ни на странице о Юникоде, ни по ссылкам английским советов не нашёл. Windows XP, Firefox 3.0.6 В браузере в выборе шрифта такого шрифта как "готский" (в первом примере url) вообще нет. Как исправить эту беду? Seeker1234567890 06:13, 16 февраля 2009 (UTC)[ответить]

поставить линукс? --Scaldov 11:11, 20 февраля 2009 (UTC)[ответить]

слышалъ звонъ, а не sнаетъ, где онъ.[править код]

212.176.111.98 11:09, 20 февраля 2009 (UTC)господа, это энциклопедия, или сборник домыслов?[ответить]

вот это что такое: «Обратите внимание на то, что хотя UTF-8 позволяет указать один и тот же символ несколькими способами, только наиболее короткий из них правильный. Остальные формы должны отвергаться по соображениям безопасности.» ?

--212.176.111.98 11:09, 20 февраля 2009 (UTC)[ответить]

лучше это убрать? Abc3 11:35, 21 февраля 2009 (UTC)[ответить]

Конечно убрать. Во-первых, «только наиболее короткий из них правильный» - короткий что: символ, способ? Во-вторых, UCS-4 (32-х битная кодировка уникода) и utf-8 кодируются _взаимно_ однозначно. Откуда фраза про «несколько способов» - непонятно. Далее, неплохо бы или убрать приведённую таблицу кодировки UCS4 в utf-8, дав ссылку на статью про utf-8 и utf-16, либо привести и таблицу кодировки UCS4 в utf-16 по месту. --Scaldov 16:16, 21 февраля 2009 (UTC)[ответить]

Что вам мешает это сделать? Abc3 19:57, 21 февраля 2009 (UTC)[ответить]

UTF-8 позволяет кодировать символ несколькими способами за счёт добавления ведущих нулей. См. UTF-8_Exploit. — Monedula 07:21, 23 февраля 2009 (UTC)[ответить]

ууу… как всё запущено. действительно, позволяет. не углядел. а я-то думал, что сделано как в jpeg, где такого косяка нету. там xxxxx представляет собой разность от значения и диапазона. типа
range code value
0 x 1 2
1 xx 3 4 5 6
2 xxx 7 8 9 10 11 12 13 14
3 xxxx 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
только в jpeg немного по-другому
0 x -1 1
1 xx -3 -2 3 2
2 xxx -7 -6 -5 -4 4 5 6 7
3 xxxx -15 -14 -13 -12 -11 -10 -9 -8 8 9 10 11 12 13 14 15
т.е., видим обычный бэкдор, изначально заложенный при разработке, как и делается в большинстве случаев умными людьми. --Scaldov 05:08, 7 марта 2009 (UTC)[ответить]

Закралась ОШИБКА!!! LE vs. BE[править код]

UTF-8 EF BB BF UTF-16BE FE FF UTF-16LE FF FE UTF-32BE 00 00 FE FF UTF-32LE FF FE 00 00

в статье предоставленна вышеизложенная таблица, НО проверив на практике всё с точностью наоборот: UTF-16 Little Endian --> FEFF UTF-16 Big Endian --> FFFE

(*Создавался TXT файл из MS Offise Word. При сохранении указывался нужный формат кодировки. Проверялис "внутренности" просмотровщиком в FAR Manager при переключении в 16-ричный код)

Аналогично и с 32-битной кодировкой.

Пожалуйста исправьте эту неточность, если вы со мной согласны!!! 91.90.37.84 10:50, 26 марта 2009 (UTC)Anatoliy[ответить]

Скорее всего у вас при просмотре меняется порядок байт. В статье все верно написано. Можете проверить так:
1. Создайте пустые файлы le.txt и be.txt кодировках UTF-16LE и UTF-16BE соответственно (например в блокноте).
2. Создайте ASCII файл длиной 4 байта, например 4.txt
3. Побайтно сравните файлы с помошью команды fc - "fc /b 4.txt le.txt" и "fc /b 4.txt be.txt". --Hayk 11:03, 26 марта 2009 (UTC)[ответить]

65 536 двухбайтовых символов[править код]

Цитирую статью: "Для совместимости со старыми 16-битными системами была изобретена система UTF-16, где первые 65 536 позиций отображаются непосредственно как 16-битные числа, а остальные представляются в виде «суррогатных пар» (первый элемент пары из области U+D800…U+DBFF, второй элемент пары из области U+DC00…DFFF)."

Но как различить, где отдельное 16-битное число, а где пара чисел? Ведь 65 536 - это _полное_ количество состояний 16-ти битов. Число 65536 тут указано по ошибке, на самом деле должно быть какое-то другое.

93.84.128.54 12:48, 6 февраля 2010 (UTC)[ответить]

У вас в статье кракозябры[править код]

Кипит спор почему следует оставить популярную кальку с английского, а вырвиглазный говнологизм "кракозябры" употреблен дважды причем рядом.

Таблица символов в Windows показывает НЕ ВСЕ символы[править код]

Фраза в статье "Начиная с Windows 2000, служебная программа «Таблица символов» (charmap.exe) показывает все символы в ОС" абсолютно ошибочна. Как минимум до Win-7 SP1 включительно "таблица символов" может отображать только символы базовой плоскости (U+0000 - U+FFFF). Символы с большими кодами не отображаются.

Попробуйте, например, в Win-7 увидеть эмотиконы, содержащиеся в шрифте Segoe UI Symbol, - "таблица символов" их не покажет... 195.208.49.221 08:02, 10 сентября 2013 (UTC)Андрей Ежгуров[ответить]

Пример![править код]

Буква  Это и есть КО Только она с добавления ударения НО! Этот символ не может показать все браузеры также может быть в Крякозябрах! Женя Данилов-Шмидт (обс) 02:50, 24 сентября 2014 (UTC)[ответить]

Тут в Проблемы Юникода есть фрагмент: "Даже с арабскими цифрами есть определённые типографские тонкости: цифры бывают «прописными» и «строчными», пропорциональными и моноширинными[1] — для Юникода разницы между ними нет.". Проблема только в том, что в юникоде давно уже есть отдельные моноширинные цифры (𝟶𝟷𝟸𝟹𝟺𝟻𝟼𝟽𝟾𝟿, коды U+1D7F6 - U+1D7FF, "Monospace Digits") и текст следует слегка поменять. Или тут что-то другое имелось ввиду? Roqin (обс.) 07:14, 17 июля 2022 (UTC)[ответить]

  1. В большинстве шрифтов для ПК реализованы «прописные» (маюскульные) моноширинные цифры.