Сколько допустимых символов utf8 существует?

#utf-8

#utf-8

Вопрос:

Я знаю, что это немного расплывчато, поэтому для контекста подумайте об этом как о «символе, который вы могли бы чирикать» или что-то в этом роде. Мой вопрос в том, сколько существует допустимых символов юникода, которые браузер или служба, поддерживающая utf8, могут разрешить таким образом, чтобы браузер utf8 мог копировать и вставлять их без каких-либо проблем.

Я думаю, чего я не хочу, так это полного символьного пространства, потому что я знаю, что большая его часть зарезервирована для командных символов или зарезервированных символов, которые не будут отображаться (если я не ошибаюсь!).).

Комментарии:

1. Если символ указан в спецификациях Unicode, то он имеет допустимое представление в формате UTF-8. Если кодовая точка unicode соответствует спецификациям, то она действительна. Итак, да, циклическая логика. Это допустимо, потому что оно не является недействительным.

2. Невозможно узнать, поддерживает ли устройство отображения шрифт с указанными кодовыми точками или даже правильно ли оно с ними работает. Вы не поверите, сколько шрифтов тратят много времени на объединение символов, и не всегда одинаково.

Ответ №1:

UTF-8 не является важным фактором, поскольку все стандартные кодировки Unicode (UTF-8, UTF-16, UTF-32) кодируют одно и то же пространство символов, просто по-разному.

Из вашего объяснения я вижу, что вам нужны не просто 1 112 064 допустимых кодовых точек Unicode?

Unicode 6.0 и ISO / IEC 10646: 2010 определяют 109 449 символов, но некоторые из них — это то, что вы называете «управляющими символами». Какие из них попадают или не попадают в эту категорию, зависит от того, как вы считаете. Копирование и вставка могут привести к тому, что некоторые символы будут рассматриваться как идентичные друг другу или вообще игнорироваться, в зависимости от ОС и программ, выполняющих копирование и вставку.

Однако, поскольку Unicode совместим с прямой передачей, некоторые системы будут корректно сохранять символы, которые еще не были назначены. В конце концов, только потому, что вы используете Windows XP и копируете и вставляете документ с символами, которые не были стандартизированы до 2009 года, не означает, что вы ожидаете, что они исчезнут. При таком подходе может быть около миллиона дополнительных возможных символов, хотя их внешний вид в некоторых местах может быть неразличим.