Secondo l' articolo di Wikipedia , UTF-8 ha questo formato:
First code Last code Bytes Byte 1 Byte 2 Byte 3 Byte 4 point point Used U+0000 U+007F 1 0xxxxxxx U+0080 U+07FF 2 110xxxxx 10xxxxxx U+0800 U+FFFF 3 1110xxxx 10xxxxxx 10xxxxxx U+10000 U+1FFFFF 4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx x means that this bit is used to select the code point.
Questo spreca due bit su ogni byte di continuazione e un bit nel primo byte. Perché UTF-8 non è codificato come segue?
First code Last code Bytes Byte 1 Byte 2 Byte 3 point point Used U+0000 U+007F 1 0xxxxxxx U+0080 U+3FFF 2 10xxxxxx xxxxxxxx U+0800 U+1FFFFF 3 110xxxxx xxxxxxxx xxxxxxxx
Salverebbe un byte quando il punto di codice è fuori dal piano di base multilingue o se il punto di codice è nell'intervallo [U + 800, U + 3FFF].
Perché UTF-8 non è codificato in modo più efficiente?