UTF-16 Insidie, cinese

1

Scriverò un'applicazione che è puro back-end HTML5 e JS e MVC.net. Abbiamo file .resx che vengono compilati in file .js per le risorse nell'applicazione html5. L'applicazione deve funzionare in inglese e in cinese, il che significa che dobbiamo usare UTF-16 ovunque.

Qualcuno ha qualche esperienza nell'uso di UTF-16 per tale compito, o qualche buona pratica?

    
posta maxfridbe 14.03.2013 - 16:45
fonte

1 risposta

12

Perché hai questa comprensione? Entrambe le codifiche [UTF-8 e UTF-16] possono codificare tutti i caratteri unicode con la definizione di codifiche Unicode.

Ad ogni modo, UTF-8 è più ottimale per l'archiviazione e la trasmissione rispetto a UTF-16 nel tuo caso. La maggior parte dei tuoi personaggi nei file non sarà in cinese ma nella sintassi markup / js. UTF-8 usa 1 byte per quelli mentre UTF-16 usa 2 byte per quelli, quindi UTF-8 vince.

Per i caratteri cinesi comuni UTF-8 richiede 3 byte e UTF-16 ha bisogno di 2 byte. Entrambi hanno bisogno di 4 byte per il più raro personaggi sui piani supplementari. Questo dà un risparmio del 33% per UTF-16 per carattere cinese.

UTF-8 usa 1 byte per ogni "carattere di programmazione". <div> è 5 byte in UTF-8 e 10 byte in UTF-16. 50% di risparmio per UTF-8 per "carattere di programmazione".

    
risposta data 14.03.2013 - 16:50
fonte

Leggi altre domande sui tag