Un mio piccolo sospetto sta osservando così tanti progetti software che hanno montagne di codice per il supporto dei set di caratteri. Non fraintendetemi, sono tutti per compatibilità, e sono felice che gli editor di testo consentono di aprire e salvare file in più set di caratteri. Ciò che mi infastidisce è come la proliferazione delle codifiche di caratteri non universali sia etichettata come "supporto Unicode adeguato" piuttosto che "un problema".
Per esempio, lasciami scegliere PostgreSQL e il suo supporto per set di caratteri . PostgreSQL si occupa di due tipi di codifica:
- Codifica client: utilizzata nelle comunicazioni tra il client e il server.
- Codifica server: utilizzata per archiviare il testo internamente nel database.
Posso capire perché il supporto di molte codifiche client è una buona cosa. Consente ai client che non operano in UTF-8 di comunicare con PostgreSQL senza che sia necessario eseguire la conversione. Quello che non capisco è: perché PostgreSQL supporta più codifiche server ? I file di database sono (quasi sempre) incompatibili da una versione di PostgreSQL alla successiva, quindi la compatibilità tra versioni diverse non è il problema qui.
UTF-8 è l'unico set di caratteri standard compatibile ASCII in grado di codificare tutti i codepoint Unicode (se ho torto, fammi sapere). Sono nel campo che UTF-8 è il set di caratteri migliore , ma sono disposto a sopportare altri set di caratteri universali come UTF-16 e UTF-32.
Credo che tutti i set di caratteri non universali dovrebbero essere deprecati. C'è qualche ragione convincente che non dovrebbero?