Mi chiedo perché la codifica unicode sia necessaria in JavaScript. Sto guardando utf8.js come esempio. Sto anche esaminando la specifica di utf8 , ma non sto seguendo realmente le diverse parti di dati. Inoltre, non capisco quando e dove dovresti codificare / decodificare, e quale sia il formato "corrente" di alcuni set di byte in un linguaggio di programmazione, quindi è difficile seguire questo.
UTF-8’s encoder’s handler, given a stream and code point, runs these steps:...
Vorrei sapere che cos'è lo stream e che cos'è il code point . Comprendo che i punti di codice sono caratteri, che in utf8 potrebbero essere composti da più unità di codice a 8 bit.
Vorrei anche sapere in generale perché non si può semplicemente avere in una lingua "unicode", e non esiste codifica / decodifica utf8 / utf16, perché è già nel formato utf8. Questo mi fa chiedere se JavaScript debba eseguire questa codifica / decodifica per qualche motivo, come forse perché JavaScript usa la codifica utf16, e quindi il flusso di bit che passi a utf8.js è un flusso di bit codificati utf16. O forse non è così, e invece il flusso di bit che passi a utf8.js è un flusso di x
( qualcos'altro ) come la codifica decimale o qualsiasi altra cosa possa significare.
Non sono sicuro di quale sia il formato / codifica dei byte in arrivo, e anche perché abbiamo bisogno di fare la conversione. Ad esempio, in qui quando menzionano la "Buffer class is ... raw binary data" (in Node.js), non sono sicuro di cosa significhi quel dato binario non elaborato. Forse questo significa che è UTF16, ed è per questo che forse dovrebbe essere convertito in UTF8, non ne sono sicuro. E quando questo indica JSON.parse
non esegue alcuna decodifica di stringa, comincio a chiedermi se questo significa che JSON.parse
assume la codifica UTF16, o forse assume la codifica UTF8, non ne sono sicuro. La ricerca della "codifica JSON.parse
utilizza" non rivela nulla.