Che tipo di codifica utilizza wikipedia?

0

Ho il dump dei dati di wikipedia e sto cercando di decodificare i caratteri speciali nei titoli delle pagine, tranne che molti caratteri non corrispondono alla codifica ascii "standard" (che fa riferimento a here .)

Ad esempio, in wikipedia ë e ã sono dati come:

ë =% C3% AB

ã =% C3% A3

C'è una chiave definita da cui posso prelevare?

    
posta AltusVultur 22.03.2016 - 18:37
fonte

1 risposta

6

È UTF-8.

Inoltre, nessuno dei due caratteri è in ASCII. Sono in vari set di caratteri ASCII estesi , ma queste codifiche sono non ASCII, sono i resti di un'epoca selvaggia dell'ovest delle codifiche dei personaggi. Trattali come codifiche legacy che le persone civilizzate come noi potrebbero dover decodificare ma idealmente non dovrebbero mai produrle. Almeno per ASCII c'è un solo tavolo su cui quasi tutto il mondo occidentale può essere d'accordo (e il resto del mondo se usano UTF-8), mentre i set di caratteri "estesi" sono così numerosi che nessuno può indovinare quale sia un dato byte sopra 127 significa.

La pagina che stai collegando assume tacitamente uno di questi molti set di caratteri "estesi" e (se una ricerca rapida non mi tradisce) non menziona. Ora, nei testi in inglese è spesso sicuro presumere che alcune varianti di Latin-1 (o ISO-whatsthenumber ecc.) Siano implicite, ma sono ancora sciatte. Inoltre, per quanto ne so, non c'è assolutamente alcun standard su quale codifica dei byte codificati per cento debba essere interpretata come. Ancora una volta Latin-1 ecc. Sono comuni, ma lontani dall'universale anche nel testo della lingua inglese . Dovresti davvero ottenere fonti migliori.

    
risposta data 22.03.2016 - 18:51
fonte

Leggi altre domande sui tag