Perché ISO 8859-1 contiene segni diacritici senza lettera?

4

ISO 8859-1 contiene alcuni segni diacritici senza lettere: la diaeresi ( ¨ ) , l'accento acuto ( ´ ), la cediglia ( ¸ ) e il macron ( ¯ ). ¹

Perché sono stati inclusi? Per quanto ne so (correggimi se ho torto), le codifiche ISO 8859 non supportano combinazione di segni diacritici come Unicode, quindi non puoi nemmeno usarli per creare nuove fantasiose lettere come Ÿ, ś, ŗ e ī; puoi semplicemente usarli stand-alone come questo: a¨b . Qual è il punto di questo? Sicuramente, i progettisti della ISO 8859-1 erano persone molto intelligenti e avevano ottime ragioni. Cosa erano?

¹ L'apice / grave accento 'e la circonflusione ^ dovrebbero probabilmente essere anche in questa lista, ma il motivo per cui sono inclusi nelle codifiche ISO 8859 mi sembra abbastanza ovvio: retrocompatibilità con 7 bit ASCII.

    
posta Heinzi 02.09.2015 - 21:30
fonte

2 risposte

7

Nota: quando alcuni personaggi mancanti importanti (come il simbolo dell'euro ) sono stati aggiunti al set di caratteri per creare ISO8859-15, alcuni caratteri per lo più inutilizzati sono dovuti andare, e questo includeva i segni diacritici senza lettere. Quindi, i progettisti di ISO8859-1 potrebbero essere persone molto intelligenti e potrebbero aver avuto delle buone ragioni, ma a quanto pare nessuno le ha capite!

Tuttavia, la tua caratterizzazione che non puoi creare caratteri combinati non è esattamente vera: se hai un terminale e / o una stampante che supporta i caratteri di controllo, puoi stampare Y BACKSPACE ¨ per ottenere Ÿ . (Ovviamente è diverso da come funzionano i caratteri combinati in Unicode.)

Diverso da cosa backspace oggi , il significato originale è spostare il cursore indietro di uno spazio e tutto ciò che viene stampato viene stampato sopra a quello che c'era prima. Ecco come otterresti grassetto, barrato o testo sottolineato, ad esempio:

  • H E Y BACKSPACE BACKSPACE BACKSPACE H E Y = HEY
  • H E Y BACKSPACE BACKSPACE BACKSPACE - - - = HEY
risposta data 02.09.2015 - 21:50
fonte
4

ISO-based Latin-1 su ECMA-094, che si basava sul set di caratteri multinazionali DEC in modo che gli europei potessero utilizzare il DEC VT220. I primi 128 punti di codice di ogni set di caratteri a 8 bit dovevano essere gli stessi di ASCII per la retrocompatibilità. Infatti, tornando ai vecchi tempi, l'hardware di rete configurato in modo errato spesso interpretava il bit più elevato come un codice di correzione degli errori e trasformava i caratteri estesi in ASCII a 7 bit, quindi i set di caratteri dovevano essere in grado di tornare in ASCII se ciò accadeva. Questo è il motivo per cui i russi hanno adottato KOI8-R, che ha prodotto delle traslitterazioni di fallback leggibili, rispetto allo standard ISO per il cirillico.

ASCII li aveva perché le chiavi esistevano sui terminali di teletype. Le chiavi esistevano sui teletipi perché, come diceva Jörg, le persone scrivevano à su una vecchia macchina da scrivere manuale digitando un backspace . (L'ho scritto sulla mia macchina Linux proprio ora come: un right-alt '.) IBM ha basato la tastiera del suo PC sulle sue macchine da scrivere, quindi aveva anche quelle chiavi, e dal momento che esistono, ma non hanno alcun significato in nessun linguaggio naturale, le persone hanno iniziato a usarli per il markup. Qui, ad esempio, indicano code fragments .

    
risposta data 02.09.2015 - 22:47
fonte

Leggi altre domande sui tag