Evita dieresi a due caratteri nei PDF

2

Spiegazione introduttiva

Un umlaut è una vocale tedesca, rappresentata per iscritto come una lettera con due punti ( diaeresis ) sopra la vocale di base. Esempi di dieresi sono ä, ö e ü.

Queste tre lettere possono essere rappresentate in testo come un singolo carattere - ad esempio, come Unicode U + 00FC - o come due caratteri: la vocale di base (eg u, U + 0075) e la combinazione di diaeresi (¨, U + 0308).

Sia il carattere singolo umlaut che il carattere umlaut a due caratteri hanno lo stesso aspetto in un documento PDF, ma il loro codice sottostante è diverso. Questa animazione mostra il testo copiato da lo stesso (!) file PDF aperto in Firefox (in alto) e Anteprima (in basso) in un editor di testo semplice (BBEdit) e quindi eliminando singole lettere:

Quandoumlautèrappresentatocomeuncarattere,ecerchiunaparolatedescaconunumlaut,ades.Tür"porta", in un testo, troverai quella parola se è lì. Se invece umlaut è rappresentato come due caratteri e cerchi Tür , non lo troverai:

Die Tür ist offen.  <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text

Domanda

In Anteprima e Safari di Apple, ma anche nell'ultima versione di Adobe Acrobat Reader DC (18.011.20058), le umlauts nei documenti PDF sono rappresentate da due caratteri (vocale e diaeresi), mentre in lo stesso documento PDF , quando lo apro in Firefox, Chrome o una versione precedente di Adobe Acrobat X Pro (10.1.16), sono rappresentati come un singolo carattere.

Perché è così, e come posso evitare dieresi di due caratteri quando creo documenti PDF?

    
posta Walter T 31.08.2018 - 10:55
fonte

1 risposta

3

Se si finisce con 1 o 2 caratteri dipende da come Normalizzazione Unicode viene applicata dalle app e dai processi tu stai usando.

Non so se c'è un modo per garantire l'uno o l'altro tranne forse tramite un'utilità come UnicodeChecker .

Poiché le due forme sono equivalenti, un sistema di ricerca competente dovrebbe trovarne uno.

    
risposta data 31.08.2018 - 20:16
fonte

Leggi altre domande sui tag