Durante la ricerca del formato intermedio , c'è sempre un problema con il problema di presentazionale vs. strutturale .
In genere, le sorgenti DocBook o LaTeX utilizzano il chiaro markup strutturale con in genere poche eccezioni (abusi) causate dall'autore.
D'altra parte, gli utenti di Word tendono ad usare principalmente il markup di presentazione (che dice esplicitamente al blocco di testo la dimensione del font, la famiglia di font, il peso, ...). Word consente il markup strutturale, ma non è forzato troppo.
Il semplice HTML è chiaramente strutturale, ma il span
e l'elemento like consentono di collegare molti attributi al blocco di testo in modo non strutturale. Puoi vedere chiaramente la differenza tra l'HTML creato manualmente, l'HTML generato tecnicamente e i documenti convertiti da documenti Word. Pertanto, potrebbe essere difficile trovare un denominatore comune anche per i documenti HTML. L'XML aggiunge ancora più possibilità che possono essere utilizzate in modo improprio.
Ma se vuoi avere un formato che copra tutto, allora probabilmente dovrebbe essere XML. Tuttavia, potrebbe essere uno con il tipo di documento progettato da te per lo scopo. La cosa buona è che ci sono strumenti per la verifica del tuo documento XML intermedio. In questo modo, puoi essere sicuro che c'è un modo per il modulo finale.
La mia ipotesi è che è quasi impossibile convertire varie fonti nel formato intermedio con la buona qualità. Dipende molto da chi ha creato le souces. È probabile che dovrai scrivere molto parser per sottoinsiemi speciali dei documenti.
Probabilmente Python è una buona scelta. Dipende dalle tue conoscenze. Se stai meglio in Java o Perl, possono essere migliori. Preferirei Python. (Non ho una buona conoscenza di Java, e la mia conoscenza del Perl è arrugginita perché ho trovato Python molto meglio per me.)