Formato di file "intermedio" ideale da utilizzare per testo strutturato / stilizzato? [chiuso]

-1

Ho dei file che voglio rendere disponibili in una varietà di formati:

  • HTML
  • PDF
  • EPUB
  • Testo normale (forse)

La maggior parte dei file sarà di provenienza in formato doc, docx o rtf, quindi è necessario considerarlo.

Quindi ho bisogno di un tipo di formato che converta bene da docx, doc e rtf e abbia un sacco di librerie per la conversione in PDF, EPUB, HTML ecc. Idealmente librerie in Python, ma anche Java va bene.

    
posta Jordan Reiter 02.11.2012 - 21:59
fonte

2 risposte

3

"doc" e "rtf" possono essere facilmente convertiti in "docx" usando MS Word. "docx" può essere convertito in PDF, EPUB, HTML o testo semplice sia con convertitori Buildin di Word, sia con strumenti di terze parti.

Questo è un link che ti dice di più su una conversione pulita di Word > HTML: link

Per Word- > EPUB una semplice ricerca su google ti mostrerà alcuni convertitori online gratuiti e alcuni strumenti commerciali.

Se, per quali ragioni, non ti piace questa soluzione e desideri un formato intermedio più "neutrale rispetto ai fornitori", quindi utilizza docbook . Ma non aspettarti che ciò aumenti la qualità complessiva dei risultati, poiché ogni ulteriore passaggio nella catena di conversione probabilmente aggiungerà una perdita di dati aggiuntiva.

    
risposta data 02.11.2012 - 22:51
fonte
1

Durante la ricerca del formato intermedio , c'è sempre un problema con il problema di presentazionale vs. strutturale .

In genere, le sorgenti DocBook o LaTeX utilizzano il chiaro markup strutturale con in genere poche eccezioni (abusi) causate dall'autore.

D'altra parte, gli utenti di Word tendono ad usare principalmente il markup di presentazione (che dice esplicitamente al blocco di testo la dimensione del font, la famiglia di font, il peso, ...). Word consente il markup strutturale, ma non è forzato troppo.

Il semplice HTML è chiaramente strutturale, ma il span e l'elemento like consentono di collegare molti attributi al blocco di testo in modo non strutturale. Puoi vedere chiaramente la differenza tra l'HTML creato manualmente, l'HTML generato tecnicamente e i documenti convertiti da documenti Word. Pertanto, potrebbe essere difficile trovare un denominatore comune anche per i documenti HTML. L'XML aggiunge ancora più possibilità che possono essere utilizzate in modo improprio.

Ma se vuoi avere un formato che copra tutto, allora probabilmente dovrebbe essere XML. Tuttavia, potrebbe essere uno con il tipo di documento progettato da te per lo scopo. La cosa buona è che ci sono strumenti per la verifica del tuo documento XML intermedio. In questo modo, puoi essere sicuro che c'è un modo per il modulo finale.

La mia ipotesi è che è quasi impossibile convertire varie fonti nel formato intermedio con la buona qualità. Dipende molto da chi ha creato le souces. È probabile che dovrai scrivere molto parser per sottoinsiemi speciali dei documenti.

Probabilmente Python è una buona scelta. Dipende dalle tue conoscenze. Se stai meglio in Java o Perl, possono essere migliori. Preferirei Python. (Non ho una buona conoscenza di Java, e la mia conoscenza del Perl è arrugginita perché ho trovato Python molto meglio per me.)

    
risposta data 09.11.2012 - 20:24
fonte

Leggi altre domande sui tag