Estrarre efficacemente i dati da pdf con un sistema di template?

1

in pratica consente a un utente di etichettare un testo specifico in un file pdf. Usa le informazioni dell'etichetta per creare un modello, che uno script usa per estrarre il testo da un pdf specifico.

Quale sarebbe uno schema valido da utilizzare in tale situazione? Ad esempio, forse lo script che utilizza i modelli potrebbe funzionare per un gruppo di PDF ben formattati, ma non così con PDF formattati male. Per ottimizzare per questi ultimi casi, si finisce per modificare lo script che a sua volta finisce per rompere altri pdf precedentemente funzionanti. Quindi aggiusti lo script fino a quando finalmente funziona su tutti i pdf ma solo quelli che hai visto e sono stati in grado di creare modelli per. Speri che alla fine raggiungerai uno script che gestirà in gran parte il tipo di PDF. Sembra un gioco di gatti e topo e penso che forse c'è un modo migliore per farlo.

L'altro problema che emerge è come organizzare il codice in tale scenario. Ma ancora più importante, sto cercando consigli su come affrontare il difficile problema dell'estrazione dei dati da pdf usando un sistema basato su modelli (o il sistema di template non è efficiente qui?).

    
posta user299709 16.09.2014 - 08:44
fonte

1 risposta

1

Dipende molto dalla natura dei PDF accettati come input. Se hai il controllo sul formato del PDF che stai accettando, puoi facilmente estrarre i dati di cui hai bisogno; d'altra parte, se accetti di accettare qualsiasi PDF valido, il tuo compito sarà molto più difficile.

Una vasta gerarchia di opzioni che i PDF possono fornire:

  • I moduli PDF sono progettati per lo scenario che descrivi; diversi toolkit e servizi Web sono disponibili per estrarre informazioni dai moduli PDF
  • PDF strutturato è un modo più generale per contrassegnare specifiche informazioni in un PDF
  • Anche senza moduli o tag, diversi toolkit ti permettono di estrarre il testo da un PDF, a meno che ...
  • Il PDF contiene solo immagini di pagine di testo, nel qual caso l'unica speranza è un sistema OCR
risposta data 27.05.2015 - 22:06
fonte

Leggi altre domande sui tag