in pratica consente a un utente di etichettare un testo specifico in un file pdf. Usa le informazioni dell'etichetta per creare un modello, che uno script usa per estrarre il testo da un pdf specifico.
Quale sarebbe uno schema valido da utilizzare in tale situazione? Ad esempio, forse lo script che utilizza i modelli potrebbe funzionare per un gruppo di PDF ben formattati, ma non così con PDF formattati male. Per ottimizzare per questi ultimi casi, si finisce per modificare lo script che a sua volta finisce per rompere altri pdf precedentemente funzionanti. Quindi aggiusti lo script fino a quando finalmente funziona su tutti i pdf ma solo quelli che hai visto e sono stati in grado di creare modelli per. Speri che alla fine raggiungerai uno script che gestirà in gran parte il tipo di PDF. Sembra un gioco di gatti e topo e penso che forse c'è un modo migliore per farlo.
L'altro problema che emerge è come organizzare il codice in tale scenario. Ma ancora più importante, sto cercando consigli su come affrontare il difficile problema dell'estrazione dei dati da pdf usando un sistema basato su modelli (o il sistema di template non è efficiente qui?).