Sto cercando uno strumento per script offline che renda ricercabile un file PDF esistente eseguendo OCR su di esso, sostituendo il file originale non ricercabile con la versione ricercabile, e possa essere eseguito in modo automatico.
E.g., www.pdfscannerapp.com - fa esattamente ciò di cui ho bisogno, ma è solo GUI - non è possibile scrivere uno script.
Sono consapevole che Evernote rende ricercabili i file PDF, ma rimangono ricercabili solo quando si trova in Evernote.
Non sto cercando un OCR perfetto, anche un OCR moderatamente accettabile va bene, ma preferirei una piccola utility piuttosto che un ingombrante pacchetto software.
(Sono a conoscenza di una domanda simile, ma diversa su AD: Ricerca di software da scansionare o convertire in PDF ricercabili e firmabili - tuttavia, non è necessario firmare o riempire PDF, e il mio requisito è che la soluzione sia programmabile )
EDIT:
1) Diverse utilità consentono l'estrazione di testo strutturato, tuttavia, per poter essere estratto, il testo deve essere presente; Mi riferisco principalmente ai PDF che sono bitmap avvolti, come nel caso dei PDF semplici generati dagli scanner.
2) Non sono necessariamente alla ricerca di una soluzione gratuita, e sarei più che felice di pagare per una buona utilità che fa esattamente ciò di cui ho bisogno, ma non sto cercando applicazioni ingombranti con un milione di funzionalità che includono un Funzionalità OCR ma il cui costo non giustifica l'acquisto solo per la funzionalità OCR.
3) Come detto sopra, non sto cercando un OCR perfetto, ma solo un OCR moderatamente accettabile. Sfortunatamente, nella mia esperienza, il tesseract è davvero al di sotto di questa soglia. Definisco "moderatamente accettabile" un OCR che può, per esempio, OCR una bolletta di servizio in modo che almeno il numero di conto (numero cliente) sia riconosciuto correttamente.
EDIT: "scriptable" o "automatable", cioè, in grado di essere attivato automaticamente ed eseguito senza l'ausilio di input umani.