Quale formato "ebook" per il progetto di digitalizzazione / codifica?

0

Qualcuno ha un suggerimento per digitalizzare + OCR'in un corpus stampato con immagini?

Ho 1200 pagine di testo cosparse di fotografie essenziali. Supponendo che io abbia delle scansioni perfette delle pagine, quali sono le mie opzioni per preservare il layout del testo originale e permettermi di dare questo ad un programma?

    
posta wnewport 02.05.2011 - 09:49
fonte

1 risposta

1

djvu (ad es. link ) è un formato un po 'standard per le scansioni e fornisce un "backstore" per il testo semplice da OCR ( con formattazione, almeno se generata con gli strumenti commerciali).

Il PDF può funzionare allo stesso modo: puoi mostrare le immagini ma averne il backup con testo formattato, quindi copia e incolla funziona. Di fatto, il set di applicazioni OCR di ABBYY può creare tali PDF.

Il PDF è molto più comune, ma di solito richiede più spazio di djvu per gli stessi dati con la stessa qualità.

    
risposta data 02.05.2011 - 14:41
fonte

Leggi altre domande sui tag