Dividi un grande PDF in file .text separati

0

Ho un file PDF di 2 anni di voci di diario che sono state esportate da MacJournal nel 2009. Ora utilizzo Day One, che consente alla CLI di importare file .txt.

La mia domanda è, è possibile esportare un PDF di voci formattate (con data) in singoli file .txt di ogni voce separata (con il nome del file di mese / giorno / anno.txt)?

    
posta user72934 13.03.2014 - 17:31
fonte

1 risposta

1

Prova a utilizzare prima pdftotext o ebook-convert per convertire il PDF in testo:

brew install poppler;pdftotext file.pdf

/Applications/calibre.app/Contents/MacOS/ebook-convert file.pdf file.txt

Quindi se per esempio il file di testo ha un formato come questo:

2012-12-31
paragraph 1
paragraph 2

2013-01-01
paragraph 1
paragraph 2

Prova a eseguire un comando come questo:

awk -v RS= -F'\n' '{print $0>($1".txt")}' file.txt

O se il file di testo ha un formato come questo:

2012-12-31

paragraph 1

paragraph 2


2013-01-01

paragraph 1

paragraph 2

Prova a eseguire un comando come questo:

ruby -e '$<.read.split("\n\n\n").each{|s|title,content=s.split("\n\n",2)
File.open(title+".txt","w"){|f|f.puts content}}' input.txt
    
risposta data 16.03.2014 - 15:44
fonte

Leggi altre domande sui tag