0 votos

Dividir un enorme PDF en archivos .txt separados

Tengo un archivo PDF con 2 años de entradas de diario exportadas desde MacJournal en 2009. Ahora utilizo Day One, que permite a CLI importar archivos .txt.

Mi pregunta es, ¿es posible exportar un PDF de entradas formateadas (con fecha) en archivos individuales .txt de cada entrada separada (con el nombre de archivo de mes/día/año.txt)?

1voto

Intente utilizar primero pdftotext o ebook-convert para convertir el PDF en texto:

brew install poppler;pdftotext file.pdf

/Applications/calibre.app/Contents/MacOS/ebook-convert file.pdf file.txt

Entonces, si por ejemplo el archivo de texto tiene un formato como este

2012-12-31
paragraph 1
paragraph 2

2013-01-01
paragraph 1
paragraph 2

Intenta ejecutar un comando como este:

awk -v RS= -F'\n' '{print $0>($1".txt")}' file.txt

O si el archivo de texto tiene un formato como este

2012-12-31

paragraph 1

paragraph 2

2013-01-01

paragraph 1

paragraph 2

Intenta ejecutar un comando como este:

ruby -e '$<.read.split("\n\n\n").each{|s|title,content=s.split("\n\n",2)
File.open(title+".txt","w"){|f|f.puts content}}' input.txt

AppleAyuda.com

AppleAyuda es una comunidad de usuarios de los productos de Apple en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X