OCR en PDFs en OS X con herramientas gratuitas de código abierto

Question

OCR en PDFs en OS X con herramientas gratuitas de código abierto

Preguntado el 22 de Abril, 2014: Cuando se hizo la pregunta
2509 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Después de leer estas entradas de blog:

y pasando por el recorte de abajo (de este gist) para Linux, creo que encontré un método para OCR un PDF de varias páginas y obtener un PDF en la salida que también podría funcionar en OS X. La mayoría de las dependencias están disponibles en homebrew ( brew install tesseract y brew install imagemagick ), excepto uno, hocr2pdf .

No he podido encontrar un puerto para OS X. ¿Hay alguno disponible? Si no, ¿cómo puede uno OCR un PDF de varias páginas y obtener los resultados de nuevo en un PDF de varias páginas en OS X, usando herramientas gratuitas de código abierto?

#!/bin/bash

# This is a script to transform a PDF containing a scanned book into a searchable PDF.
# Based on previous script and many good tips by Konrad Voelkel:
# http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
# http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
# Depends on convert (ImageMagick), pdftk and hocr2pdf (ExactImage).
# $ sudo apt-get install imagemagick pdftk exactimage
# You also need at least one OCR software which can be either tesseract or cuneiform.
# $ sudo apt-get install tesseract-ocr
# $ sudo apt-get install cuneiform
# To install languages into tesseract do (e.g. for Portuguese):
# $ sudo apt-get install tesseract-ocr-por

echo "usage: ./pdfocr.sh document.pdf ocr-sfw split lang author title"
# where ocr-sfw is either tesseract or cuneiform
# split is either 0 (already single-paged) or 1 (2 book-pages per pdf-page)
# lang is a language as in "tesseract --list-langs" or "cuneiform -l".
# and author, title are used for the PDF metadata.
#
# usage example:
# ./pdfocr.sh SomeFile.pdf tesseract 1 por "Some Author" "Some Title"
pdftk "$1" burst dont_ask
for f in pg_*.pdf
do
if [ "1" == "$3" ]; then
convert -normalize -density 300 -depth 8 -crop 50%x100% +repage $f "$f.png"
else
convert -normalize -density 300 -depth 8 $f "$f.png"
fi
done
rm pg_*.pdf

for f in pg_*.png
do
if [ "tesseract" == "$2" ]; then
tesseract -l $4 -psm 1 $f $f hocr
elif [ "cuneiform" == "$2" ]; then
cuneiform -l $4 -f hocr -o "$f.html" $f
else
echo "$2 is not a valid OCR software."
fi
hocr2pdf -i $f -r 300 -s -o "$f.pdf" < "$f.html"
done

pdftk pg_*.pdf cat output merged.pdf

pdftk merged.pdf update_info_utf8 doc_data.txt output merged+data.pdf
echo "InfoBegin" > in.info
echo "InfoKey: Author" >> in.info
echo "InfoValue: $5" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Title" >> in.info
echo "InfoValue: $6" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Creator" >> in.info
echo "InfoValue: PDF OCR scan script" >> in.info
in_filename="${1%.*}"
pdftk merged+data.pdf update_info_utf8 in.info output "$in_filename-ocr.pdf"

rm -r doc_data.txt in.info merged* pg_*

Preguntado el 22 de Abril, 2014 por Josh

Answer 1

2 Respuestas

Answer 2

16voto

Courtney Bodi Puntos 166

Tesseract 3.03+ tiene incorporado soporte para salida en PDF. Lo que requiere que se instale leptonica. Puedes usar: brew install tesseract --HEAD para conseguir la última versión del tesseracto. También necesitarás Ghostscript instalado pero no necesitas Hocr2pdf.

El siguiente script utiliza ghostscript para dividir el PDF en JPEGs, tesseractar al OCR los JPEGs y producir páginas individuales en PDF, y finalmente ghostscript de nuevo para combinar las páginas de nuevo en un PDF.

#!/bin/sh

y="`pwd`/$1"
echo Will create a searchable PDF for $y

x=`basename "$y"`
name=${x%.*}

mkdir "$name"
cd "$name"

# splitting to individual pages
gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE=jpeg -r300 -dTextAlphaBits=4 -o out_%04d.jpg -f "$y"

# process each page
for f in $( ls *.jpg ); do
  # extract text
  tesseract -l eng -psm 3 $f ${f%.*} pdf
  rm $f
done

# combine all pages back to a single file
gs -dCompatibilityLevel=1.4 -dNOPAUSE -dQUIET -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile=../${name}_searchable.pdf *.pdf

cd ..
rm -rf $name

# Adapted from: http://www.morethantechnical.com/2013/11/21/creating-a-searchable-pdf-with-opensource-tools-ghostscript-hocr2pdf-and-tesseract-ocr/
# from http://www.ehow.com/how_6874571_merge-pdf-files-ghostscript.html
# bash tut: http://linuxconfig.org/bash-scripting-tutorial
# Linux PDF,OCR: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/

Respondido el 12 de Febrero, 2015 por Courtney Bodi (166 Puntos )

Answer 3

1voto

Tuan Anh Tran Puntos 133

Yo uso tesseract en el OX también. Escribió sobre la automatización de la misma brevemente aquí .

Respondido el 12 de Febrero, 2015 por Tuan Anh Tran (133 Puntos )

OCR en PDFs en OS X con herramientas gratuitas de código abierto

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

AppleAyuda.com

Powered by:

OCR en PDFs en OS X con herramientas gratuitas de código abierto

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

AppleAyuda.com

Powered by: