Hay dos posibles flujos de trabajo:
- Utilice un producto OCR que desalinee;
- Desempaque el PDF, rote la imagen (TIFF, JPEG, etc), vuelva a crear el PDF y haga OCR.
Qué flujo de trabajo y qué productos (económicos o no) dependerán de su propósito. Puede querer un PDF donde la capa OCR sea de buena calidad y esté alineada con precisión con la imagen. O sus necesidades pueden ser más simples, por ejemplo, crear un PDF que sea buscable dentro de un lector de PDF y cuyo contenido esté indexado por Spotlight.
Con más detalle, utilizando una imagen de prueba rotada 5 grados y convertida a PDF:
OCR con desalineación. Un buen producto de OCR abrirá el PDF (con la imagen de 5 grados), la desalineará y hará OCR. Para mi prueba, utilicé Nitro PDF Pro (¡no es barato!). El resultado fue un PDF con la imagen incrustada automáticamente enderezada y una capa OCR de buena calidad. No creo que obtenga esta funcionalidad ni esta calidad con un producto de bajo costo o de código abierto.
Pero si su propósito es crear un PDF buscable, entonces he encontrado que OwlOCR es un producto económico y fácil de usar. Con OwlOCR, la capa OCR para la imagen de 5 grados no se veía muy bien, pero las palabras fueron detectadas correctamente. Una buena detección de palabras es todo lo que se necesita para la capacidad de búsqueda.
OwlOCR utiliza el motor de OCR de Apple, a menudo llamado LiveText. Como bonificación, incluye Acciones Rápidas de Finder que puede utilizar en archivos individuales.
Desempaque el PDF, rote, vuelva a crear y hacer OCR
Utilice FileJuicer para desempacar el PDF y rotar la imagen resultante con su editor de imágenes favorito (yo uso el económico Acorn para cosas simples como esta). Cree un PDF a partir de la imagen - Finder tiene una Acción Rápida para crear un PDF a partir de una imagen. Haga OCR en el PDF con su imagen enderezada utilizando cualquier producto de OCR decente (yo usaría OwlOCR). El PDF producido por OwlOCR ahora tiene una capa OCR de buen aspecto.
Mis opiniones sobre los productos que he mencionado:
- Nitro PDF Pro es un editor de PDF caro pero muy completo. Era más barato cuando lo compré como PDFPen. No conozco un editor de PDF de bajo costo con buen OCR.
- OwlOCR es un OCR de bajo costo (no es un editor de PDF) - lo uso con frecuencia.
- FileJuicer es, en mi opinión, demasiado caro. Lo compré hace mucho tiempo cuando era mucho más barato. Si no tiene un uso continuo para él, hay una prueba.
- Acorn es excelente como editor de imágenes de bajo costo. De nuevo, hay una prueba. Es probable que pueda usar el gratuito y de código abierto GIMP como alternativa.
Soy un usuario pagado de esos productos y no tengo ninguna otra conexión con sus desarrolladores.
No he mencionado Tesseract de código abierto porque lo he encontrado bastante pobre en OCR preciso.
Nota importante
Si su necesidad es simplemente buscar en un lector de PDF, no necesita hacer OCR en el PDF. Vista Previa hace OCR en segundo plano y el PDF es buscable dentro de Vista Previa. Esto funciona con mi imagen de 5 grados.