1 votos

Software de GUI sin suscripción para rotar manualmente una página en un PDF unos grados para enderezarla.

Estoy buscando un programa que pueda funcionar en macOS, que tenga una interfaz gráfica de usuario y que permita al usuario rotar manualmente una página en un PDF unos pocos grados (digamos hasta 5) para enderezar la imagen. Me gustaría poder ajustar la cantidad de rotación, aunque si el software tiene una sugerencia, estaría bien. (Debo aclarar que esto debería ser algo que se ejecute localmente en mi propia máquina, y no en línea).

Mi aplicación particular es para imágenes escaneadas de texto, y tengo la intención de realizar posteriormente OCR en ellas; sin embargo, el software de rotación/enderezamiento no necesita estar al tanto de esto. También se ha señalado que normalmente se rota un conjunto de imágenes antes de ponerlo en un PDF, no después. Esto es absolutamente cierto, pero no hice los PDF que estoy tratando de arreglar.

Software gratuito o de código abierto sería genial, pero también podría usar software propietario, siempre y cuando el software no esté licenciado como un servicio de suscripción. Es decir, sea cual sea el costo, me gustaría pagarlo por adelantado, una vez y para siempre.

Y, el software no tendría que funcionar en todos los PDF, solo en imágenes escaneadas. Por lo tanto, podría ser algo simple, siempre y cuando pueda rotar cada página en una cantidad arbitraria, pero pequeña, y verificar visualmente que el resultado no esté sesgado.

0voto

user43889 Puntos 266

Hay dos posibles flujos de trabajo:

  1. Utilice un producto OCR que desalinee;
  2. Desempaque el PDF, rote la imagen (TIFF, JPEG, etc), vuelva a crear el PDF y haga OCR.

Qué flujo de trabajo y qué productos (económicos o no) dependerán de su propósito. Puede querer un PDF donde la capa OCR sea de buena calidad y esté alineada con precisión con la imagen. O sus necesidades pueden ser más simples, por ejemplo, crear un PDF que sea buscable dentro de un lector de PDF y cuyo contenido esté indexado por Spotlight.

Con más detalle, utilizando una imagen de prueba rotada 5 grados y convertida a PDF:

OCR con desalineación. Un buen producto de OCR abrirá el PDF (con la imagen de 5 grados), la desalineará y hará OCR. Para mi prueba, utilicé Nitro PDF Pro (¡no es barato!). El resultado fue un PDF con la imagen incrustada automáticamente enderezada y una capa OCR de buena calidad. No creo que obtenga esta funcionalidad ni esta calidad con un producto de bajo costo o de código abierto.

Pero si su propósito es crear un PDF buscable, entonces he encontrado que OwlOCR es un producto económico y fácil de usar. Con OwlOCR, la capa OCR para la imagen de 5 grados no se veía muy bien, pero las palabras fueron detectadas correctamente. Una buena detección de palabras es todo lo que se necesita para la capacidad de búsqueda.

OwlOCR utiliza el motor de OCR de Apple, a menudo llamado LiveText. Como bonificación, incluye Acciones Rápidas de Finder que puede utilizar en archivos individuales.

Desempaque el PDF, rote, vuelva a crear y hacer OCR

Utilice FileJuicer para desempacar el PDF y rotar la imagen resultante con su editor de imágenes favorito (yo uso el económico Acorn para cosas simples como esta). Cree un PDF a partir de la imagen - Finder tiene una Acción Rápida para crear un PDF a partir de una imagen. Haga OCR en el PDF con su imagen enderezada utilizando cualquier producto de OCR decente (yo usaría OwlOCR). El PDF producido por OwlOCR ahora tiene una capa OCR de buen aspecto.

Mis opiniones sobre los productos que he mencionado:

  • Nitro PDF Pro es un editor de PDF caro pero muy completo. Era más barato cuando lo compré como PDFPen. No conozco un editor de PDF de bajo costo con buen OCR.
  • OwlOCR es un OCR de bajo costo (no es un editor de PDF) - lo uso con frecuencia.
  • FileJuicer es, en mi opinión, demasiado caro. Lo compré hace mucho tiempo cuando era mucho más barato. Si no tiene un uso continuo para él, hay una prueba.
  • Acorn es excelente como editor de imágenes de bajo costo. De nuevo, hay una prueba. Es probable que pueda usar el gratuito y de código abierto GIMP como alternativa.

Soy un usuario pagado de esos productos y no tengo ninguna otra conexión con sus desarrolladores.

No he mencionado Tesseract de código abierto porque lo he encontrado bastante pobre en OCR preciso.

Nota importante

Si su necesidad es simplemente buscar en un lector de PDF, no necesita hacer OCR en el PDF. Vista Previa hace OCR en segundo plano y el PDF es buscable dentro de Vista Previa. Esto funciona con mi imagen de 5 grados.

0voto

WGroleau Puntos 255

GraphicConverter puede abrir archivos PDF y editar/guardar páginas individuales. Guarda como imagen, pero eso no es un problema si planeas utilizar OCR en ellas.

Puede rotar y "desinclinar." Para desinclinación, marcas las esquinas de lo que debería ser un rectángulo, y se convierte en eso,

Tomé fotos de lápidas desde un ángulo (debido a la posición del sol y las sombras) y uso el desinclinar para hacerlas ver de frente. Utilizo la rotación para enderezar las páginas escaneadas del diario de mi abuelo para luego poder utilizar OCR con tesseract.

0voto

Steve Evans Puntos 155

OCRmyPDF + unpaper

Si bien no es una solución gráfica, ocrmypdf y su soporte para unpaper valen la pena investigar.

Ambas herramientas son de código abierto y están disponibles a través del proyecto brew:

OCRmyPDF

OCRmyPDF agrega una capa de texto de reconocimiento óptico de caracteres (OCR) a archivos PDF escaneados, lo que permite buscar en ellos.

PDF es el mejor formato para almacenar e intercambiar documentos escaneados. Desafortunadamente, los PDF pueden ser difíciles de modificar. OCRmyPDF facilita la aplicación de procesamiento de imágenes y OCR (texto reconocido y searchable) a los PDF existentes.

brew install ocrmypdf

unpaper

unpaper es una herramienta de post-procesamiento para hojas de papel escaneadas, especialmente para páginas de libros que han sido escaneadas a partir de fotocopias previamente creadas. El propósito principal es hacer que las páginas de libros escaneadas sean más legibles en pantalla después de la conversión a PDF. Además, unpaper podría ser útil para mejorar la calidad de las páginas escaneadas antes de realizar el reconocimiento óptico de caracteres (OCR).

unpaper intenta limpiar imágenes escaneadas eliminando bordes oscuros que aparecen al escanear o copiar en áreas fuera del contenido real de la página (por ejemplo, áreas oscuras entre el lado izquierdo y el lado derecho de un escaneo de página de libro a doble cara).

El programa también intenta detectar el centrado desalineado y la rotación de páginas y automáticamente enderezará cada página girándola al ángulo correcto. Este proceso se llama "deskewing".

AppleAyuda.com

AppleAyuda es una comunidad de usuarios de los productos de Apple en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X