Estoy buscando una herramienta offline que permita realizar búsquedas en un archivo PDF existente mediante la ejecución de un OCR, sustituyendo el archivo original sin búsquedas por la versión con búsquedas, y que pueda ejecutarse de forma desatendida.
Por ejemplo, www.pdfscannerapp.com - hace exactamente lo que necesito, pero es una interfaz gráfica de usuario, no se puede programar.
Soy consciente de que Evernote hace que los archivos PDF se puedan buscar, pero sólo se pueden buscar dentro de Evernote.
No busco un OCR perfecto, incluso un OCR moderadamente aceptable está bien, pero preferiría una pequeña utilidad en lugar de un paquete de software voluminoso.
(Estoy al tanto de una pregunta similar, pero diferente, en AD: Buscando un software para escanear o convertir a PDF con capacidad de búsqueda y de firma - sin embargo, no necesito firmar o rellenar PDFs, y mi requisito es que la solución sea scriptable)
EDITAR:
1) Varias utilidades permiten la extracción de texto estructurado, sin embargo, para ser extraído, el texto debe estar allí; me refiero principalmente a los PDF que son mapas de bits envueltos, como es el caso de los PDF simples generados por los escáneres.
2) No busco necesariamente una solución gratuita, y estaría más que feliz de pagar por una buena utilidad que sólo haga lo que necesito, pero no busco aplicaciones voluminosas con un millón de funciones que incluyan una función de OCR pero cuyo coste no justifique su compra sólo por la funcionalidad de OCR.
3) Como ya he dicho, no busco un OCR perfecto, sólo un OCR medianamente aceptable. Desafortunadamente, en mi experiencia, tesseract está realmente por debajo de ese umbral. Defino como "moderadamente aceptable" un OCR que pueda, por ejemplo, hacer un OCR de una factura de servicios públicos de manera que al menos el número de cuenta (número de cliente) sea reconocido correctamente.
EDIT: "scriptable" o "automatable", es decir, capaz de activarse automáticamente y ejecutarse sin necesidad de intervención humana.
2 votos
...no sé lo difícil que sería hacerlo, pero Tesseract OCR se menciona a menudo code.google.com/p/tesseract-ocr y OCR en Unix.SE .
1 votos
Hay una pregunta similar aquí ¿se ajusta la respuesta a sus necesidades?
1 votos
Usted menciona el OCR. ¿Sus requisitos incluyen el manejo de imágenes dentro de PDF, o de archivos PDF escaneados? En el caso de los archivos que contienen texto en forma de postscript, un convertidor de PDF a texto como "PDF2Text Pilot" podría servirle.
0 votos
@patrix Yo buscaba una utilidad más pequeña, no necesariamente gratuita pero sí en otro rango de precios. Aun así, es una posible solución, gracias.
0 votos
@TimothyButler desafortunadamente estoy tratando con PDFs escaneados (imágenes). Pero, buena pista, gracias.
0 votos
@magma ¿Puedes añadir tu criterio ampliado a la pregunta?
0 votos
El reconocimiento óptico de caracteres es bastante amplio: hay grandes diferencias en la calidad de los programas. Cuando se añade el soporte lingüístico, como el soporte de diferentes idiomas, se puede obtener una mejor calidad de detección. Si eres estudiante, Adobe Acrobat Pro de Creative Suite cuesta unos 300EUR, si no, solo unos 200EUR. Me gustaría que hubiera alguna vista previa comparando la detección de OCR con diferentes tipos de documentos: documento matemático, diferente idioma, etc -- puede haber grandes diferencias en la calidad. Puede ayudar a especificar el idioma. También reescribiría la pregunta, ahora demasiado extendida -- intenta hacerla más simple.
0 votos
Por cierto, he echado un vistazo a esto: malcolmhardie.com/ocr/index.html que utiliza Tesseract y es openSource - pero cuando traté de OCRing un PNG, en lugar de un TIFF los resultados fueron muy pobres. Una pena, porque se podría haber convertido en lo que quieres sin demasiado trabajo.
0 votos
@diggory lamentablemente mi experiencia con tesseract ha sido muy decepcionante también.
0 votos
@patrix He aclarado los requisitos. La pregunta que has enlazado contiene una referencia a un post del blog de Marco Arment con información interesante. Actualmente estoy experimentando con PDFPen; sigue siendo un poco exagerado, pero está más cerca.
0 votos
También hay < jocr.sourceforge.net > y < gnu.org/software/ocrad > si aún no te has topado con ellos.
0 votos
A partir de hoy, he pasado a utilizar la aplicación Scanbot en mi iPhone, con OCR automático y carga automática en Dropbox. Perfecto para mi flujo de trabajo. Ten en cuenta que la función de OCR es de pago en Scanbot.