Hay una herramienta de código abierto llamada PDFbox (de Apache) que tiene algunas herramientas de línea de comandos que puedes usar para extraer el texto para que pueda ser contado con wc
. El comando (porque es un archivo Java jar) sería el siguiente:
% java -jar pdfbox.jar ExtractText -console foobar.pdf | wc -w
-console
es necesario porque automáticamente escribirá un archivo de texto con el mismo nombre base que el origen (es decir, foobar.pdf
→ foobar.txt
)
Esta opción es mucho más pequeña que lo que está incluido con Ghostscript, aunque requiere un JRE (Java Run Time Environment) instalado aunque eso es bastante fácil de hacer.
Está disponible a través de MacPorts o directamente desde la fuente. Es un archivo Java jar, así que sugiero copiarlo a /usr/local/bin/
y crear un alias para él por conveniencia
alias pdfbox="java -jar /usr/local/bin/pdfbox.jar"
Ponga ese alias en su perfil de shell - ~/.bash_profile
o ~/.zprofile
para Bash o Zsh respectivamente. Entonces puede emitir el comando de la siguiente manera:
% pdfbox ExtractText -console foobar.pdf | wc -w
0 votos
Ten en cuenta que muchos archivos PDF son colecciones de imágenes y no de texto, por lo que el recuento de palabras sería 0 o muy bajo.
0 votos
Una posibilidad es intentar exportar el PDF a texto y hacer el recuento de palabras allí. De hecho, esto es lo que uno haría utilizando Acrobat.