16 votos

¿Cómo puedo contar palabras en un archivo PDF en OS X?

Me gustaría contar palabras en un archivo PDF en OS X. El inspector no contiene el recuento de palabras.

0 votos

Ten en cuenta que muchos archivos PDF son colecciones de imágenes y no de texto, por lo que el recuento de palabras sería 0 o muy bajo.

0 votos

Una posibilidad es intentar exportar el PDF a texto y hacer el recuento de palabras allí. De hecho, esto es lo que uno haría utilizando Acrobat.

24voto

SparkandShine Puntos 101

Utiliza la herramienta GhostScript ps2ascii,

$ ps2ascii MSWiM_2016.pdf | wc -w
*** Advertencia: caracteres de fuente compuesta descargados sin decodificación.
    8964

0 votos

Traté de usar el comando ps2ascii en mi computadora portátil con High Sierra (10.13.6) y la terminal devolvió -bash: ps2ascii: comando no encontrado.

0 votos

Aquí mismo: probé which ps2ascii en Mojave (10.14.5) y no obtuve nada.

0 votos

@HeidiBHarley @AlexRyan, intenta pip install ps2ascii.

2voto

Nico Puntos 119

Simplemente ábralo en Microsoft Word y el recuento de palabras aparecerá en la parte inferior: introduzca una descripción de la imagen aquí

El apartado Archivo/Propiedades/Estadísticas de Word también tiene más estadísticas: introduzca una descripción de la imagen aquí

1voto

ezgranet Puntos 11

He creado una pequeña aplicación GUI "Contador de Palabras de PDF", la cual devuelve el recuento de palabras para archivos PDF ingresados. No tiene ninguna ventaja sobre la otra respuesta (ps2ascii) en términos de la cantidad de palabras devueltas, pero puede ser una buena solución para aquellas personas que no les gusta usar la línea de comandos.

0voto

Douglas Puntos 10417

Hay una herramienta de código abierto llamada PDFbox (de Apache) que tiene algunas herramientas de línea de comandos que puedes usar para extraer el texto para que pueda ser contado con wc. El comando (porque es un archivo Java jar) sería el siguiente:

% java -jar pdfbox.jar ExtractText -console foobar.pdf | wc -w   

-console es necesario porque automáticamente escribirá un archivo de texto con el mismo nombre base que el origen (es decir, foobar.pdffoobar.txt)

Esta opción es mucho más pequeña que lo que está incluido con Ghostscript, aunque requiere un JRE (Java Run Time Environment) instalado aunque eso es bastante fácil de hacer.


Está disponible a través de MacPorts o directamente desde la fuente. Es un archivo Java jar, así que sugiero copiarlo a /usr/local/bin/ y crear un alias para él por conveniencia

alias pdfbox="java -jar /usr/local/bin/pdfbox.jar"

Ponga ese alias en su perfil de shell - ~/.bash_profile o ~/.zprofile para Bash o Zsh respectivamente. Entonces puede emitir el comando de la siguiente manera:

% pdfbox ExtractText -console foobar.pdf | wc -w

AppleAyuda.com

AppleAyuda es una comunidad de usuarios de los productos de Apple en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X