Buscar texto en archivos PDF con pdfgrep
A la hora de buscar texto dentro de documentos PDF, pdfgrep es una completa herramienta en linea de comandos que nos permite realizar dicha función.
Presenta una manera de trabajar muy similar a la de grep, con la que mantiene muchas similitudes en su forma de ejecución.
La manera sencilla de empezar con el programa, es situarnos en el directorio –donde está nuestro objeto de búsqueda– con la terminal y ejecutar: pdfgrep seguido del termino a buscar y el archivo pdf en cuestión.
En este ejemplo buscamos la palabra “status” en un archivo llamado manual.pdf:
pdfgrep status manual.pdf
Podemos hacer la cosa algo más interesante, incluyendo un par de opciones haciéndolo “insensible” (-i) al tema de las mayúsculas y minúsculas, así como activando el paginador (-n) para que nos muestre en donde diablos está la palabra que buscamos:
pdfgrep -ni status manual.pdf
La herramienta es compatible con expresiones regulares,pudiendo utilizar todo tipo de comodines como el que nos permite buscar una cadena de texto en varios archivos PDF a la vez:
pdfgrep -ni status *.pdf
Quizás tan solo nos apetezca contar cuantas veces aparece un determinado termino:
pdfgrep -c status *.pdf
Además tenemos la opción de hacer una búsqueda recursiva, para ello hacemos uso del parámetro -r, en este caso con la opción include que delimita el tipo de archivos que van a ser sometidos a dicha búsqueda (por ahora todos los PDF):
pdfgrep -ni -r --include "*.pdf" status
Quizás tan solo nos interese examinar los PDF’s que empiecen por una determinada palabra (por ej. “Python”). Sería algo así:
pdfgrep -ni -r --include "Python*.pdf" status
O puede que todo lo contrario, para eso tenemos el parámetro exclude:
pdfgrep -ni -r --exclude "Python*.pdf" status
Tenéis más opciones, las cuales podéis consultar en el manual o bien en la ayuda del programa con:
pdfgrep --help
Instalación de pdfgrep en Linux
La aplicación se distribuye bajo licencia libre (GPL v2), estando disponible en los repositorios de varias distribuciones GNU/LINUX.
- Los usuarios de Arch Linux o alguna de sus derivadas (Antergos, Manjaro, Apricity) nos lo encontramos en los repositorios oficiales:
sudo pacman -S pdfgrep
- En openSUSE Leap y Tumbleweed se puede instalar desde 1 click install.
- Debian, derivadas como Ubuntu e hijas (Linux Mint, Elementary OS) lo pueden instalar desde la terminal con:
sudo apt install pdfgrep
- Y por último en Fedora:
su -c
dnf install pdfgrep
Tenéis mas información sobre pdfgrep en la web del proyecto.
Via: lamiradadelreplicante.com