Procesamiento de la información

(esta página es un trabajo en progreso)

Comandos de procesamiento de texto

El sistema operativo Unix venía con varios comandos de procesamiento de texto que siguen siendo muy útiles hoy en día:

head, tail, cat, tr, wc, cut, paste, comm, join, sort, uniq, grep.

En concreto, estos comandos son muy eficientes.

El proyecto GNU los ha mejorado mucho (por ejemplo, opciones adicionales).

os comandos originales forman parte de algunos estándares POSIX.

sed y awk no son tan específicos como los comandos enumerados anteriormente, pero son extremadamente poderosos cuando se trata de procesar texto.

Además de sus manuales de 'información', el material introductorio sobre todos esos comandos se puede encontrar en toda la Web.

Por ejemplo, los conjuntos de diapositivas numeradas del 3 al 7 en http://dcc.ufmg.br/~lcerf/en/mda.html#slides presentan esos comandos (incluidos los ejercicios) y permiten aprender sus conceptos básicos en unas pocas horas.

Comandos para procesar PDFs

Los paquetes "poppler-utils" y "pdfjam" proporcionan varios comandos para procesar archivos PDF (por ejemplo, para concatenar varios archivos PDF en un solo documento, para extraer algunas páginas específicas, para ver los metadatos, para obtener el contenido como texto sin formato, etc.).

Esos comandos se pueden usar dentro de scripts (como cualquier comando). Siguiendo este hilo del foro, se escribió un script para extraer de documentos PDF, las páginas que coinciden con algunas expresiones regulares (cadenas simples, por ejemplo): http://dcc.ufmg.br/~lcerf/en/utilities.html#pdf-page-grep

Lucas Westermann (Full Circle Magazine) escribió un artículo pedagógico sobre el 'pdf-page-grep' del profesor Loic Cerf. Este artículo apareció en el número 89 (páginas 10-11) de la revista: http://dl.fullcirclemagazine.org/issue89_en.pdf

Revisiones

05/26/2025 - 08:47
Carlos segura