bash, Linux: establece la diferencia entre dos archivos de texto
Tengo dos archivosA
-nodes_to_delete
yB
-nodes_to_keep
. Cada archivo tiene muchas líneas con identificadores numéricos.
Quiero tener la lista de identificadores numéricos que están ennodes_to_delete
pero NO ennodes_to_keep
, p.ej.texto alternativo http://mathworld.wolfram.com/images/equations/SetDifference/Inline1.gif.
Hacerlo dentro de una base de datos PostgreSQL es irrazonablemente lento. ¿Alguna forma ordenada de hacerlo en bash usando las herramientas de CLI de Linux?
ACTUALIZAR: Esto parece ser un trabajo de Pythonic, pero los archivos son muy, muy grandes. He resuelto algunos problemas similares usandouniq
, sort
y algunas técnicas de teoría de conjuntos. Esto fue aproximadamente dos o tres órdenes de magnitud más rápido que los equivalentes de la base de datos.