Guardar en un archivo una matriz o DataFrame junto con otra información
El software estadísticoStata permite guardar fragmentos de texto cortos dentro de un conjunto de datos. Esto se logra usandonotes
y / ocharacteristics
.
Esta es una característica de gran valor para mí, ya que me permite guardar una variedad de información, desde recordatorios y listas de tareas hasta información sobre cómo generé los datos, o incluso cuál era el método de estimación para una variable en particular.
Ahora estoy tratando de encontrar una funcionalidad similar en Python 3.6. Hasta ahora, he buscado en línea y consultado varias publicaciones, que sin embargo no abordan exactamente lo que quiero hacer.
Algunas publicaciones de referencia incluyen:
mejor manera de preservar matrices numpy en el disco
¿Cuál es la diferencia entre guardar un marco de datos de pandas para pickle y csv?
¿Cómo veo el contenido de los objetos de datos dentro de un archivo npz?
Para un pequeñoNumPy
matriz, he concluido que una combinación de la funciónnumpy.savez()
y undictionary
puede almacenar adecuadamente toda la información relevante en un solo archivo.
Por ejemplo:
a = np.array([[2,4],[6,8],[10,12]])
d = {"first": 1, "second": "two", "third": 3}
np.savez(whatever_name.npz, a=a, d=d)
data = np.load(whatever_name.npz)
arr = data['a']
dic = data['d'].tolist()
Sin embargo, la pregunta sigue siendo:
¿Hay mejores maneras de incorporar potencialmente otras piezas de información en un archivo que contiene unNumPy
matriz o un (grande)Pandas
DataFrame
?
Estoy particularmente interesado en escuchar sobre el particularpros ycontras de cualquier sugerencia que pueda tener con ejemplos. Cuantas menos dependencias, mejor.