Cómo guardar un archivo en el clúster
Estoy conectado al clúster usandossh
y envío el programa al clúster usando
spark-submit --master yarn myProgram.py
Quiero guardar el resultado en un archivo de texto e intenté usar las siguientes líneas:
counts.write.json("hdfs://home/myDir/text_file.txt")
counts.write.csv("hdfs://home/myDir/text_file.csv")
Sin embargo, ninguno de ellos funciona. El programa finaliza y no puedo encontrar el archivo de texto enmyDir
. ¿Tienes alguna idea de cómo puedo hacer esto?
Además, ¿hay alguna manera de escribir directamente en mi máquina local?
EDITAR: descubrí quehome
el directorio no existe, así que ahora guardo el resultado como:counts.write.json("hdfs:///user/username/text_file.txt")
Pero esto crea un directorio llamadotext_file.txt
y dentro tengo muchos archivos con resultados parciales adentro. Pero quiero un archivo con el resultado final dentro. ¿Alguna idea de cómo puedo hacer esto?