Como salvar um arquivo no cluster
Estou conectado ao cluster usandossh
e eu envio o programa para o cluster usando
spark-submit --master yarn myProgram.py
Quero salvar o resultado em um arquivo de texto e tentei usar as seguintes linhas:
counts.write.json("hdfs://home/myDir/text_file.txt")
counts.write.csv("hdfs://home/myDir/text_file.csv")
No entanto, nenhum deles funciona. O programa termina e não consigo encontrar o arquivo de texto emmyDir
. Você tem alguma idéia de como posso fazer isso?
Além disso, existe uma maneira de escrever diretamente na minha máquina local?
EDIT: eu descobri quehome
O diretório não existe e agora salve o resultado como:counts.write.json("hdfs:///user/username/text_file.txt")
Mas isso cria um diretório chamadotext_file.txt
e por dentro tenho muitos arquivos com resultados parciais por dentro. Mas eu quero um arquivo com o resultado final dentro. Alguma idéia de como posso fazer isso?