Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.
ключен к кластеру с помощьюssh
и я отправляю программу в кластер используя
spark-submit --master yarn myProgram.py
Я хочу сохранить результат в текстовом файле, и я попытался использовать следующие строки:
counts.write.json("hdfs://home/myDir/text_file.txt")
counts.write.csv("hdfs://home/myDir/text_file.csv")
Однако ни один из них не работает. Программа заканчивается, и я не могу найти текстовый файл вmyDir
, У вас есть идеи, как я могу это сделать?
Кроме того, есть ли способ написать прямо на мою локальную машину?
РЕДАКТИРОВАТЬ: я узнал, чтоhome
Каталог не существует, поэтому теперь я сохраняю результат как:counts.write.json("hdfs:///user/username/text_file.txt")
Но это создает каталог с именемtext_file.txt
а внутри у меня много файлов с частичными результатами внутри. Но я хочу один файл с конечным результатом внутри. Есть идеи, как я могу это сделать?