Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.

Question

Dec 15, 2017, 10:01 AM

pyspark python apache-spark hdfs spark-submit

Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.

ключен к кластеру с помощьюssh и я отправляю программу в кластер используя

spark-submit --master yarn myProgram.py

Я хочу сохранить результат в текстовом файле, и я попытался использовать следующие строки:

counts.write.json("hdfs://home/myDir/text_file.txt")
counts.write.csv("hdfs://home/myDir/text_file.csv")

Однако ни один из них не работает. Программа заканчивается, и я не могу найти текстовый файл вmyDir, У вас есть идеи, как я могу это сделать?

Кроме того, есть ли способ написать прямо на мою локальную машину?

РЕДАКТИРОВАТЬ: я узнал, чтоhome Каталог не существует, поэтому теперь я сохраняю результат как:counts.write.json("hdfs:///user/username/text_file.txt") Но это создает каталог с именемtext_file.txt а внутри у меня много файлов с частичными результатами внутри. Но я хочу один файл с конечным результатом внутри. Есть идеи, как я могу это сделать?

Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Но это не будет писать ни одного файла с расширением CSV. Он создаст папку с part-m-0000n из n разделов вашего набора данных.

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы