Salvar o conteúdo do Spark DataFrame como um único arquivo CSV [duplicado]
Esta pergunta já tem uma resposta aqui:
Escreva um arquivo CSV único usando spark-csv 8 respostasDizem que tenho um Spark DataFrame que desejo salvar como arquivo CSV. Depois deSpark 2.0.0 , DataFrameWriter classe @ suporta diretamente salvá-lo como um arquivo CS
O comportamento padrão é salvar a saída em váriospart - *. csv arquivos dentro do caminho fornecid
Como eu salvaria um DF com:
Mapeamento de caminho para o nome exato do arquivo em vez da pasta Header disponível na primeira linhaalvar como um único arquivo em vez de vários arquivoma maneira de lidar com isso é unir o DF e salvar o arquiv
df.coalesce(1).write.option("header", "true").csv("sample_file.csv")
No entanto, isso tem desvantagem em coletá-lo na máquina Master e precisa ter um mestre com memória suficient
É possível gravar um único arquivo CSV sem usar coalesce? Caso contrário, existe uma maneira eficiente do que o código acima?