Como lidar com linhas de várias linhas no spark?
Estou tendo um quadro de dados que possui algumas observações de várias linhas:
+--------------------+----------------+
| col1| col2|
+--------------------+----------------+
|something1 |somethingelse1 |
|something2 |somethingelse2 |
|something3 |somethingelse3 |
|something4 |somethingelse4 |
|multiline
row | somethings|
|something |somethingall |
O que eu quero é economizarcsv
formato (outxt
) esse quadro de dados. Usando o seguinte:
df
.write
.format("csv")
.save("s3://../adf/")
Mas, quando verifico o arquivo, ele separa as observações em várias linhas. O que eu quero é que as linhas que possuem observações 'multilinhas' sejam uma mesma linha no arquivo txt / csv. Eu tentei salvá-lo como arquivo txt:
df
.as[(String,String)]
.rdd
.saveAsTextFile("s3://../adf")
mas a mesma saída foi observada.
Eu posso imaginar que uma maneira é substituir\n
com outra coisa e depois, ao carregar de volta, faça a função reversa. Mas existe uma maneira de salvá-lo da maneira desejada sem fazer nenhum tipo de transformação nos dados?