¿Cómo manejar filas de líneas múltiples en spark?
Tengo un marco de datos que tiene algunas observaciones de varias líneas:
+--------------------+----------------+
| col1| col2|
+--------------------+----------------+
|something1 |somethingelse1 |
|something2 |somethingelse2 |
|something3 |somethingelse3 |
|something4 |somethingelse4 |
|multiline
row | somethings|
|something |somethingall |
Lo que quiero es ahorrar encsv
formato (otxt
) este marco de datos. Usando lo siguiente:
df
.write
.format("csv")
.save("s3://../adf/")
Pero cuando reviso el archivo, separa las observaciones en varias líneas. Lo que quiero es que las líneas que tienen observaciones 'multilínea' sean una misma fila en el archivo txt / csv. Traté de guardarlo como archivo txt:
df
.as[(String,String)]
.rdd
.saveAsTextFile("s3://../adf")
pero se observó la misma salida.
Me imagino que una forma es reemplazar\n
con algo más y luego, cuando vuelva a cargar, realice la función inversa. Pero, ¿hay alguna manera de guardarlo de la manera deseada sin hacer ningún tipo de transformación en los datos?