¿Cómo manejar filas de líneas múltiples en spark?

Question

Sep 25, 2017, 05:08 PM

¿Cómo manejar filas de líneas múltiples en spark?

Tengo un marco de datos que tiene algunas observaciones de varias líneas:

+--------------------+----------------+
|         col1|               col2|
+--------------------+----------------+
|something1           |somethingelse1  |
|something2           |somethingelse2  |
|something3           |somethingelse3  |
|something4           |somethingelse4  |
|multiline

 row               |     somethings|
|something            |somethingall    |

Lo que quiero es ahorrar encsv formato (otxt) este marco de datos. Usando lo siguiente:

df
 .write
 .format("csv")
 .save("s3://../adf/")

Pero cuando reviso el archivo, separa las observaciones en varias líneas. Lo que quiero es que las líneas que tienen observaciones 'multilínea' sean una misma fila en el archivo txt / csv. Traté de guardarlo como archivo txt:

df
.as[(String,String)]
.rdd
.saveAsTextFile("s3://../adf")

pero se observó la misma salida.

Me imagino que una forma es reemplazar\n con algo más y luego, cuando vuelva a cargar, realice la función inversa. Pero, ¿hay alguna manera de guardarlo de la manera deseada sin hacer ningún tipo de transformación en los datos?