Pyspark, cómo dividir cuando hay varios delimitadores en una columna [duplicado]

Question

Apr 14, 2018, 01:33 AM

Pyspark, cómo dividir cuando hay varios delimitadores en una columna [duplicado]

Esta pregunta ya tiene una respuesta aquí:

Cargar archivo CSV con Spark 11 respuestas

rdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda fields:((fields[1],fields[3],fields[5]), 1) )

Utilicé el comando anterior para obtener solo el valor basado en los campos [1], campos [3] y campos [5].

Los valores a continuación se obtuvieron como salida real porque la segunda columna en el archivo de entrada incluye varias comas que utilicé para dividir la línea. ¿Cómo puedo dividir los datos cuando hay varios delimitadores? ¿O hay alguna forma de eliminar las tablas que no quiero usar? Quiero eliminar varias columnas que tienen una cadena larga que hace que este problema ocurra

[((u'BibNum', u'ItemCollection', u'ItemLocation'), 1),
 ((u'3011076', u' 1481425749', u' 9781481425742"'), 1),
 ((u'2248846', u' c1999."', u'"'), 1)]

Estoy esperando el siguiente resultado.

   [((u'BibNum', u'ItemCollection', u'ItemLocation'), 1),
     ((u'3011076', u' qna, u' ncrdr"'), 1),
     ((u'2248846', u' qkb."', ncstr'"'), 1)]

Cargaré valores de entrada de muestra para que comprenda mi problema,

3011076,
"A tale of two friends / adapted by Ellie O'Ryan ; illustrated by Tom Caulfield, Frederick Gardner, Megan Petasky, and Allen Tam.",
"O'Ryan, Ellie",
"1481425730, 1481425749, 9781481425735, 9781481425742",
2014.,
"Simon Spotlight,",
"Musicians Fiction, Bullfighters Fiction, Best friends Fiction, Friendship Fiction, Adventure and adventurers Fiction",
jcbk,
ncrdr,
Floating,
qna,
09/01/2017,
1

Como puede ver, en esta entrada de muestra, en la segunda línea, incluye muchas comas que me impiden dividir.