`combineByKey`, pyspark [duplicado]
Esta pregunta ya tiene una respuesta aquí:
¿Quién puede dar una explicación clara de `combineByKey` en Spark? 1 respuestaApache Spark: ¿Cuál es la implementación equivalente de RDD.groupByKey () usando RDD.aggregateByKey ()? 2 respuestas Solo me pregunto qué hace exactamente esto. EntiendokeyBy
, pero me cuesta entender qué es exactamente esocombineByKey
. He leído las páginas (enlace) y todavía no entiendo.
df.rdd.keyBy(
lambda row: row['id']
).combineByKey(
lambda row: [row],
lambda rows, row: rows + [row],
lambda rows1, rows2: rows1 + rows2,
)
)