`combineByKey`, pyspark [duplicado]

Question

Apr 27, 2018, 11:55 PM

`combineByKey`, pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí:

¿Quién puede dar una explicación clara de `combineByKey` en Spark? 1 respuestaApache Spark: ¿Cuál es la implementación equivalente de RDD.groupByKey () usando RDD.aggregateByKey ()? 2 respuestas

Solo me pregunto qué hace exactamente esto. EntiendokeyBy, pero me cuesta entender qué es exactamente esocombineByKey. He leído las páginas (enlace) y todavía no entiendo.

df.rdd.keyBy(
        lambda row: row['id']
    ).combineByKey(
        lambda row: [row],
        lambda rows, row: rows + [row],
        lambda rows1, rows2: rows1 + rows2,
    )
)