PySpark - Como transpor um Dataframe [duplicado]

Question

Nov 06, 2018, 12:30 PM

python pyspark transpose apache-spark dataframe

PySpark - Como transpor um Dataframe [duplicado]

Esta pergunta, já tem uma resposta aqui:

Quero transpor um quadro de dados. Este é apenas um pequeno trecho do meu dataframe original -

from pyspark.sql.functions import to_timestamp, date_format 
valuesCol = [('22','ABC Ltd','U.K.','class 1',102),('22','ABC Ltd','U.K.','class 2',73),('22','ABC Ltd','U.K.','class 3',92),
             ('51','Eric AB','Sweden','class 1',52),('51','Eric AB','Sweden','class 2',34),('51','Eric AB','Sweden','class 3',11)]
df = sqlContext.createDataFrame(valuesCol,['ID','Firm','Country','Class','Revenue'])
df.show()
+---+-------+-------+-------+-------+
| ID|   Firm|Country|  Class|Revenue|
+---+-------+-------+-------+-------+
| 22|ABC Ltd|   U.K.|class 1|    102|
| 22|ABC Ltd|   U.K.|class 2|     73|
| 22|ABC Ltd|   U.K.|class 3|     92|
| 51|Eric AB| Sweden|class 1|     52|
| 51|Eric AB| Sweden|class 2|     34|
| 51|Eric AB| Sweden|class 3|     11|
+---+-------+-------+-------+-------+

Não há função de transposição emPySpark assim sendo. Uma maneira de obter o resultado necessário é criando 3dataframes emclass1, class2 and class3 e depois ingressar left join) eles. Mas isso pode envolver uma remodelação na rede, dependendo do particionador de hash, e é muito caro. Tenho certeza de que deve haver uma maneira elegante e simple

Saída esperada:

+---+-------+-------+-------+-------+-------+
| ID|   Firm|Country| Class1| Class2| Class3|
+---+-------+-------+-------+-------+-------+
| 22|ABC Ltd|   U.K.|    102|     73|     92|
| 51|Eric AB| Sweden|     52|     34|     11|
+---+-------+-------+-------+-------+-------+