PySpark: Como preencher valores no dataframe para colunas específicas?

Question

Jul 12, 2017, 09:02 PM

Eu tenho o seguinte exemplo DataFrame:

a    | b    | c   | 

1    | 2    | 4   |
0    | null | null| 
null | 3    | 4   |

E eu quero substituir valores nulos apenas nas 2 primeiras colunas - coluna "a" e "b":

a    | b    | c   | 

1    | 2    | 4   |
0    | 0    | null| 
0    | 3    | 4   |

Aqui está o código para criar um dataframe de amostra:

rdd = sc.parallelize([(1,2,4), (0,None,None), (None,3,4)])
df2 = sqlContext.createDataFrame(rdd, ["a", "b", "c"])

Eu sei como substituir todos os valores nulos usando:

df2 = df2.fillna(0)

E quando tento isso, perco a terceira coluna:

df2 = df2.select(df2.columns[0:1]).fillna(0)

questionAnswers(2)

Desativar primeira coluna da primeira linha no WPF DataGrid

Pode `* this` ser` move () `d?

Obtendo “Erro ao carregar o módulo MySQLdb: Nenhum módulo chamado MySQLdb” - tentei soluções postadas anteriormente

A atualização do campo personalizado está terminando em loop infinito

BeanCreationException lançada ao tentar executar meu projeto