Composição da função de linha do PySpark

Question

Apr 12, 2016, 11:58 PM

apache-spark pyspark apache-spark-sql python

Composição da função de linha do PySpark

Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna:

def f(x):
    return (x+1)

max_udf=udf(lambda x,y: max(x,y), IntegerType())
f_udf=udf(f, IntegerType())

df2=df.withColumn("result", max_udf(f_udf(df.col1),f_udf(df.col2)))

Então, se df:

col1   col2
1      2
3      0

Então

df2:

col1   col2  result
1      2     3
3      0     4

O texto acima parece não funcionar e produz "Não é possível avaliar a expressão: PythonUDF # f ..."

Estou absolutamente certo de que "f_udf" funciona bem na minha mesa, e o principal problema é com o max_udf.

Sem criar colunas extras ou usar o mapa básico / reduzir, existe uma maneira de fazer o acima descrito usando quadros de dados e udfs? Como devo modificar "max_udf"?

Eu também tentei:

max_udf=udf(max, IntegerType())

que produz o mesmo erro.

Também confirmei que os seguintes trabalhos:

df2=(df.withColumn("temp1", f_udf(df.col1))
       .withColumn("temp2", f_udf(df.col2))

df2=df2.withColumn("result", max_udf(df2.temp1,df2.temp2))

Por que não posso fazer isso de uma só vez?

Gostaria de ver uma resposta que generalize para qualquer função "f_udf" e "max_udf".

questionAnswers(2)

Perguntas populares

0 a resposta

Diferenças de desempenho entre visibilidade: oculta e exibição: nenhuma

0 a resposta

log4j: hora atual em milissegundos

0 a resposta

Como proteger a chave de descriptografia da descompilação?

0 a resposta

Suporte para optgroup no dropdownlist .NET MVC?

0 a resposta

Utilize a data mais recente para as datas ausentes ao ingressar nas tabelas

Você é muito ativo! É ótimo!

Composição da função de linha do PySpark

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares