Resultados da pesquisa a pedido "user-defined-functions"
Como definir e usar uma função agregada definida pelo usuário no Spark SQL?
Eu sei como escrever um UDF no Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Posso fazer algo semelhante para definir uma função agregada? Como isso é ...
Como encontrar a média das colunas de vetor agrupadas no Spark SQL?
Eu criei umRelationalGroupedDataset chamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))Como componho umfunção agregada definida pelo ...
usando uma planilha em uma função definida pelo usuário do excel
O VBA que estou tentando escrever é bastante simples, mas nunca escrevi VBA e, vindo do estúdio visual e do mundo C #, isso é realmente um inferno! Então, eu realmente serei grato por qualquer ajuda / dicas / dicas aqui Então, eu tenho duas ...
Spark UDF SQL com parâmetro de entrada complexo
Estou tentando usar UDF com o tipo de entrada Array of struct. Eu tenho a seguinte estrutura de dados, isso é apenas parte relevante de uma estrutura maior |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | ...
Problemas ao adicionar uma nova coluna a um quadro de dados - spark / scala
Eu sou novo no spark / scala. Estou tentando ler alguns dados de uma tabela de seção para um dataframe spark e adicionar uma coluna com base em alguma condição. Aqui está o meu código: val DF = hiveContext.sql("select * from (select * from ...
Declarar variável na função com valor de tabela
Como posso declarar uma variável em uma função com valor de tabela? (como no meu título)
A sequência de caracteres da coluna Spark substitui quando presente em outra coluna (linha)
Eu gostaria de remover as cordas decol1 que estão presentes emcol2: val df = spark.createDataFrame(Seq( ("Hi I heard about Spark", "Spark"), ("I wish Java could use case classes", "Java"), ("Logistic regression models are neat", "models") ...
Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)
Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...