Crie um mapa para chamar o POJO para cada linha do Spark Dataframe

Question

Oct 20, 2017, 02:45 PM

Crie um mapa para chamar o POJO para cada linha do Spark Dataframe

Criei um modelo de H2O em R e salvei o código POJO. Quero pontuar arquivos em parquet em hdfs usando o POJO, mas não sei ao certo como fazê-lo. Eu pretendo ler os arquivos do parquet no spark (scala / SparkR / PySpark) e marcá-los lá. Abaixo está o trecho que encontrei emPágina de documentação do H2O.

"Como executo um POJO em um Spark Cluster?

O POJO fornece apenas a lógica matemática para fazer previsões, para que você não encontre nenhum código específico do Spark (ou mesmo H2O) lá. Se você deseja usar o POJO para fazer previsões em um conjunto de dados no Spark, crie um mapa para chamar o POJO para cada linha e salve o resultado em uma nova coluna, linha por linha "

Alguém tem algum código de exemplo de como eu posso fazer isso? Eu aprecio muito qualquer ajuda. Eu codifico principalmente no R e SparkR, e não tenho certeza de como posso "mapear" o POJO para cada linha.

Desde já, obrigado.