Crie um mapa para chamar o POJO para cada linha do Spark Dataframe
Criei um modelo de H2O em R e salvei o código POJO. Quero pontuar arquivos em parquet em hdfs usando o POJO, mas não sei ao certo como fazê-lo. Eu pretendo ler os arquivos do parquet no spark (scala / SparkR / PySpark) e marcá-los lá. Abaixo está o trecho que encontrei emPágina de documentação do H2O.
"Como executo um POJO em um Spark Cluster?
O POJO fornece apenas a lógica matemática para fazer previsões, para que você não encontre nenhum código específico do Spark (ou mesmo H2O) lá. Se você deseja usar o POJO para fazer previsões em um conjunto de dados no Spark, crie um mapa para chamar o POJO para cada linha e salve o resultado em uma nova coluna, linha por linha "
Alguém tem algum código de exemplo de como eu posso fazer isso? Eu aprecio muito qualquer ajuda. Eu codifico principalmente no R e SparkR, e não tenho certeza de como posso "mapear" o POJO para cada linha.
Desde já, obrigado.