Cree un mapa para llamar al POJO para cada fila de Spark Dataframe

Question

Oct 20, 2017, 02:45 PM

Cree un mapa para llamar al POJO para cada fila de Spark Dataframe

Construí un modelo H2O en R y guardé el código POJO. Quiero puntuar archivos de parquet en hdfs usando el POJO pero no estoy seguro de cómo hacerlo. Planeo leer los archivos de parquet en chispa (scala / SparkR / PySpark) y marcarlos allí. A continuación se muestra el extracto que encontré enPágina de documentación de H2O.

"¿Cómo ejecuto un POJO en un Spark Cluster?

El POJO proporciona solo la lógica matemática para hacer predicciones, por lo que no encontrará ningún código específico de Spark (o incluso H2O) allí. Si desea utilizar el POJO para hacer predicciones en un conjunto de datos en Spark, cree un mapa para llamar al POJO para cada fila y guarde el resultado en una nueva columna, fila por fila "

¿Alguien tiene algún código de ejemplo de cómo puedo hacer esto? Agradecería mucho cualquier ayuda. Codifico principalmente en R y SparkR, y no estoy seguro de cómo puedo "asignar" el POJO a cada línea.

Gracias por adelantado.