Spark data type adivinador UDAF

Quería tomar algo como estohttps://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java y cree un HDAF Hive para crear una función agregada que devuelva una conjetura de tipo de datos.

¿Spark tiene algo como esto ya incorporado? Sería muy útil para nuevos conjuntos de datos amplios para explorar datos. Sería útil para ML también, p. para decidir variables categóricas vs numéricas.

¿Cómo se determinan normalmente los tipos de datos en Spark?

PD Los marcos como h2o determinan automáticamente el tipo de datos escaneando una muestra de datos o un conjunto de datos completo. Entonces uno puede decidir, p. si una variable debe ser una variable categórica o numérica.

P.P.S. Otro caso de uso es si obtiene un conjunto de datos arbitrario (los obtenemos con bastante frecuencia) y desea guardarlo como una tabla de Parquet. Proporcionar tipos de datos correctos hace que el parquet sea más eficiente en el espacio (y probablemente más rendimiento en el tiempo de consulta, por ejemplo, mejores filtros de floración de parquet que simplemente almacenar todo como cadena / varchar).

Respuestas a la pregunta(1)

Su respuesta a la pregunta