Искра Тип данных Угадай UDAF

Хотел взять что то подобноеhttps://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java и создайте Hive UDAF для создания агрегатной функции, которая возвращает предположение типа данных.

Есть ли в Spark что-то подобное уже встроенное? Было бы очень полезно для новых широких наборов данных для изучения данных. Было бы полезно и для ML, например, решить категориальные и числовые переменные.

Как вы обычно определяете типы данных в Spark?

Постскриптум Фреймворки, такие как H2O, автоматически определяют тип данных, сканируя образец данных или весь набор данных. Так что тогда можно решить, например, если переменная должна быть категориальной или числовой.

P.P.S. Другой вариант использования, если вы получаете произвольный набор данных (мы получаем их довольно часто) и хотите сохранить его в виде таблицы Parquet. Обеспечение правильных типов данных делает паркет более эффективным (и, вероятно, более быстродействующим во время запроса, например, лучшие фильтры цветения паркета, чем просто хранит все как string / varchar).

Ответы на вопрос(1)

Ваш ответ на вопрос