Spark Datentyp guesser UDAF

Question

Sep 22, 2015, 06:31 PM

apache-spark machine-learning bigdata apache-spark-mllib hive

Spark Datentyp guesser UDAF

Wollte so etwas nehmenhttps: //github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.jav und erstellen Sie eine Hive-UDAF, um eine Aggregatfunktion zu erstellen, die einen Datentyp "guess" zurückgibt.

Hat Spark sowas schon eingebaut? Wäre sehr nützlich für neue breite Datensätze, um Daten zu untersuchen. Wäre auch für ML hilfreich, z.B. kategoriale vs numerische Variablen zu entscheiden.

Wie bestimmen Sie normalerweise Datentypen in Spark?

P.S. Frameworks wie h2o ermitteln automatisch den Datentyp, der eine Datenprobe oder einen gesamten Datensatz scannt. So kann man dann entscheiden, z. Wenn eine Variable eine kategoriale Variable oder eine numerische Variable sein soll.

P.P.S. Ein anderer Anwendungsfall ist, wenn Sie einen beliebigen Datensatz erhalten (wir bekommen sie ziemlich oft) und als Parketttabelle speichern möchten. Durch die Bereitstellung korrekter Datentypen wird das Parkett platzsparender (und wahrscheinlich leistungsfähiger in Bezug auf die Abfragezeit, z. B. bessere Parkett-Bloom-Filter als das Speichern aller Daten als String / Varchar).