Was ist effizient, Dataframe oder RDD oder hiveql?

Question

Jul 16, 2015, 01:49 PM

apache-spark-sql apache-spark spark-dataframe

Was ist effizient, Dataframe oder RDD oder hiveql?

ch bin ein Neuling bei Apache Spar

Mein Job liest zwei CSV-Dateien, wählt bestimmte Spalten aus, führt sie zusammen, aggregiert sie und schreibt das Ergebnis in eine einzelne CSV-Datei.

Beispielsweise

CSV1

name,age,deparment_id

CSV2

department_id,deparment_name,location

Ich möchte eine dritte CSV-Datei mit @ erhalt

name,age,deparment_name

Ich lade beide CSV-Dateien in Datenrahmen. Und dann in der Lage, den dritten Datenrahmen mit verschiedenen Methoden zu erhaltenjoin,select,filter,drop in Datenrahmen vorhanden

Ich bin auch in der Lage, dasselbe mit mehrerenRDD.map()

Und ich bin auch in der Lage, das gleiche zu tun, indem ich @ ausfühhiveql usingHiveContext

Ich möchte wissen, welche Methode bei großen CSV-Dateien am effizientesten ist und warum?