Was ist effizient, Dataframe oder RDD oder hiveql?

ch bin ein Neuling bei Apache Spar

Mein Job liest zwei CSV-Dateien, wählt bestimmte Spalten aus, führt sie zusammen, aggregiert sie und schreibt das Ergebnis in eine einzelne CSV-Datei.

Beispielsweise

CSV1
name,age,deparment_id
CSV2
department_id,deparment_name,location
Ich möchte eine dritte CSV-Datei mit @ erhalt
name,age,deparment_name

Ich lade beide CSV-Dateien in Datenrahmen. Und dann in der Lage, den dritten Datenrahmen mit verschiedenen Methoden zu erhaltenjoin,select,filter,drop in Datenrahmen vorhanden

Ich bin auch in der Lage, dasselbe mit mehrerenRDD.map()

Und ich bin auch in der Lage, das gleiche zu tun, indem ich @ ausfühhiveql usingHiveContext

Ich möchte wissen, welche Methode bei großen CSV-Dateien am effizientesten ist und warum?

Antworten auf die Frage(6)

Ihre Antwort auf die Frage