Was ist effizient, Dataframe oder RDD oder hiveql?
ch bin ein Neuling bei Apache Spar
Mein Job liest zwei CSV-Dateien, wählt bestimmte Spalten aus, führt sie zusammen, aggregiert sie und schreibt das Ergebnis in eine einzelne CSV-Datei.
Beispielsweise
CSV1name,age,deparment_id
CSV2department_id,deparment_name,location
Ich möchte eine dritte CSV-Datei mit @ erhaltname,age,deparment_name
Ich lade beide CSV-Dateien in Datenrahmen. Und dann in der Lage, den dritten Datenrahmen mit verschiedenen Methoden zu erhaltenjoin,select,filter,drop
in Datenrahmen vorhanden
Ich bin auch in der Lage, dasselbe mit mehrerenRDD.map()
Und ich bin auch in der Lage, das gleiche zu tun, indem ich @ ausfühhiveql
usingHiveContext
Ich möchte wissen, welche Methode bei großen CSV-Dateien am effizientesten ist und warum?