Что является эффективным, Dataframe или RDD или hiveql?
Я новичок в Apache Spark.
Моя задача - прочитать два CSV-файла, выбрать из него несколько определенных столбцов, объединить их, объединить и записать результат в один CSV-файл.
Например,
CSV1name,age,deparment_id
CSV2department_id,deparment_name,location
Я хочу получить третий файл CSV сname,age,deparment_name
Я загружаю оба CSV в кадры данных. И тогда можно получить третий кадр данных, используя несколько методовjoin,select,filter,drop
присутствует в датафрейме
Я также могу сделать то же самое, используя несколькоRDD.map()
И я также могу сделать то же самое с помощью выполненияhiveql
с помощьюHiveContext
Я хочу знать, какой эффективный способ, если мои файлы CSV огромны и почему?