Что является эффективным, Dataframe или RDD или hiveql?

Я новичок в Apache Spark.

Моя задача - прочитать два CSV-файла, выбрать из него несколько определенных столбцов, объединить их, объединить и записать результат в один CSV-файл.

Например,

CSV1
name,age,deparment_id
CSV2
department_id,deparment_name,location
Я хочу получить третий файл CSV с
name,age,deparment_name

Я загружаю оба CSV в кадры данных. И тогда можно получить третий кадр данных, используя несколько методовjoin,select,filter,drop присутствует в датафрейме

Я также могу сделать то же самое, используя несколькоRDD.map()

И я также могу сделать то же самое с помощью выполненияhiveql с помощьюHiveContext

Я хочу знать, какой эффективный способ, если мои файлы CSV огромны и почему?

Ответы на вопрос(3)

Ваш ответ на вопрос