¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark.

Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV.

Por ejemplo,

CSV1
name,age,deparment_id
CSV2
department_id,deparment_name,location
Quiero obtener un tercer archivo CSV con
name,age,deparment_name

Estoy cargando tanto el CSV en los marcos de datos. Y luego puede obtener el tercer marco de datos utilizando varios métodosjoin,select,filter,drop presente en el marco de datos

También puedo hacer lo mismo usando variosRDD.map()

Y también puedo hacer lo mismo usando la ejecuciónhiveql utilizandoHiveContext

Quiero saber cuál es la forma eficiente si mis archivos CSV son enormes y por qué.

Respuestas a la pregunta(3)

Su respuesta a la pregunta