¿Qué es eficiente, Dataframe o RDD o hiveql?

Question

Jul 16, 2015, 01:49 PM

apache-spark spark-dataframe apache-spark-sql

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark.

Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV.

Por ejemplo,

CSV1

name,age,deparment_id

CSV2

department_id,deparment_name,location

Quiero obtener un tercer archivo CSV con

name,age,deparment_name

Estoy cargando tanto el CSV en los marcos de datos. Y luego puede obtener el tercer marco de datos utilizando varios métodosjoin,select,filter,drop presente en el marco de datos

También puedo hacer lo mismo usando variosRDD.map()

Y también puedo hacer lo mismo usando la ejecuciónhiveql utilizandoHiveContext

Quiero saber cuál es la forma eficiente si mis archivos CSV son enormes y por qué.