¿Qué es eficiente, Dataframe o RDD o hiveql?
Soy novato en Apache Spark.
Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV.
Por ejemplo,
CSV1name,age,deparment_id
CSV2department_id,deparment_name,location
Quiero obtener un tercer archivo CSV conname,age,deparment_name
Estoy cargando tanto el CSV en los marcos de datos. Y luego puede obtener el tercer marco de datos utilizando varios métodosjoin,select,filter,drop
presente en el marco de datos
También puedo hacer lo mismo usando variosRDD.map()
Y también puedo hacer lo mismo usando la ejecuciónhiveql
utilizandoHiveContext
Quiero saber cuál es la forma eficiente si mis archivos CSV son enormes y por qué.