Что является эффективным, Dataframe или RDD или hiveql?

Question

Jul 16, 2015, 01:49 PM

apache-spark apache-spark-sql spark-dataframe

Что является эффективным, Dataframe или RDD или hiveql?

Я новичок в Apache Spark.

Моя задача - прочитать два CSV-файла, выбрать из него несколько определенных столбцов, объединить их, объединить и записать результат в один CSV-файл.

Например,

CSV1

name,age,deparment_id

CSV2

department_id,deparment_name,location

Я хочу получить третий файл CSV с

name,age,deparment_name

Я загружаю оба CSV в кадры данных. И тогда можно получить третий кадр данных, используя несколько методовjoin,select,filter,drop присутствует в датафрейме

Я также могу сделать то же самое, используя несколькоRDD.map()

И я также могу сделать то же самое с помощью выполненияhiveql с помощьюHiveContext

Я хочу знать, какой эффективный способ, если мои файлы CSV огромны и почему?

Что является эффективным, Dataframe или RDD или hiveql?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Что является эффективным, Dataframe или RDD или hiveql?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы