Разобрать CSV как DataFrame / DataSet с Apache Spark и Java

Question

Aug 18, 2014, 02:07 PM

apache-spark-sql hadoop java hdfs apache-spark

Разобрать CSV как DataFrame / DataSet с Apache Spark и Java

Я новичок в зажигании, и я хочу использовать группирование и сокращение, чтобы найти следующее из CSV (одна строка занятых):

  Department, Designation, costToCompany, State
  Sales, Trainee, 12000, UP
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, TN
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, TN 
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, LA
  Marketing, Associate, 18000, TN
  Marketing, Associate, 18000, TN
  HR, Manager, 58000, TN

Я хотел бы упростить о CSV с группой поДепартамент, Обозначение, Государство с дополнительными столбцами ссумма (costToCompany) а такжеTotalEmployeeCount

Должен получить результат как:

  Dept, Desg, state, empCount, totalCost
  Sales,Lead,AP,2,64000
  Sales,Lead,LA,3,96000  
  Sales,Lead,TN,2,64000

Есть ли способ добиться этого с помощью преобразований и действий. Или мы должны пойти на операции RDD?

Разобрать CSV как DataFrame / DataSet с Apache Spark и Java

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Разобрать CSV как DataFrame / DataSet с Apache Spark и Java

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы