Разобрать CSV как DataFrame / DataSet с Apache Spark и Java

Я новичок в зажигании, и я хочу использовать группирование и сокращение, чтобы найти следующее из CSV (одна строка занятых):

  Department, Designation, costToCompany, State
  Sales, Trainee, 12000, UP
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, TN
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, TN 
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, LA
  Marketing, Associate, 18000, TN
  Marketing, Associate, 18000, TN
  HR, Manager, 58000, TN

Я хотел бы упростить о CSV с группой поДепартамент, Обозначение, Государство с дополнительными столбцами ссумма (costToCompany) а такжеTotalEmployeeCount

Должен получить результат как:

  Dept, Desg, state, empCount, totalCost
  Sales,Lead,AP,2,64000
  Sales,Lead,LA,3,96000  
  Sales,Lead,TN,2,64000

Есть ли способ добиться этого с помощью преобразований и действий. Или мы должны пойти на операции RDD?

Ответы на вопрос(3)

Ваш ответ на вопрос