Разобрать CSV как DataFrame / DataSet с Apache Spark и Java
Я новичок в зажигании, и я хочу использовать группирование и сокращение, чтобы найти следующее из CSV (одна строка занятых):
Department, Designation, costToCompany, State
Sales, Trainee, 12000, UP
Sales, Lead, 32000, AP
Sales, Lead, 32000, LA
Sales, Lead, 32000, TN
Sales, Lead, 32000, AP
Sales, Lead, 32000, TN
Sales, Lead, 32000, LA
Sales, Lead, 32000, LA
Marketing, Associate, 18000, TN
Marketing, Associate, 18000, TN
HR, Manager, 58000, TN
Я хотел бы упростить о CSV с группой поДепартамент, Обозначение, Государство с дополнительными столбцами ссумма (costToCompany) а такжеTotalEmployeeCount
Должен получить результат как:
Dept, Desg, state, empCount, totalCost
Sales,Lead,AP,2,64000
Sales,Lead,LA,3,96000
Sales,Lead,TN,2,64000
Есть ли способ добиться этого с помощью преобразований и действий. Или мы должны пойти на операции RDD?