Analysieren Sie CSV als DataFrame / DataSet mit Apache Spark und Java
Ich bin neu in der Funkenbildung und möchte Group-by & Reduce verwenden, um Folgendes aus CSV zu ermitteln (eine Zeile pro Angestelltem):
Department, Designation, costToCompany, State
Sales, Trainee, 12000, UP
Sales, Lead, 32000, AP
Sales, Lead, 32000, LA
Sales, Lead, 32000, TN
Sales, Lead, 32000, AP
Sales, Lead, 32000, TN
Sales, Lead, 32000, LA
Sales, Lead, 32000, LA
Marketing, Associate, 18000, TN
Marketing, Associate, 18000, TN
HR, Manager, 58000, TN
Ich möchte das über CSV mit group by vereinfachenAbteilung, Bezeichnung, Staat mit zusätzlichen Spalten mitsum (costToCompany) undTotalEmployeeCount
Sollte ein Ergebnis erhalten wie:
Dept, Desg, state, empCount, totalCost
Sales,Lead,AP,2,64000
Sales,Lead,LA,3,96000
Sales,Lead,TN,2,64000
Gibt es eine Möglichkeit, dies mithilfe von Transformationen und Aktionen zu erreichen? Oder sollten wir uns für RDD-Operationen entscheiden?