Analysieren Sie CSV als DataFrame / DataSet mit Apache Spark und Java

Ich bin neu in der Funkenbildung und möchte Group-by & Reduce verwenden, um Folgendes aus CSV zu ermitteln (eine Zeile pro Angestelltem):

  Department, Designation, costToCompany, State
  Sales, Trainee, 12000, UP
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, TN
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, TN 
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, LA
  Marketing, Associate, 18000, TN
  Marketing, Associate, 18000, TN
  HR, Manager, 58000, TN

Ich möchte das über CSV mit group by vereinfachenAbteilung, Bezeichnung, Staat mit zusätzlichen Spalten mitsum (costToCompany) undTotalEmployeeCount

Sollte ein Ergebnis erhalten wie:

  Dept, Desg, state, empCount, totalCost
  Sales,Lead,AP,2,64000
  Sales,Lead,LA,3,96000  
  Sales,Lead,TN,2,64000

Gibt es eine Möglichkeit, dies mithilfe von Transformationen und Aktionen zu erreichen? Oder sollten wir uns für RDD-Operationen entscheiden?

Antworten auf die Frage(4)

Ihre Antwort auf die Frage