Analysieren Sie CSV als DataFrame / DataSet mit Apache Spark und Java

Question

Aug 18, 2014, 02:07 PM

java hadoop apache-spark apache-spark-sql hdfs

Analysieren Sie CSV als DataFrame / DataSet mit Apache Spark und Java

Ich bin neu in der Funkenbildung und möchte Group-by & Reduce verwenden, um Folgendes aus CSV zu ermitteln (eine Zeile pro Angestelltem):

  Department, Designation, costToCompany, State
  Sales, Trainee, 12000, UP
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, TN
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, TN 
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, LA
  Marketing, Associate, 18000, TN
  Marketing, Associate, 18000, TN
  HR, Manager, 58000, TN

Ich möchte das über CSV mit group by vereinfachenAbteilung, Bezeichnung, Staat mit zusätzlichen Spalten mitsum (costToCompany) undTotalEmployeeCount

Sollte ein Ergebnis erhalten wie:

  Dept, Desg, state, empCount, totalCost
  Sales,Lead,AP,2,64000
  Sales,Lead,LA,3,96000  
  Sales,Lead,TN,2,64000

Gibt es eine Möglichkeit, dies mithilfe von Transformationen und Aktionen zu erreichen? Oder sollten wir uns für RDD-Operationen entscheiden?

Antworten auf die Frage(4)

Top Fragen

0 die antwort

Utf8-Zeichen in iso-88591 und zurück in PHP konvertieren

0 die antwort

Wo soll die Anmerkung @Autowired stehen - auf der Eigenschaft oder der Methode?

0 die antwort

Haben Sie einen Platzhalter für die native Auswahl zu reagieren

0 die antwort

Finde alle Nachkommen in einem selbstreferenzierenden (Eltern-Kind) hierarchischen Baum

0 die antwort

Wie funktioniert die String-Interpolation in Kotlin?

Du bist sehr aktiv! Es ist großartig!

Analysieren Sie CSV als DataFrame / DataSet mit Apache Spark und Java

Antworten auf die Frage(4)

Ihre Antwort auf die Frage

Top Fragen