Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?

Question

May 30, 2016, 10:08 PM

apache-spark-sql apache-spark apache-spark-dataset spark-dataframe

Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?

as @Spark SQL DataFrame / Dataset-Ausführungsmodul verfügt über mehrere äußerst effiziente Zeit- und Raumoptimierungen (z. B. InternalRow und expression codeGen). Vielen Dokumentationen zufolge scheint es für die meisten verteilten Algorithmen eine bessere Option als RDD zu sein.

Allerdings habe ich einige Quellcode-Recherchen durchgeführt und bin immer noch nicht überzeugt. Ich habe keinen Zweifel, dass InternalRow viel kompakter ist und viel Speicherplatz sparen kann. Die Ausführung von Algorithmen ist jedoch möglicherweise nicht schneller, wenn vordefinierte Ausdrücke gespeichert werden. Es ist nämlich im Quellcode von @ angegeborg.apache.spark.sql.catalyst.expressions.ScalaUDF, dass jede benutzerdefinierte Funktion 3 Dinge tut:

Katalysatortyp (in InternalRow verwendet) in Scalatyp (in GenericRow verwendet) konvertieren.ende die Funktion @ Das Ergebnis von Scala-Typ auf Katalysatortyp umwandeln

Anscheinend ist dies sogar noch langsamer als das direkte Anwenden der Funktion auf RDD ohne Konvertierung. Kann irgendjemand meine Spekulationen durch eine echte Profilerstellung und Code-Analyse bestätigen oder ablehnen?

Vielen Dank für jeden Vorschlag oder Einblick.

Antworten auf die Frage(2)

Top Fragen

0 die antwort

Java 8, wie kann ich eine switch-Anweisung mit Streams implementieren?

0 die antwort

Firebase-Token-Fehler: "Das benutzerdefinierte Token entspricht einer anderen Zielgruppe."

0 die antwort

Benachrichtigung unter iOS mit dem neuen Firebase Messaging SDK

0 die antwort

Wie kann ich einen Browser so einstellen, dass alle Datenlistenoptionen angezeigt werden, wenn ein Standardwert festgelegt ist?

0 die antwort

Shell-Skript schreiben, um eine bestimmte Anzahl von Zeilen mit bestimmten Argumenten zu drucken

Du bist sehr aktiv! Es ist großartig!

Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage

Top Fragen