Was ist der Unterschied zwischen Spark DataSet und RDD

Ich habe immer noch Schwierigkeiten, die volle Leistungsfähigkeit der kürzlich eingeführten Spark-Datensätze zu verstehen.

Gibt es bewährte Methoden für die Verwendung von RDDs und für die Verwendung von Datasets?

n ihremAnkündigun Databricks erklärt, dass durch die Verwendung von Datasets eine erstaunliche Reduzierung der Laufzeit und des Speichers erzielt werden kann. Es wird weiterhin behauptet, dass Datasets so konzipiert sind, dass sie neben der vorhandenen RDD-API funktioniere

Ist dies nur ein Hinweis auf die Abwärtskompatibilität oder gibt es Szenarien, in denen RDDs gegenüber Datasets bevorzugt werden?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage