В чем разница между Spark DataSet и RDD
Я все еще пытаюсь понять всю мощь недавно представленных наборов данных Spark.
Существуют ли лучшие практики, когда следует использовать RDD и когда использовать наборы данных?
В ихобъявление Databricks объясняет, что с помощью наборов данных можно добиться ошеломляющего сокращения времени выполнения и памяти. Тем не менее утверждается, что наборы данных «разработаны для работы вместе с существующим API RDD».
Является ли это просто ссылкой на обратную совместимость или существуют сценарии, в которых предпочтительнее использовать СДР, чем наборы данных?