В чем разница между Spark DataSet и RDD

Я все еще пытаюсь понять всю мощь недавно представленных наборов данных Spark.

Существуют ли лучшие практики, когда следует использовать RDD и когда использовать наборы данных?

В ихобъявление Databricks объясняет, что с помощью наборов данных можно добиться ошеломляющего сокращения времени выполнения и памяти. Тем не менее утверждается, что наборы данных «разработаны для работы вместе с существующим API RDD».

Является ли это просто ссылкой на обратную совместимость или существуют сценарии, в которых предпочтительнее использовать СДР, чем наборы данных?

Ответы на вопрос(1)

Ваш ответ на вопрос