Spark: вычесть два кадра данных
В версии Spark1.2.0 можно использоватьsubtract
с 2SchemRDD
s, чтобы в конечном итоге только другой контент от первого
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData
содержит строки вtodaySchemRDD
которые не существуют вyesterdaySchemaRDD
.
Как это может быть достигнуто сDataFrames
в версии Spark1.3.0?