Как повысить производительность медленных заданий Spark с использованием соединения DataFrame и JDBC?
я есть некоторые данные в базе данных, и я хочу работать с ними в Spark, используяsparklyr.
Я могу использоватьDBIпакет для импорта данных из базы данных в R
dbconn <- dbConnect(<some connection args>)
data_in_r <- dbReadTable(dbconn, "a table")
затем скопируйте данные из R в Spark, используя
sconn <- spark_connect(<some connection args>)
data_ptr <- copy_to(sconn, data_in_r)
Копирование дважды выполняется медленно для больших наборов данных.
Как я могу скопировать данные непосредственно из базы данных в Spark?
sparklyr имеет несколькоspark_read_*()
функции для импорта, но ничего не связано с базой данных.sdf_import()
выглядит как возможность, но не ясно, как использовать его в этом контексте.