Как повысить производительность медленных заданий Spark с использованием соединения DataFrame и JDBC?

я есть некоторые данные в базе данных, и я хочу работать с ними в Spark, используяsparklyr.

Я могу использоватьDBIпакет для импорта данных из базы данных в R

dbconn <- dbConnect(<some connection args>)
data_in_r <- dbReadTable(dbconn, "a table") 

затем скопируйте данные из R в Spark, используя

sconn <- spark_connect(<some connection args>)
data_ptr <- copy_to(sconn, data_in_r)

Копирование дважды выполняется медленно для больших наборов данных.

Как я могу скопировать данные непосредственно из базы данных в Spark?

sparklyr имеет несколькоspark_read_*() функции для импорта, но ничего не связано с базой данных.sdf_import() выглядит как возможность, но не ясно, как использовать его в этом контексте.

Ответы на вопрос(1)

Ваш ответ на вопрос