usar pacote spark cassandra no Azure Data Factory
Criei um script pyspark que funciona bem quando o executo comspark-submit
:
spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.py
Como estou trabalhando com o Azure Data Factory, também gostaria de executar este trabalho no ADF. Eu criei o seguinte trabalho:
{
"name": "spark write to cassandra",
"type": "HDInsightSpark",
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false
},
"typeProperties": {
"rootPath": "dev/apps/spikes",
"entryFilePath": "test_cassandra.py",
"sparkConfig": {
"packages": "datastax:spark-cassandra-connector:2.0.7-s_2.10",
"conf": "spark.cassandra.connection.host=12.34.56.78"
},
"sparkJobLinkedService": {
"referenceName": "linkedServiceStorageBlobHDI",
"type": "LinkedServiceReference"
}
},
"linkedServiceName": {
"referenceName": "linkedServiceHDI",
"type": "LinkedServiceReference"
}
}
Eu pensei que seria suficiente, mas aparentemente há um problema com o pacote. Eu recebi o erro:
java.lang.ClassNotFoundException: falha ao localizar a fonte de dados: org.apache.spark.sql.cassandra. Encontre pacotes emhttps://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projects
Você pode me ajudar a configurar corretamente minha atividade para executá-la?