usar pacote spark cassandra no Azure Data Factory

Question

Apr 18, 2018, 03:51 PM

cassandra apache-spark azure-data-factory pyspark

usar pacote spark cassandra no Azure Data Factory

Criei um script pyspark que funciona bem quando o executo comspark-submit:

spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.py

Como estou trabalhando com o Azure Data Factory, também gostaria de executar este trabalho no ADF. Eu criei o seguinte trabalho:

{
    "name": "spark write to cassandra",
    "type": "HDInsightSpark",
    "policy": {
        "timeout": "7.00:00:00",
        "retry": 0,
        "retryIntervalInSeconds": 30,
        "secureOutput": false
    },
    "typeProperties": {
        "rootPath": "dev/apps/spikes",
        "entryFilePath": "test_cassandra.py",
        "sparkConfig": {
            "packages": "datastax:spark-cassandra-connector:2.0.7-s_2.10",
            "conf": "spark.cassandra.connection.host=12.34.56.78"
        },
        "sparkJobLinkedService": {
            "referenceName": "linkedServiceStorageBlobHDI",
            "type": "LinkedServiceReference"
        }
    },
    "linkedServiceName": {
        "referenceName": "linkedServiceHDI",
        "type": "LinkedServiceReference"
    }
}

Eu pensei que seria suficiente, mas aparentemente há um problema com o pacote. Eu recebi o erro:

java.lang.ClassNotFoundException: falha ao localizar a fonte de dados: org.apache.spark.sql.cassandra. Encontre pacotes emhttps://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projects

Você pode me ajudar a configurar corretamente minha atividade para executá-la?