Spark Streaming: Wie kann ich meinem DStream weitere Partitionen hinzufügen?

Question

Feb 05, 2016, 04:53 AM

apache-spark spark-streaming partitioning yarn spark-dataframe

Spark Streaming: Wie kann ich meinem DStream weitere Partitionen hinzufügen?

Ich habe eine Spark-Streaming-App, die so aussieht:

val message = KafkaUtils.createStream(...).map(_._2)

message.foreachRDD( rdd => {

  if (!rdd.isEmpty){
    val kafkaDF = sqlContext.read.json(rdd)

    kafkaDF.foreachPartition(
      i =>{
        createConnection()
        i.foreach(
          row =>{
            connection.sendToTable()
          }
        )
        closeConnection()
      }
    )

Und ich starte es auf einem Garncluster mit

spark-submit --master yarn-cluster --num-executors 3 --driver-memory 2g --executor-memory 2g --executor-cores 5....

Wenn ich versuche mich anzumeldenkafkaDF.rdd.partitions.size, das Ergebnis ist meistens '1' oder '5'. Ich bin verwirrt. Kann ich die Anzahl der Partitionen meines DataFrame steuern?KafkaUtils.createStream scheint keine Parameter zu akzeptieren, die sich auf die Anzahl der Partitionen beziehen, die ich für die Festplatte haben möchte. Ich habe es versuchtkafkaDF.rdd.repartition( int ), aber es scheint auch nicht zu funktionieren.

Wie kann ich mehr Parallelität in meinem Code erreichen? Wenn mein Ansatz falsch ist, wie kann ich ihn dann richtig erreichen?

Antworten auf die Frage(2)

Top Fragen

0 die antwort

Wie kann ich eine entfernte Datei in PHP über ssh abrufen und die Datei direkt an die Antwort des Browsers zurücksenden, ohne eine Kopie der Datei auf dem Webserver zu erstellen?

0 die antwort

Überlagern eines Seaborn-Jointplots mit einem „Marginal“ (Verteilungshistogramm) aus einem anderen Datensatz

0 die antwort

Modify innerHTML using Selenium

0 die antwort

Beginning Haskell - Fehler beim Abrufen von "Nicht im Bereich: Datenkonstruktor"

0 die antwort

So beenden Sie das automatische Schließen des Browsers beim Schreiben von Winkelmessertestfällen