Suchergebnisse für Anfrage "spark-streaming"
Spark Stateful Streaming-Job bleibt nach langer Betriebszeit beim Checkpointing auf S3 hängen
Ich habe kürzlich unsere Spark-Streaming-App einem Stresstest unterzogen. Der Stresstest erfasst ungefähr 20.000 Nachrichten pro Sekunde mit Nachrichtengrößen zwischen 200 Byte und 1 KB in Kafka, wobei Spark Streaming alle 4 Sekunden Batches ...
Ist foreachRDD auf dem Treiber ausgeführt?
Ich versuche, einige in einer JMS-Warteschlange (QPID) empfangene XML-Daten mit Spark Streaming zu verarbeiten. Nachdem ich xml als DStream erhalten habe, konvertiere ich sie in Dataframes, damit ich sie mit einigen meiner statischen Daten in ...
java.io.NotSerializableException im Spark-Streaming mit aktiviertem Checkpointing
code unten: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...
Connection-Pooling in einer Pyspark-Streaming-Anwendung
Wie werden Verbindungspools in einer Pyspark-Streaming-Anwendung ordnungsgemäß verwendet? Ich lese ...
Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)
Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...
Kafka-Thema in einem Spark-Batch-Job lesen
Ich schreibe einen Spark-Stapeljob (v1.6.0), der aus einem Kafka-Thema liest. Dafür kann ichorg.apache.spark.streaming.kafka.KafkaUtils#createRDD Ich muss jedoch die Offsets für alle Partitionen festlegen und sie auch irgendwo speichern (ZK? ...
Kafka-Themenpartitionen für Spark-Streaming
Ich habe einige Anwendungsfälle, die ich genauer erläutern möchte, zum Thema Kafka-Partitionierung -> Verwendung von Spark-Streaming-Ressourcen. Ich verwende den Spark-Standalone-Modus, daher sind nur die Einstellungen "Gesamtanzahl der ...
Spark Streaming: So starten Sie den Empfänger nach einem Empfängerausfall nicht neu
Wir verwenden einen benutzerdefinierten Funkenempfänger, der gestreamte Daten von einem bereitgestellten http-Link liest. Wenn der angegebene http-Link falsch ist, fällt der Empfänger aus. Das Problem ist, dass der Funke den Empfänger ständig ...
Prepare Batch-Anweisung zum Speichern aller Rdd in MySQL, die durch Spark-Streaming generiert wurden
Ich versuche, die aus Dstream generierten Batch-RDDs mithilfe von Spark-Streaming in MySQL einzufügen. Der folgende Code funktioniert gut, aber das Problem dabei ist, dass ich eine Verbindung zum Speichern jedes Tupels erstelle. Also, um zu ...
get Thema von kafka Nachricht in Funken
In unserem Spark-Streaming-Job lesen wir Nachrichten im Streaming von kafka. azu verwenden wir dasKafkaUtils.createDirectStream API, die @ zurückgiJavaPairInputDStreamfrom. Die Nachrichten werden von kafka (aus drei Themen - test1, test2, ...