Suchergebnisse für Anfrage "apache-spark"

6 die antwort

Wie setze ich Hadoop-Konfigurationswerte von pyspark?

Die Scala-Version von SparkContext hat die Eigenschaft sc.hadoopConfiguration Ich habe das erfolgreich verwendet, um Hadoop-Eigenschaften festzulegen (in Scala) z.B sc.hadoopConfiguration.set("my.mapreduce.setting","someVal") Der ...

10 die antwort

Wie kann ich die log4j.properties von Spark pro Treiber überschreiben?

Ich versuche Spark's Standard zu überschreibenlog4j.properties, hatte aber noch kein Glück. Ich habe Folgendes versucht, um spark-submit ...

4 die antwort

Spark Streaming von DStream RDD zum Abrufen des Dateinamens

Spark StreamingtextFileStream undfileStream kann ein Verzeichnis überwachen und die neuen Dateien in einem Dstream-RDD verarbeiten. Wie werden die Dateinamen abgerufen, die in diesem bestimmten Intervall vom DStream-RDD verarbeitet werden?

TOP-Veröffentlichungen

10 die antwort

Debugging Spark Applications

Ich versuche, eine Spark-Anwendung in einem Cluster mithilfe eines Masters und mehrerer Arbeitsknoten zu debuggen. Es ist mir gelungen, den Masterknoten und die Arbeitsknoten mit dem eigenständigen Spark-Cluster-Manager einzurichten. Ich habe ...

6 die antwort

Spark Streaming: HDFS

Ich kann meinen Spark-Job nicht dazu bringen, "alte" Dateien von HDFS zu streamen.Wenn mein Spark-Job aus irgendeinem Grund nicht ausgeführt wird (z. B. Demo, Bereitstellung), das Schreiben / Verschieben in das HDFS-Verzeichnis jedoch ...

2 die antwort

RDD.union vs SparkContex.union

Was ist der Unterschied zwische reduce(lambda x,y: x.union(y), myRDDlist) die ruft RDD.union [http://spark.apache.org/docs/1.2.0/api/scala/index.html#org.apache.spark.rdd.RDD] un sc.union(myRDDlist) die ruft ...

8 die antwort

Updating einer Datenrahmenspalte in spark

Betrachtet man die neue Spark-Dataframe-API, ist unklar, ob es möglich ist, Dataframe-Spalten zu ändern. ie würde ich vorgehen, um einen Wert in der Zeile zu änderx Säuley eines Datenrahmens? Impandas das wäredf.ix[x,y] = new_value Edit: Wenn ...

4 die antwort

spark Skalierbarkeit: Was mache ich falsch?

Ich verarbeite Daten mit Funken und es funktioniert mit Daten im Wert von einem Tag (40G), aber es schlägt fehl mit OOM auf eine Woche im Wert von Daten: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc ...

10 die antwort

Apache-Spark: Wofür steht Map (_._ 2)?

Ich habe den Quellcode eines Projekts gelesen und Folgendes gefunden: val sampleMBR = inputMBR.map(_._2).sampleinputMBR ist ein Tupel. die Funktionmapie Definition von @ lautet: map[U classTag](f:T=>U):RDD[U]Es scheint, dassmap(_._2) ist die ...

4 die antwort

org.apache.spark.SparkException: Task nicht serialisierbar

Dies ist ein funktionierendes Codebeispiel: JavaPairDStream<String, String> messages = KafkaUtils.createStream(javaStreamingContext, zkQuorum, group, topicMap); messages.print(); JavaDStream<String> lines = ...