Suchergebnisse für Anfrage "apache-spark"
Wie setze ich Hadoop-Konfigurationswerte von pyspark?
Die Scala-Version von SparkContext hat die Eigenschaft sc.hadoopConfiguration Ich habe das erfolgreich verwendet, um Hadoop-Eigenschaften festzulegen (in Scala) z.B sc.hadoopConfiguration.set("my.mapreduce.setting","someVal") Der ...
Wie kann ich die log4j.properties von Spark pro Treiber überschreiben?
Ich versuche Spark's Standard zu überschreibenlog4j.properties, hatte aber noch kein Glück. Ich habe Folgendes versucht, um spark-submit ...
Spark Streaming von DStream RDD zum Abrufen des Dateinamens
Spark StreamingtextFileStream undfileStream kann ein Verzeichnis überwachen und die neuen Dateien in einem Dstream-RDD verarbeiten. Wie werden die Dateinamen abgerufen, die in diesem bestimmten Intervall vom DStream-RDD verarbeitet werden?
Debugging Spark Applications
Ich versuche, eine Spark-Anwendung in einem Cluster mithilfe eines Masters und mehrerer Arbeitsknoten zu debuggen. Es ist mir gelungen, den Masterknoten und die Arbeitsknoten mit dem eigenständigen Spark-Cluster-Manager einzurichten. Ich habe ...
Spark Streaming: HDFS
Ich kann meinen Spark-Job nicht dazu bringen, "alte" Dateien von HDFS zu streamen.Wenn mein Spark-Job aus irgendeinem Grund nicht ausgeführt wird (z. B. Demo, Bereitstellung), das Schreiben / Verschieben in das HDFS-Verzeichnis jedoch ...
RDD.union vs SparkContex.union
Was ist der Unterschied zwische reduce(lambda x,y: x.union(y), myRDDlist) die ruft RDD.union [http://spark.apache.org/docs/1.2.0/api/scala/index.html#org.apache.spark.rdd.RDD] un sc.union(myRDDlist) die ruft ...
Updating einer Datenrahmenspalte in spark
Betrachtet man die neue Spark-Dataframe-API, ist unklar, ob es möglich ist, Dataframe-Spalten zu ändern. ie würde ich vorgehen, um einen Wert in der Zeile zu änderx Säuley eines Datenrahmens? Impandas das wäredf.ix[x,y] = new_value Edit: Wenn ...
spark Skalierbarkeit: Was mache ich falsch?
Ich verarbeite Daten mit Funken und es funktioniert mit Daten im Wert von einem Tag (40G), aber es schlägt fehl mit OOM auf eine Woche im Wert von Daten: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc ...
Apache-Spark: Wofür steht Map (_._ 2)?
Ich habe den Quellcode eines Projekts gelesen und Folgendes gefunden: val sampleMBR = inputMBR.map(_._2).sampleinputMBR ist ein Tupel. die Funktionmapie Definition von @ lautet: map[U classTag](f:T=>U):RDD[U]Es scheint, dassmap(_._2) ist die ...
org.apache.spark.SparkException: Task nicht serialisierbar
Dies ist ein funktionierendes Codebeispiel: JavaPairDStream<String, String> messages = KafkaUtils.createStream(javaStreamingContext, zkQuorum, group, topicMap); messages.print(); JavaDStream<String> lines = ...