Suchergebnisse für Anfrage "rdd"

2 die antwort

Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

Ich kann die RDD-Ausgabe mit @ in HDFS speicher saveAsTextFile Methode. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits vorhanden ist. Ich habe einen Anwendungsfall, in dem ich das RDDS in einem bereits vorhandenen Dateipfad in ...

2 die antwort

wie man 3 Paar RDDs kombiniert

Ich habe eine Art komplexe Anforderung 1) 1) für Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD 2) für Instagram Twitter handle , instargam_post , instagram_likes handle ...

2 die antwort

Leistungsauswirkungen der RDD-API im Vergleich zu UDFs, die mit der DataFrame-API gemischt sind

(Scala-spezifische Frage.) n @While Spark-Dokumenten wird die Verwendung der DataFrame-API empfohlen. Wenn die DataFrame-API nicht ausreicht, können Sie normalerweise auf die RDD-API zurückgreifen oder UDFs verwenden. Gibt es inhärente ...

TOP-Veröffentlichungen

2 die antwort

Ausnahme beim Zugriff auf KafkaOffset über RDD

Ich habe einen Spark-Konsumenten, der von Kafka streamt. Ich versuche, Offsets für genau eine Semantik zu verwalten. Beim Zugriff auf den Offset wird jedoch die folgende Ausnahme ausgelöst: "java.lang.ClassCastException: ...

4 die antwort

Wie erzwinge ich, dass Spark DataFrame-Vorgänge inline auswertet?

Laut demSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Alle Transformationen in Spark sind insofern faul, als sie ihre Ergebnisse nicht sofort berechnen ... Durch dieses Design kann Spark effizienter ...

2 die antwort

Hält Spark alle Elemente einer RDD [K, V] für einen bestimmten Schlüssel in einer einzelnen Partition nach "groupByKey", auch wenn die Daten für einen Schlüssel sehr groß sind?

Consider Ich habe eine PairedRDD von zB 10 Partitionen. Die Schlüssel sind jedoch nicht gleichmäßig verteilt, d. H. Alle 9 Partitionen mit Daten gehören zu einem einzigen Schlüssel, z. B. a und die restlichen Tasten sagenb,c gibt es nur in der ...

2 die antwort

Spark: Wie kann man "ReducedByKey" ausführen, wenn die Schlüssel numpy Arrays sind, die nicht hashbar sind?

Ich habe eine RDD von (Schlüssel-, Wert-) Elementen. Die Schlüssel sind NumPy-Arrays. NumPy-Arrays sind nicht hashbar, und dies verursacht ein Problem, wenn ich versuche, ein @ zu machereduceByKey Betrieb Gibt es eine Möglichkeit, den ...

2 die antwort

Spark RDD: Wie berechnet man Statistiken am effizientesten?

ngenommen, es gibt eine RDD mit Tupeln, die der folgenden ähnel (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Was ist die effizienteste (und im Idealfall verteilte) Methode zur Berechnung von Statistiken, die den ...

2 die antwort

Apache Funke Umgang mit case Aussagen

Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...

4 die antwort

Wie kann ich ein RDD in HDFS speichern und später wieder einlesen?

Ich habe eine RDD, deren Elemente vom Typ (Long, String) sind. Aus irgendeinem Grund möchte ich die gesamte RDD im HDFS speichern und diese RDD später auch wieder in einem Spark-Programm lesen. Ist das möglich? Und wenn ja, wie?