Suchergebnisse für Anfrage "rdd"

Ich kann die RDD-Ausgabe mit @ in HDFS speicher saveAsTextFile Methode. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits vorhanden ist. Ich habe einen Anwendungsfall, in dem ich das RDDS in einem bereits vorhandenen Dateipfad in ...

apache-spark java

2 die antwort

wie man 3 Paar RDDs kombiniert

Ich habe eine Art komplexe Anforderung 1) 1) für Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD 2) für Instagram Twitter handle , instargam_post , instagram_likes handle ...

apache-spark scala apache-spark-sql performance

2 die antwort

Leistungsauswirkungen der RDD-API im Vergleich zu UDFs, die mit der DataFrame-API gemischt sind

(Scala-spezifische Frage.) n @While Spark-Dokumenten wird die Verwendung der DataFrame-API empfohlen. Wenn die DataFrame-API nicht ausreicht, können Sie normalerweise auf die RDD-API zurückgreifen oder UDFs verwenden. Gibt es inhärente ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

scala apache-spark spark-streaming apache-kafka

2 die antwort

Ausnahme beim Zugriff auf KafkaOffset über RDD

Ich habe einen Spark-Konsumenten, der von Kafka streamt. Ich versuche, Offsets für genau eine Semantik zu verwalten. Beim Zugriff auf den Offset wird jedoch die folgende Ausnahme ausgelöst: "java.lang.ClassCastException: ...

distributed-computing lazy-evaluation apache-spark spark-dataframe

4 die antwort

Wie erzwinge ich, dass Spark DataFrame-Vorgänge inline auswertet?

Laut demSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Alle Transformationen in Spark sind insofern faul, als sie ihre Ergebnisse nicht sofort berechnen ... Durch dieses Design kann Spark effizienter ...

apache-spark

2 die antwort

Hält Spark alle Elemente einer RDD [K, V] für einen bestimmten Schlüssel in einer einzelnen Partition nach "groupByKey", auch wenn die Daten für einen Schlüssel sehr groß sind?

Consider Ich habe eine PairedRDD von zB 10 Partitionen. Die Schlüssel sind jedoch nicht gleichmäßig verteilt, d. H. Alle 9 Partitionen mit Daten gehören zu einem einzigen Schlüssel, z. B. a und die restlichen Tasten sagenb,c gibt es nur in der ...

python numpy pyspark

2 die antwort

Spark: Wie kann man "ReducedByKey" ausführen, wenn die Schlüssel numpy Arrays sind, die nicht hashbar sind?

Ich habe eine RDD von (Schlüssel-, Wert-) Elementen. Die Schlüssel sind NumPy-Arrays. NumPy-Arrays sind nicht hashbar, und dies verursacht ein Problem, wenn ich versuche, ein @ zu machereduceByKey Betrieb Gibt es eine Möglichkeit, den ...

apache-spark apache-spark-mllib pyspark distributed-computing

2 die antwort

Spark RDD: Wie berechnet man Statistiken am effizientesten?

ngenommen, es gibt eine RDD mit Tupeln, die der folgenden ähnel (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Was ist die effizienteste (und im Idealfall verteilte) Methode zur Berechnung von Statistiken, die den ...

apache-spark spark-dataframe pyspark pyspark-sql

2 die antwort

Apache Funke Umgang mit case Aussagen

Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...

hdfs bigdata scala apache-spark

4 die antwort

Wie kann ich ein RDD in HDFS speichern und später wieder einlesen?

Ich habe eine RDD, deren Elemente vom Typ (Long, String) sind. Aus irgendeinem Grund möchte ich die gesamte RDD im HDFS speichern und diese RDD später auch wieder in einem Spark-Programm lesen. Ist das möglich? Und wenn ja, wie?

Seite 10 von 10

6 7 8 910

Suchergebnisse für Anfrage "rdd"

Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

wie man 3 Paar RDDs kombiniert

Leistungsauswirkungen der RDD-API im Vergleich zu UDFs, die mit der DataFrame-API gemischt sind

Beliebte Schlagwörter

TOP-Veröffentlichungen

Ausnahme beim Zugriff auf KafkaOffset über RDD

Wie erzwinge ich, dass Spark DataFrame-Vorgänge inline auswertet?

Hält Spark alle Elemente einer RDD [K, V] für einen bestimmten Schlüssel in einer einzelnen Partition nach "groupByKey", auch wenn die Daten für einen Schlüssel sehr groß sind?

Spark: Wie kann man "ReducedByKey" ausführen, wenn die Schlüssel numpy Arrays sind, die nicht hashbar sind?

Spark RDD: Wie berechnet man Statistiken am effizientesten?

Apache Funke Umgang mit case Aussagen

Wie kann ich ein RDD in HDFS speichern und später wieder einlesen?

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "rdd"

Beliebte Schlagwörter

TOP-Veröffentlichungen