Suchergebnisse für Anfrage "pyspark"

4 die antwort

Eine leere Spalte zu Spark DataFrame hinzufügen

Wie in @ erwähviel [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] weitere Standorte [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] as ...

6 die antwort

Partition RDD in Tupel der Länge n

Ich bin relativ neu bei Apache Spark und Python und habe mich gefragt, ob so etwas wie das, was ich beschreiben werde, machbar ist. Ich habe eine RDD der Form [m1, m2, m3, m4, m5, m6 ....... mn] (Sie erhalten dies, wenn Sie rdd.collect () ...

4 die antwort

Wie kann RDD von (Schlüssel-, Wert-) Paaren wiederhergestellt werden, nachdem es in einer Textdatei gespeichert / gelesen wurde?

Ich habe meine RDD von (Schlüssel-, Wert-) Paaren mit saveAsTextFile in einer Textdatei gespeichert. Nachdem ich die Textdatei mit @ zurückgelesen hasc.textFile("filename.txt") Befehl endete ich mit Zeichenfolgen anstelle von (Schlüssel-, Wert-) ...

TOP-Veröffentlichungen

2 die antwort

Spark: Wie ordne ich Python mit benutzerdefinierten Scala- oder Java-Funktionen zu?

Nehmen wir zum Beispiel an, mein Team hat Python als Referenzsprache für die Entwicklung mit Spark ausgewählt. Aus Performancegründen möchten wir später jedoch spezielle Scala- oder Java-spezifische Bibliotheken entwickeln, um sie mit unserem ...

2 die antwort

Wie können wir zwei Spark-SQL-Datenrahmen mit einem SQL-ähnlichen „LIKE“ -Kriterium verbinden?

Wir verwenden die mit Spark 1.3.1 verbundenen PySpark-Bibliotheken. Wir haben zwei Datenrahmen,documents_df := {document_id, document_text} undkeywords_df := {keyword}. Wir möchten die beiden Datenrahmen verbinden und einen resultierenden ...

2 die antwort

Leere Partitionen aus Spark RDD entfernen

Ich rufe Daten von HDFS ab und speichere sie in einem Spark-RDD. Spark erstellt die Anzahl der Partitionen basierend auf der Anzahl der HDFS-Blöcke. Dies führt zu einer großen Anzahl leerer Partitionen, die auch während der ...

2 die antwort

Spark-Fensterfunktionen - BereichZwischen Datumsangaben

Ich habe einen Spark SQLDataFrame mit Daten und was ich versuche zu erhalten, ist alle Zeilen vor der aktuellen Zeile in einem bestimmten Datumsbereich. So möchte ich zum Beispiel alle Zeilen ab 7 Tagen vor der angegebenen Zeile haben. Ich habe ...

2 die antwort

PySpark in Eclipse: mit PyDev

Ich führe einen lokalen Pyspark-Code über die Befehlszeile aus und es funktioniert: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory ...

4 die antwort

Spark mit PySpark Bilder lesen

Hallo, da habe ich eine Menge Bilder (niedrigere Millionen), auf denen ich klassifizieren muss. Ich benutze Spark und habe es geschafft, alle Bilder im Format @ einzulese(filename1, content1), (filename2, content2) ... in eine große RDD. images ...

18 die antwort

Beste Möglichkeit, den Maximalwert in einer Spark-Datenrahmenspalte zu ermitteln

Ich versuche, den besten Weg zu finden, um den größten Wert in einer Spark-Datenrahmenspalte zu erhalten. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Welche ...