Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Spark-Fensterfunktionen - BereichZwischen Datumsangaben

Ich habe einen Spark SQLDataFrame mit Daten und was ich versuche zu erhalten, ist alle Zeilen vor der aktuellen Zeile in einem bestimmten Datumsbereich. So möchte ich zum Beispiel alle Zeilen ab 7 Tagen vor der angegebenen Zeile haben. Ich habe ...

6 die antwort

Wie speichere ich einen Spark-DataFrame als CSV auf der Festplatte?

Zum Beispiel das Ergebnis davon: df.filter("project = 'en'").select("title","count").groupBy("title").sum()would ein Array zurückgeben. Wie speichere ich einen Spark-DataFrame als CSV-Datei auf der Festplatte?

4 die antwort

Spark Worker kann keine Verbindung zum Master herstellen

eim Starten des Arbeitsknotens wird der folgende Fehler angezeigt: Spark Command: /usr/lib/jvm/default-java/bin/java ...

TOP-Veröffentlichungen

2 die antwort

Wie verarbeitet Spark DataFrame Pandas DataFrame, der größer als der Speicher ist

Ich lerne gerade Spark und es scheint die Big-Data-Lösung für Pandas Dataframe zu sein, aber ich habe diese Frage, die mich unsicher macht. Gegenwärtig speichere ich Pandas-Datenrahmen, die größer als der Speicher sind, mit HDF5. HDF5 ist ein ...

8 die antwort

Zusammenarbeiten von Spark, Python und MongoDB

Ich habe Schwierigkeiten, diese Komponenten richtig zusammenzufügen. Ich habe Spark installiert und arbeite erfolgreich. Ich kann Jobs lokal, eigenständig und auch über YARN ausführen. Ich habe die empfohlenen Schritte befolgt (nach ...

14 die antwort

Spark Scala listet Ordner im Verzeichnis @ a

Ich möchte alle Ordner in einem HDFS-Verzeichnis mit Scala / Spark auflisten. In Hadoop kann ich dies mit dem Befehl tun:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Ich habe es versucht mit: val conf = new Configuration() val fs = ...

6 die antwort

Ist groupByKey jemals dem reduByKey @ vorgezog

Ich benutze immerreduceByKey, wenn ich Daten in RDDs gruppieren muss, weil sie vor dem Mischen von Daten kartenseitig verkleinert werden. Dies bedeutet häufig, dass weniger Daten gemischt werden und dadurch eine bessere Leistung erzielt wird. ...

2 die antwort

Spark Executor auf Faden-Client nimmt keine Konfiguration der Executor-Kernanzahl vor.

Unabhängig von der Anzahl der Executor-Kerne verwendet der Garnbehälter für den Executor nicht mehr als 1 Kern.

2 die antwort

PySpark in Eclipse: mit PyDev

Ich führe einen lokalen Pyspark-Code über die Befehlszeile aus und es funktioniert: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory ...

4 die antwort

Explodieren (transponieren?) Sie mehrere Spalten in der Spark-SQL-Tabelle

Ich verwende Spark SQL (ich erwähne, dass es in Spark ist, falls es die SQL-Syntax beeinflusst - ich bin noch nicht vertraut genug, um sicher zu sein) und ich habe eine Tabelle, die ich neu strukturieren möchte, aber ich ' Ich stecke fest und ...