Suchergebnisse für Anfrage "apache-spark"
Spark-Fensterfunktionen - BereichZwischen Datumsangaben
Ich habe einen Spark SQLDataFrame mit Daten und was ich versuche zu erhalten, ist alle Zeilen vor der aktuellen Zeile in einem bestimmten Datumsbereich. So möchte ich zum Beispiel alle Zeilen ab 7 Tagen vor der angegebenen Zeile haben. Ich habe ...
Wie speichere ich einen Spark-DataFrame als CSV auf der Festplatte?
Zum Beispiel das Ergebnis davon: df.filter("project = 'en'").select("title","count").groupBy("title").sum()would ein Array zurückgeben. Wie speichere ich einen Spark-DataFrame als CSV-Datei auf der Festplatte?
Spark Worker kann keine Verbindung zum Master herstellen
eim Starten des Arbeitsknotens wird der folgende Fehler angezeigt: Spark Command: /usr/lib/jvm/default-java/bin/java ...
Wie verarbeitet Spark DataFrame Pandas DataFrame, der größer als der Speicher ist
Ich lerne gerade Spark und es scheint die Big-Data-Lösung für Pandas Dataframe zu sein, aber ich habe diese Frage, die mich unsicher macht. Gegenwärtig speichere ich Pandas-Datenrahmen, die größer als der Speicher sind, mit HDF5. HDF5 ist ein ...
Zusammenarbeiten von Spark, Python und MongoDB
Ich habe Schwierigkeiten, diese Komponenten richtig zusammenzufügen. Ich habe Spark installiert und arbeite erfolgreich. Ich kann Jobs lokal, eigenständig und auch über YARN ausführen. Ich habe die empfohlenen Schritte befolgt (nach ...
Spark Scala listet Ordner im Verzeichnis @ a
Ich möchte alle Ordner in einem HDFS-Verzeichnis mit Scala / Spark auflisten. In Hadoop kann ich dies mit dem Befehl tun:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Ich habe es versucht mit: val conf = new Configuration() val fs = ...
Ist groupByKey jemals dem reduByKey @ vorgezog
Ich benutze immerreduceByKey, wenn ich Daten in RDDs gruppieren muss, weil sie vor dem Mischen von Daten kartenseitig verkleinert werden. Dies bedeutet häufig, dass weniger Daten gemischt werden und dadurch eine bessere Leistung erzielt wird. ...
Spark Executor auf Faden-Client nimmt keine Konfiguration der Executor-Kernanzahl vor.
Unabhängig von der Anzahl der Executor-Kerne verwendet der Garnbehälter für den Executor nicht mehr als 1 Kern.
PySpark in Eclipse: mit PyDev
Ich führe einen lokalen Pyspark-Code über die Befehlszeile aus und es funktioniert: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory ...
Explodieren (transponieren?) Sie mehrere Spalten in der Spark-SQL-Tabelle
Ich verwende Spark SQL (ich erwähne, dass es in Spark ist, falls es die SQL-Syntax beeinflusst - ich bin noch nicht vertraut genug, um sicher zu sein) und ich habe eine Tabelle, die ich neu strukturieren möchte, aber ich ' Ich stecke fest und ...