Suchergebnisse für Anfrage "apache-spark"
Spark-Job mit asynchronem HTTP-Aufruf
Ich erstelle eine RDD aus einer Liste von URLs und versuche dann, Daten mit einem asynchronen http-Aufruf abzurufen. Ich brauche alle Ergebnisse, bevor ich andere Berechnungen mache. Im Idealfall muss ich die http-Aufrufe für verschiedene Knoten ...
Spark Row zu JSON
Ich möchte einen JSON aus einem Spark-v.1.6-Datenrahmen (unter Verwendung von Scala) erstellen. Ich weiß, dass es die einfache Lösung gibt, @ zu tdf.toJSON. Allerdings sieht mein Problem etwas anders aus. Betrachten Sie beispielsweise einen ...
Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark
Ich habe diesen Code: from pyspark import SparkContext from pyspark.sql import SQLContext, Row sc = SparkContext() sqlContext = SQLContext(sc) documents = sqlContext.createDataFrame([ Row(id=1, title=[Row(value=u'cars', max_dist=1000)]), ...
Ausgabedateinamenpräfix für DataFrame.write () ändern
Output-Dateien, die mit der Spark-SQL-Methode DataFrame.write () generiert wurden, beginnen mit dem Basisnamen-Präfix "part". z.B DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Ergebnisse ...
Wie transponiere ich Datenrahmen in Spark 1.5 (kein Pivot-Operator verfügbar)?
Ich möchte folgende Tabelle mit Spark-Scala ohne Pivot-Funktion transponieren Ich verwende Spark 1.5.1 und die Pivot-Funktion wird in 1.5.1 nicht unterstützt. Bitte schlagen Sie eine geeignete Methode zur Umsetzung der folgenden Tabelle ...
Wie lese ich mehrere Zeilenelemente in Spark?
Wenn Sie eine Datei in Spark mit @ les sc.textfile gibt es Ihnen Elemente, wobei jedes Element eine separate Zeile ist. Ich möchte jedoch, dass jedes Element aus N Zeilen besteht. Ich kann auch keine Trennzeichen verwenden, da diese Datei keine ...
java.lang.OutOfMemoryError in pyspark
Hy, Ich habe einen Datenrahmen in einem Sparkcontext mit 400.000 Zeilen und 3 Spalten. Der Treiber verfügt über 143,5 Speicherplätze 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB ...
Beenden der Spark-Shell aus dem Scala-Skript
Ich verwende diesen Befehl, um Scala-Skripte auszuführen. spark-shell -i test.scalam Ende der Ausführung des Skripts wird immer noch die Spark-Shell ausgeführt. Ich habe ": q /: quit" im Skript test.scala verwendet, um zu versuchen, ...
Wie erkenne ich, ob ein Spark-DataFrame eine Spalte @ ha
Wenn ich ein @ erstelDataFrameie kann ich in einer JSON-Datei in Spark SQL feststellen, ob eine bestimmte Spalte vorhanden ist, bevor ich @ aufruf.select Beispiel JSON-Schema: { "a": { "b": 1, "c": 2 } }Das ist, was ich tun ...
Eine große und eine riesige Funke DataFrame beitreten
Ich habe zwei Datenrahmen, df1 hat 6 Millionen Zeilen, df2 hat 1 Milliarde. Ich habe den Standard @ ausprobiedf1.join(df2,df1("id")<=>df2("id2")), aber nicht genügend Speicher. df1 ist zu groß, um in einen Broadcast-Join eingefügt zu ...