Suchergebnisse für Anfrage "apache-spark"

8 die antwort

Spark-Job mit asynchronem HTTP-Aufruf

Ich erstelle eine RDD aus einer Liste von URLs und versuche dann, Daten mit einem asynchronen http-Aufruf abzurufen. Ich brauche alle Ergebnisse, bevor ich andere Berechnungen mache. Im Idealfall muss ich die http-Aufrufe für verschiedene Knoten ...

6 die antwort

Spark Row zu JSON

Ich möchte einen JSON aus einem Spark-v.1.6-Datenrahmen (unter Verwendung von Scala) erstellen. Ich weiß, dass es die einfache Lösung gibt, @ zu tdf.toJSON. Allerdings sieht mein Problem etwas anders aus. Betrachten Sie beispielsweise einen ...

4 die antwort

Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark

Ich habe diesen Code: from pyspark import SparkContext from pyspark.sql import SQLContext, Row sc = SparkContext() sqlContext = SQLContext(sc) documents = sqlContext.createDataFrame([ Row(id=1, title=[Row(value=u'cars', max_dist=1000)]), ...

TOP-Veröffentlichungen

4 die antwort

Ausgabedateinamenpräfix für DataFrame.write () ändern

Output-Dateien, die mit der Spark-SQL-Methode DataFrame.write () generiert wurden, beginnen mit dem Basisnamen-Präfix "part". z.B DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Ergebnisse ...

6 die antwort

Wie transponiere ich Datenrahmen in Spark 1.5 (kein Pivot-Operator verfügbar)?

Ich möchte folgende Tabelle mit Spark-Scala ohne Pivot-Funktion transponieren Ich verwende Spark 1.5.1 und die Pivot-Funktion wird in 1.5.1 nicht unterstützt. Bitte schlagen Sie eine geeignete Methode zur Umsetzung der folgenden Tabelle ...

2 die antwort

Wie lese ich mehrere Zeilenelemente in Spark?

Wenn Sie eine Datei in Spark mit @ les sc.textfile gibt es Ihnen Elemente, wobei jedes Element eine separate Zeile ist. Ich möchte jedoch, dass jedes Element aus N Zeilen besteht. Ich kann auch keine Trennzeichen verwenden, da diese Datei keine ...

8 die antwort

java.lang.OutOfMemoryError in pyspark

Hy, Ich habe einen Datenrahmen in einem Sparkcontext mit 400.000 Zeilen und 3 Spalten. Der Treiber verfügt über 143,5 Speicherplätze 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB ...

2 die antwort

Beenden der Spark-Shell aus dem Scala-Skript

Ich verwende diesen Befehl, um Scala-Skripte auszuführen. spark-shell -i test.scalam Ende der Ausführung des Skripts wird immer noch die Spark-Shell ausgeführt. Ich habe ": q /: quit" im Skript test.scala verwendet, um zu versuchen, ...

10 die antwort

Wie erkenne ich, ob ein Spark-DataFrame eine Spalte @ ha

Wenn ich ein @ erstelDataFrameie kann ich in einer JSON-Datei in Spark SQL feststellen, ob eine bestimmte Spalte vorhanden ist, bevor ich @ aufruf.select Beispiel JSON-Schema: { "a": { "b": 1, "c": 2 } }Das ist, was ich tun ...

4 die antwort

Eine große und eine riesige Funke DataFrame beitreten

Ich habe zwei Datenrahmen, df1 hat 6 Millionen Zeilen, df2 hat 1 Milliarde. Ich habe den Standard @ ausprobiedf1.join(df2,df1("id")<=>df2("id2")), aber nicht genügend Speicher. df1 ist zu groß, um in einen Broadcast-Join eingefügt zu ...