Suchergebnisse für Anfrage "apache-spark"

8 die antwort

Erstellen Sie einen Spark StructType / Schema aus einer Case-Klasse

Wenn ich ein @ erstellen wollStructType (d. h. einDataFrame.schema) aus einemcase class, gibt es eine Möglichkeit, dies zu tun, ohne ein @ zu erstelleDataFrame? Ich kann leicht tun: case class TestCase(id: Long) val schema = ...

2 die antwort

Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?

Ich versuche, eine Operation für meine Daten auszuführen, bei der ein bestimmter Wert einer Liste vordefinierter Werte zugeordnet wird, wenn er einem der Kriterien entspricht, oder ansonsten einem Fall-Through-Wert. Dies wäre das Äquivalent zu ...

2 die antwort

Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat

Diese Frage hat hier bereits eine Antwort: Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 AntwortenIch habe einen Spark-Datenrahmen ...

TOP-Veröffentlichungen

6 die antwort

Wie kann man zwei DataFrames in Scala und Apache Spark verbinden?

Es gibt zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Übereinstimmungen MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Persönliche Daten Player | BirthYear ...

2 die antwort

YARN: Was ist der Unterschied zwischen der Anzahl der Executoren und den Executor-Kernen in Spark?

Ich lerne Funken auf AWS EMR. Dabei versuche ich den Unterschied zwischen der Anzahl der Executoren (- num-executors) und den Executor-Cores (--executor-cores) zu verstehen. Kann mir bitte jemand hier Bescheid geben? Auch wenn ich versuche, den ...

2 die antwort

PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen

EinganIch habe eine SpalteParameters vom Typmap des Formulars: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

2 die antwort

Wie man mit Spark @ schnell eine Datei aus HDFS in map () lie

Ich muss in jeder Map eine andere Datei lesen (), die Datei ist in HDFS val rdd=sc.parallelize(1 to 10000) val rdd2=rdd.map{x=> val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://ITS-Hadoop10:9000/"), ...

2 die antwort

Wie wirkt sich die Konvertierung zwischen "DataFrame", "RDD" und "Back" auf die Leistung aus?

Während mein erster Instinkt ist, @ zu verwendDataFrames für alles ist es einfach nicht möglich - einige Operationen sind eindeutig einfacher und / oder führen zu einer besseren Leistung alsRDD Operationen, ganz zu schweigen von bestimmten APIs ...

12 die antwort

Detected Guava-Problem Nr. 1635, das angibt, dass eine Version von Guava unter 16.01 verwendet wird

Ich führe einen Funkenjob für emr aus und verwende den Datenstrom-Konnektor, um eine Verbindung zum Cassandra-Cluster herzustellen. Ich stehe vor Problemen mit dem Guavenglas. Bitte finden Sie die Details unten. Ich verwende unten ...

2 die antwort

Wie konvertiere ich eine RDD [Zeile] zurück in einen DataFrame [duplizieren]

Diese Frage hat hier bereits eine Antwort: So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 Antworten Ich habe versucht, RDDs in DataFrames umzuwandeln und ...