Suchergebnisse für Anfrage "apache-spark"
Erstellen Sie einen Spark StructType / Schema aus einer Case-Klasse
Wenn ich ein @ erstellen wollStructType (d. h. einDataFrame.schema) aus einemcase class, gibt es eine Möglichkeit, dies zu tun, ohne ein @ zu erstelleDataFrame? Ich kann leicht tun: case class TestCase(id: Long) val schema = ...
Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?
Ich versuche, eine Operation für meine Daten auszuführen, bei der ein bestimmter Wert einer Liste vordefinierter Werte zugeordnet wird, wenn er einem der Kriterien entspricht, oder ansonsten einem Fall-Through-Wert. Dies wäre das Äquivalent zu ...
Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat
Diese Frage hat hier bereits eine Antwort: Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 AntwortenIch habe einen Spark-Datenrahmen ...
Wie kann man zwei DataFrames in Scala und Apache Spark verbinden?
Es gibt zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Übereinstimmungen MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Persönliche Daten Player | BirthYear ...
YARN: Was ist der Unterschied zwischen der Anzahl der Executoren und den Executor-Kernen in Spark?
Ich lerne Funken auf AWS EMR. Dabei versuche ich den Unterschied zwischen der Anzahl der Executoren (- num-executors) und den Executor-Cores (--executor-cores) zu verstehen. Kann mir bitte jemand hier Bescheid geben? Auch wenn ich versuche, den ...
PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen
EinganIch habe eine SpalteParameters vom Typmap des Formulars: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...
Wie man mit Spark @ schnell eine Datei aus HDFS in map () lie
Ich muss in jeder Map eine andere Datei lesen (), die Datei ist in HDFS val rdd=sc.parallelize(1 to 10000) val rdd2=rdd.map{x=> val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://ITS-Hadoop10:9000/"), ...
Wie wirkt sich die Konvertierung zwischen "DataFrame", "RDD" und "Back" auf die Leistung aus?
Während mein erster Instinkt ist, @ zu verwendDataFrames für alles ist es einfach nicht möglich - einige Operationen sind eindeutig einfacher und / oder führen zu einer besseren Leistung alsRDD Operationen, ganz zu schweigen von bestimmten APIs ...
Detected Guava-Problem Nr. 1635, das angibt, dass eine Version von Guava unter 16.01 verwendet wird
Ich führe einen Funkenjob für emr aus und verwende den Datenstrom-Konnektor, um eine Verbindung zum Cassandra-Cluster herzustellen. Ich stehe vor Problemen mit dem Guavenglas. Bitte finden Sie die Details unten. Ich verwende unten ...
Wie konvertiere ich eine RDD [Zeile] zurück in einen DataFrame [duplizieren]
Diese Frage hat hier bereits eine Antwort: So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 Antworten Ich habe versucht, RDDs in DataFrames umzuwandeln und ...