Suchergebnisse für Anfrage "apache-spark"
Wie werden Daten mit SparkR unnest?
UsingSparkR Wie können verschachtelte Arrays "aufgelöst" werden? Ich habe versucht mitexplode wie so: dat <- nested_spark_df %>% mutate(a=explode(metadata)) %>% head()Aber obwohl das oben Genannte nicht dazu führt, dass eine Ausnahme ausgelöst ...
Wie finde ich den Median in Apache Spark mit der Python Dataframe-API?
ie @ Pyspark-API bietet außer dem Median viele Aggregatfunktionen. Spark 2 wird mit approxQuantile geliefert, das ungefähre Quantile angibt, die Berechnung des genauen Medians ist jedoch sehr teuer. Gibt es eine bessere Methode zur Berechnung des ...
Convert Spark DataFrame-Spalte in Python-Liste
Ich arbeite an einem Datenrahmen mit zwei Spalten, mvv und count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |i möchte zwei Listen erhalten, die MVV-Werte und Zählwerte enthalten. Etwas wi mvv = [1,2,3,4] count = ...
Spark Dataset select with typedcolumn
Mit Blick auf dieselect() -Funktion auf dem Funken DataSet gibt es verschiedene generierte Funktionssignaturen: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)Dies scheint darauf hinzudeuten, dass ich in der Lage sein sollte, ...
Mehrzeiliges JSON in Apache Spark lesen
Ich habe versucht, eine JSON-Datei als kleine Datenbank zu verwenden. Nachdem ich eine Vorlagentabelle auf DataFrame erstellt hatte, fragte ich sie mit SQL ab und bekam eine Ausnahme. Hier ist mein Code: val df = ...
Spark Stateful Streaming-Job bleibt nach langer Betriebszeit beim Checkpointing auf S3 hängen
Ich habe kürzlich unsere Spark-Streaming-App einem Stresstest unterzogen. Der Stresstest erfasst ungefähr 20.000 Nachrichten pro Sekunde mit Nachrichtengrößen zwischen 200 Byte und 1 KB in Kafka, wobei Spark Streaming alle 4 Sekunden Batches ...
Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc
Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...
java.io.NotSerializableException im Spark-Streaming mit aktiviertem Checkpointing
code unten: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...
Wie lade ich Daten in Chunks von einem Pandas-Datenframe in einen Spark-Datenframe?
Ich habe Daten in Chunks über eine Pyodbc-Verbindung gelese import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Nun möchte ich all diese Chunks ...
Wie kann die Anzahl der Wiederholungsversuche bei einem Fehler im Spark-Job begrenzt werden?
Wir führen einen Spark-Job über @ aspark-submit, und ich kann sehen, dass der Job im Falle eines Fehlers erneut übergeben wird. Wie kann ich verhindern, dass bei einem Versagen des Garnbehälters der zweite Versuch ausgeführt wird, oder was auch ...