Suchergebnisse für Anfrage "apache-spark"

12 die antwort

Provide Schema beim Lesen der CSV-Datei als Datenframe

Ich versuche, eine CSV-Datei in einen Datenrahmen einzulesen. Ich weiß, wie das Schema meines Datenrahmens aussehen soll, da ich meine CSV-Datei kenne. Außerdem verwende ich das Spark-CSV-Paket, um die Datei zu lesen. Ich versuche, das Schema ...

6 die antwort

Limit Kafka-Stapelgröße bei Verwendung von Spark Streaming

Ist es möglich, die Größe der vom Kafka-Consumer für Spark Streaming zurückgegebenen Stapel zu begrenzen? Ich frage, weil der erste Stapel, den ich erhalte, Hunderte von Millionen Datensätzen enthält und es Ewigkeiten dauert, sie zu verarbeiten ...

2 die antwort

Apache Funke Umgang mit case Aussagen

Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...

TOP-Veröffentlichungen

4 die antwort

Spark Standalone-Konfiguration mit mehreren Executoren

Ich versuche, einen eigenständigen Spark 2.0-Server für die parallele Verarbeitung einer Analysefunktion einzurichten. Zu diesem Zweck möchte ich einen einzelnen Mitarbeiter mit mehreren Testamentsvollstreckern haben. Ich benutze Standalone ...

6 die antwort

Anwenden von UDFs auf GroupedData in PySpark (mit funktionierendem Python-Beispiel)

Ich habe diesen Python-Code, der lokal in einem Pandas-Datenframe ausgeführt wird: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Ich möchte dies in PySpark ausführen, habe jedoch Probleme mit ...

16 die antwort

Wie führe ich eine Vereinigung für zwei DataFrames mit unterschiedlicher Spaltenanzahl im Spark durch?

Ich habe 2DataFrames wie folgt: [/imgs/L4qs0.png] Ich brauche Gewerkschaft wie folgt: [/imgs/mdICY.png] DasunionAll -Funktion funktioniert nicht, da die Anzahl und der Name der Spalten unterschiedlich sind. Wie kann ich das machen

2 die antwort

Wie man ein Spark 2.0 Projekt mit externen Jars und Maven kompiliert / paketiert

Seit Version 2.0 wird Apache Spark mit einem Ordner "jars" mit JAR-Dateien gebündelt. Offensichtlich wird Maven all diese Gläser bei der Ausgabe herunterladen: mvn -e packageDenn um eine Bewerbung mit @ einzureich spark-submit --class DataFetch ...

2 die antwort

Spark Daten laden und Dateinamen als Datenrahmenspalte hinzufügen

Ich lade einige Daten mit einer Wrapper-Funktion in Spark: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

2 die antwort

Ist dataframe.show () eine Aktion im Funken?

Ich habe den folgenden Code: val df_in = sqlcontext.read.json(jsonFile) // the file resides in hdfs //some operations in here to create df as df_in with two more columns "terms1" and "terms2" val intersectUDF = udf( (seq1:Seq[String], ...

2 die antwort

Spark Dataframe-Spalte nullable-Eigenschaftsänderung

Ich möchte die Eigenschaft nullable einer bestimmten Spalte in einem Spark-Dataframe ändern. Wenn ich das Schema des aktuellen Datenrahmens drucke, sieht es wie folgt aus.col1: string (nullable = false) col2: string (nullable = true) col3: ...