Suchergebnisse für Anfrage "apache-spark"
Provide Schema beim Lesen der CSV-Datei als Datenframe
Ich versuche, eine CSV-Datei in einen Datenrahmen einzulesen. Ich weiß, wie das Schema meines Datenrahmens aussehen soll, da ich meine CSV-Datei kenne. Außerdem verwende ich das Spark-CSV-Paket, um die Datei zu lesen. Ich versuche, das Schema ...
Limit Kafka-Stapelgröße bei Verwendung von Spark Streaming
Ist es möglich, die Größe der vom Kafka-Consumer für Spark Streaming zurückgegebenen Stapel zu begrenzen? Ich frage, weil der erste Stapel, den ich erhalte, Hunderte von Millionen Datensätzen enthält und es Ewigkeiten dauert, sie zu verarbeiten ...
Apache Funke Umgang mit case Aussagen
Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...
Spark Standalone-Konfiguration mit mehreren Executoren
Ich versuche, einen eigenständigen Spark 2.0-Server für die parallele Verarbeitung einer Analysefunktion einzurichten. Zu diesem Zweck möchte ich einen einzelnen Mitarbeiter mit mehreren Testamentsvollstreckern haben. Ich benutze Standalone ...
Anwenden von UDFs auf GroupedData in PySpark (mit funktionierendem Python-Beispiel)
Ich habe diesen Python-Code, der lokal in einem Pandas-Datenframe ausgeführt wird: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Ich möchte dies in PySpark ausführen, habe jedoch Probleme mit ...
Wie führe ich eine Vereinigung für zwei DataFrames mit unterschiedlicher Spaltenanzahl im Spark durch?
Ich habe 2DataFrames wie folgt: [/imgs/L4qs0.png] Ich brauche Gewerkschaft wie folgt: [/imgs/mdICY.png] DasunionAll -Funktion funktioniert nicht, da die Anzahl und der Name der Spalten unterschiedlich sind. Wie kann ich das machen
Wie man ein Spark 2.0 Projekt mit externen Jars und Maven kompiliert / paketiert
Seit Version 2.0 wird Apache Spark mit einem Ordner "jars" mit JAR-Dateien gebündelt. Offensichtlich wird Maven all diese Gläser bei der Ausgabe herunterladen: mvn -e packageDenn um eine Bewerbung mit @ einzureich spark-submit --class DataFetch ...
Spark Daten laden und Dateinamen als Datenrahmenspalte hinzufügen
Ich lade einige Daten mit einer Wrapper-Funktion in Spark: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...
Ist dataframe.show () eine Aktion im Funken?
Ich habe den folgenden Code: val df_in = sqlcontext.read.json(jsonFile) // the file resides in hdfs //some operations in here to create df as df_in with two more columns "terms1" and "terms2" val intersectUDF = udf( (seq1:Seq[String], ...
Spark Dataframe-Spalte nullable-Eigenschaftsänderung
Ich möchte die Eigenschaft nullable einer bestimmten Spalte in einem Spark-Dataframe ändern. Wenn ich das Schema des aktuellen Datenrahmens drucke, sieht es wie folgt aus.col1: string (nullable = false) col2: string (nullable = true) col3: ...