Suchergebnisse für Anfrage "apache-spark"
Bestimmen der optimalen Anzahl von Spark-Partitionen basierend auf Worker, Cores und DataFrame-Größe
In Spark-Land gibt es mehrere ähnliche, aber unterschiedliche Konzepte, wie die Arbeit auf verschiedene Knoten verteilt und gleichzeitig ausgeführt wird. Im Einzelnen gibt es: Der Spark-Treiberknoten sparkDriverCount) Die Anzahl der ...
Conditional Join in Spark DataFrame
Ich versuche, zwei zu verbindenDataFrame mit Bedingung. Ich habe zwei Datenrahmen A und B. A enthält die Spalten id, m_cd und c_cd. B enthält die Spalten m_cd, c_cd und record. Bedingungen sind - Wenn m_cd null ist, dann verbinde c_cd von A ...
Wie filtere ich Spark-Datenrahmen, wenn eine Spalte Mitglied einer anderen Spalte ist?
Ich habe einen Datenrahmen mit zwei Spalten (eine Zeichenfolge und ein Array von Zeichenfolge): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)Wie kann ich den Datenrahmen so ...
Spark Arrays zusammenführen / kombinieren in groupBy / aggregate
Der folgende Spark-Code demonstriert richtig, was ich tun möchte, und generiert die richtige Ausgabe mit einem winzigen Demo-Datensatz. Wenn ich denselben allgemeinen Codetyp auf einer großen Menge von Produktionsdaten ausführe, treten ...
SparkSQL auf HBase Tables
Anybody verwendet SparkSQL direkt für HBase-Tabellen, wie SparkSQL für Hive-Tabellen. Ich bin neu zu funken. Bitte führen Sie mich, wie man Hbase und Funken verbindet. Wie man auf Hbase-Tabellen abfragt.
SparkR vs sparklyr [geschlossen]
Hat jemand einen Überblick über die Vor- / Nachteile von SparkR gegenüber sparklyr? Google liefert keine zufriedenstellenden Ergebnisse und beide scheinen ziemlich ähnlich zu sein. Wenn Sie beides ausprobieren, scheint SparkR viel umständlicher ...
Wie greife ich auf ein Element einer VectorUDT-Spalte in einem Spark-DataFrame zu?
Ich habe einen Datenrahmendf mit einerVectorUDT Spalte mit dem Namenfeatures. Wie erhalte ich ein Element der Spalte, beispielsweise das erste Element? Ich habe Folgendes versucht from pyspark.sql.functions import udf first_elem_udf = ...
Hält Spark alle Elemente einer RDD [K, V] für einen bestimmten Schlüssel in einer einzelnen Partition nach "groupByKey", auch wenn die Daten für einen Schlüssel sehr groß sind?
Consider Ich habe eine PairedRDD von zB 10 Partitionen. Die Schlüssel sind jedoch nicht gleichmäßig verteilt, d. H. Alle 9 Partitionen mit Daten gehören zu einem einzigen Schlüssel, z. B. a und die restlichen Tasten sagenb,c gibt es nur in der ...
So speichern / fügen Sie jeden DStream in eine permanente Tabelle ein
Ich habe ein Problem mit "Spark Streaming" bezüglich des Einfügens von Output Dstream in ein permanent SQL-Tabelle. Ich möchte jeden Ausgabe-DStream (der aus einem einzelnen Stapel stammt, der Prozesse auslöst) in eine eindeutige ...
Warum löscht der OneHotEncoder von Spark standardmäßig die letzte Kategorie?
Ich möchte verstehen, warum der OneHotEncoder des Spark standardmäßig die letzte Kategorie gelöscht hat. Beispielsweise >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...