Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Bestimmen der optimalen Anzahl von Spark-Partitionen basierend auf Worker, Cores und DataFrame-Größe

In Spark-Land gibt es mehrere ähnliche, aber unterschiedliche Konzepte, wie die Arbeit auf verschiedene Knoten verteilt und gleichzeitig ausgeführt wird. Im Einzelnen gibt es: Der Spark-Treiberknoten sparkDriverCount) Die Anzahl der ...

2 die antwort

Conditional Join in Spark DataFrame

Ich versuche, zwei zu verbindenDataFrame mit Bedingung. Ich habe zwei Datenrahmen A und B. A enthält die Spalten id, m_cd und c_cd. B enthält die Spalten m_cd, c_cd und record. Bedingungen sind - Wenn m_cd null ist, dann verbinde c_cd von A ...

4 die antwort

Wie filtere ich Spark-Datenrahmen, wenn eine Spalte Mitglied einer anderen Spalte ist?

Ich habe einen Datenrahmen mit zwei Spalten (eine Zeichenfolge und ein Array von Zeichenfolge): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)Wie kann ich den Datenrahmen so ...

TOP-Veröffentlichungen

2 die antwort

Spark Arrays zusammenführen / kombinieren in groupBy / aggregate

Der folgende Spark-Code demonstriert richtig, was ich tun möchte, und generiert die richtige Ausgabe mit einem winzigen Demo-Datensatz. Wenn ich denselben allgemeinen Codetyp auf einer großen Menge von Produktionsdaten ausführe, treten ...

2 die antwort

SparkSQL auf HBase Tables

Anybody verwendet SparkSQL direkt für HBase-Tabellen, wie SparkSQL für Hive-Tabellen. Ich bin neu zu funken. Bitte führen Sie mich, wie man Hbase und Funken verbindet. Wie man auf Hbase-Tabellen abfragt.

14 die antwort

SparkR vs sparklyr [geschlossen]

Hat jemand einen Überblick über die Vor- / Nachteile von SparkR gegenüber sparklyr? Google liefert keine zufriedenstellenden Ergebnisse und beide scheinen ziemlich ähnlich zu sein. Wenn Sie beides ausprobieren, scheint SparkR viel umständlicher ...

2 die antwort

Wie greife ich auf ein Element einer VectorUDT-Spalte in einem Spark-DataFrame zu?

Ich habe einen Datenrahmendf mit einerVectorUDT Spalte mit dem Namenfeatures. Wie erhalte ich ein Element der Spalte, beispielsweise das erste Element? Ich habe Folgendes versucht from pyspark.sql.functions import udf first_elem_udf = ...

2 die antwort

Hält Spark alle Elemente einer RDD [K, V] für einen bestimmten Schlüssel in einer einzelnen Partition nach "groupByKey", auch wenn die Daten für einen Schlüssel sehr groß sind?

Consider Ich habe eine PairedRDD von zB 10 Partitionen. Die Schlüssel sind jedoch nicht gleichmäßig verteilt, d. H. Alle 9 Partitionen mit Daten gehören zu einem einzigen Schlüssel, z. B. a und die restlichen Tasten sagenb,c gibt es nur in der ...

4 die antwort

So speichern / fügen Sie jeden DStream in eine permanente Tabelle ein

Ich habe ein Problem mit "Spark Streaming" bezüglich des Einfügens von Output Dstream in ein permanent SQL-Tabelle. Ich möchte jeden Ausgabe-DStream (der aus einem einzelnen Stapel stammt, der Prozesse auslöst) in eine eindeutige ...

2 die antwort

Warum löscht der OneHotEncoder von Spark standardmäßig die letzte Kategorie?

Ich möchte verstehen, warum der OneHotEncoder des Spark standardmäßig die letzte Kategorie gelöscht hat. Beispielsweise >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...