Suchergebnisse für Anfrage "apache-spark-sql"

Ich möchte erstellen amDataFrame mit einem bestimmten Schema in Scala. Ich habe versucht, JSON read zu verwenden (ich meine, leere Dateien zu lesen), aber ich denke nicht, dass dies die beste Vorgehensweise ist.

scala apache-spark

2 die antwort

Wie filtere ich Zeilen basierend darauf, ob sich ein Spaltenwert in einem Satz von Zeichenfolgen in einem Spark-DataFrame befindet?

Gibt es eine elegantere Methode zum Filtern anhand von Werten in einem String-Satz? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

hive pyspark rdd apache-spark

8 die antwort

PySpark: Ein SchemaRDD einem SchemaRDD zuordnen

Ich lade eine Datei mit JSON-Objekten als PySparkSchemaRDD. Ich möchte die "Form" der Objekte ändern (im Grunde genommen reduziere ich sie) und dann in eine Hive-Tabelle einfügen. Das Problem, das ich habe, ist, dass das folgende ein @ ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark

10 die antwort

ie kann ich die Größe eines RDD finde

Ich habeRDD[Row], das in einem Repository eines Drittanbieters gespeichert werden muss. Dieses Drittanbieter-Repository akzeptiert jedoch maximal 5 MB in einem einzelnen Aufruf. So möchte ich eine Partition basierend auf der Größe der in RDD ...

apache-spark scala

2 die antwort

Wie registriere ich eine Funktion in sqlContext UDF in scala?

Ich habe eine Methode namens getAge (Zeitstempel: Long) und möchte diese als SQL-Funktion registrieren. Ich hab sqlContext.udf.register("getAge",getAge)Aber es sagt mir, ich brauche Argumente oder benutze danach _, ich habe versucht, _ zu ...

dataframe apache-spark scala

2 die antwort

Verwendung der spark DataFrame "as" -Methode

Ich suche nach spark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] Dokumentation. Es gib def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Was ist ...

rdd apache-spark scala apache-spark-mllib

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

apache-spark udf hive hiveql

2 die antwort

Hive UDF für die Auswahl aller bis auf einige Spalten

Das gängige Muster für die Abfrageerstellung in HiveQL (und in SQL im Allgemeinen) besteht darin, entweder alle Spalten auszuwählen SELECT *) oder ein explizit angegebener Satz von Spalten SELECT A, B, C). In SQL ist kein Mechanismus zum ...

aggregate-functions apache-spark

10 die antwort

SPARK SQL-Ersatz für mysql GROUP_CONCAT-Aggregatfunktion

Ich habe eine Tabelle mit zwei Spalten vom Typ "Zeichenfolge" (Benutzername, Freund). Für jeden Benutzernamen möchte ich alle Freunde in einer Zeile zusammenfassen, die als Zeichenfolgen verkettet sind ("Benutzername1", "Freunde1", "Freunde2", ...

apache-spark etl elasticsearch scala

4 die antwort

Wie man eine neue Struct-Spalte zu einem DataFrame hinzufügt

Ich versuche derzeit, eine Datenbank aus MongoDB zu extrahieren und mit Spark mit @ in ElasticSearch zu importieregeo_points. Die Mongo-Datenbank enthält Breiten- und Längengrade, bei ElasticSearch müssen diese jedoch in das @ -Zeichen ...

Seite 5 von 32

3 456 7

Suchergebnisse für Anfrage "apache-spark-sql"

Wie erstelle ich einen leeren DataFrame mit einem bestimmten Schema?

Wie filtere ich Zeilen basierend darauf, ob sich ein Spaltenwert in einem Satz von Zeichenfolgen in einem Spark-DataFrame befindet?

PySpark: Ein SchemaRDD einem SchemaRDD zuordnen

Beliebte Schlagwörter

TOP-Veröffentlichungen

ie kann ich die Größe eines RDD finde

Wie registriere ich eine Funktion in sqlContext UDF in scala?

Verwendung der spark DataFrame "as" -Methode

RDD zu LabeledPoint Konvertierung

Hive UDF für die Auswahl aller bis auf einige Spalten

SPARK SQL-Ersatz für mysql GROUP_CONCAT-Aggregatfunktion

Wie man eine neue Struct-Spalte zu einem DataFrame hinzufügt

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark-sql"

Beliebte Schlagwörter

TOP-Veröffentlichungen