Suchergebnisse für Anfrage "apache-spark-sql"

12 die antwort

Wie erstelle ich einen leeren DataFrame mit einem bestimmten Schema?

Ich möchte erstellen amDataFrame mit einem bestimmten Schema in Scala. Ich habe versucht, JSON read zu verwenden (ich meine, leere Dateien zu lesen), aber ich denke nicht, dass dies die beste Vorgehensweise ist.

2 die antwort

Wie filtere ich Zeilen basierend darauf, ob sich ein Spaltenwert in einem Satz von Zeichenfolgen in einem Spark-DataFrame befindet?

Gibt es eine elegantere Methode zum Filtern anhand von Werten in einem String-Satz? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

8 die antwort

PySpark: Ein SchemaRDD einem SchemaRDD zuordnen

Ich lade eine Datei mit JSON-Objekten als PySparkSchemaRDD. Ich möchte die "Form" der Objekte ändern (im Grunde genommen reduziere ich sie) und dann in eine Hive-Tabelle einfügen. Das Problem, das ich habe, ist, dass das folgende ein @ ...

TOP-Veröffentlichungen

10 die antwort

ie kann ich die Größe eines RDD finde

Ich habeRDD[Row], das in einem Repository eines Drittanbieters gespeichert werden muss. Dieses Drittanbieter-Repository akzeptiert jedoch maximal 5 MB in einem einzelnen Aufruf. So möchte ich eine Partition basierend auf der Größe der in RDD ...

2 die antwort

Wie registriere ich eine Funktion in sqlContext UDF in scala?

Ich habe eine Methode namens getAge (Zeitstempel: Long) und möchte diese als SQL-Funktion registrieren. Ich hab sqlContext.udf.register("getAge",getAge)Aber es sagt mir, ich brauche Argumente oder benutze danach _, ich habe versucht, _ zu ...

2 die antwort

Verwendung der spark DataFrame "as" -Methode

Ich suche nach spark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] Dokumentation. Es gib def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Was ist ...

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

2 die antwort

Hive UDF für die Auswahl aller bis auf einige Spalten

Das gängige Muster für die Abfrageerstellung in HiveQL (und in SQL im Allgemeinen) besteht darin, entweder alle Spalten auszuwählen SELECT *) oder ein explizit angegebener Satz von Spalten SELECT A, B, C). In SQL ist kein Mechanismus zum ...

10 die antwort

SPARK SQL-Ersatz für mysql GROUP_CONCAT-Aggregatfunktion

Ich habe eine Tabelle mit zwei Spalten vom Typ "Zeichenfolge" (Benutzername, Freund). Für jeden Benutzernamen möchte ich alle Freunde in einer Zeile zusammenfassen, die als Zeichenfolgen verkettet sind ("Benutzername1", "Freunde1", "Freunde2", ...

4 die antwort

Wie man eine neue Struct-Spalte zu einem DataFrame hinzufügt

Ich versuche derzeit, eine Datenbank aus MongoDB zu extrahieren und mit Spark mit @ in ElasticSearch zu importieregeo_points. Die Mongo-Datenbank enthält Breiten- und Längengrade, bei ElasticSearch müssen diese jedoch in das @ -Zeichen ...