Suchergebnisse für Anfrage "apache-spark-sql"

12 die antwort

Berechnung der Dauer durch Subtraktion von zwei datetime-Spalten im Zeichenfolgenformat

Ich habe einen Spark-Datenrahmen, der aus einer Reihe von Daten besteht: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

12 die antwort

Wie wird in Spark SQL nach Spalte in absteigender Reihenfolge sortiert?

Ich habe es versuchtdf.orderBy("col1").show(10) aber aufsteigend sortiert.df.sort("col1").show(10) wird auch in absteigender Reihenfolge sortiert. Ich habe auf stackoverflow geschaut und die Antworten, die ich gefunden habe, waren alle veraltet ...

10 die antwort

DataFrame-ified zipWithIndex

Ich versuche, das uralte Problem des Hinzufügens einer Sequenznummer zu einem Datensatz zu lösen. Ich arbeite mit DataFrames und es scheint keinen DataFrame zu geben, der @ entsprichRDD.zipWithIndex. Andererseits funktioniert das Folgende mehr ...

TOP-Veröffentlichungen

6 die antwort

Spark - "sbt package" - "value $ ist kein Mitglied von StringContext" - Fehlendes Scala-Plugin?

Wenn "sbt package" über die Befehlszeile für eine kleine Spark Scala-Anwendung ausgeführt wird, wird in der folgenden Codezeile der Kompilierungsfehler "value $ is not a member of StringContext" angezeigt: val joined = ordered.join(empLogins, ...

4 die antwort

Wie verwende ich Spark SQL DataFrame mit flatMap?

Ich verwende die Spark Scala-API. Ich habe einen Spark SQL DataFrame (aus einer Avro-Datei gelesen) mit dem folgenden Schema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: ...

2 die antwort

Ist die Auswahl der geschachtelten Spark DataFrame-Struktur eingeschränkt?

Ich habe eine JSON-Datei mit einigen Daten. Ich kann daraus einen DataFrame erstellen. Das Schema für einen bestimmten Teil davon, an dem ich interessiert bin, sieht folgendermaßen aus: val json: DataFrame = ...

8 die antwort

Apache Spark, fügen Sie eine berechnete Spalte "CASE WHEN… ELSE…" zu einem vorhandenen DataFrame @ hin

Ich versuche, einem vorhandenen DataFrame mithilfe von Scala-APIs eine berechnete Spalte "CASE WHEN ... ELSE ..." hinzuzufügen. Datenrahmen wird gestartet: color Red Green Blue Gewünschter Datenrahmen (SQL-Syntax: CASE WHEN color == Green THEN ...

6 die antwort

Wie verwende ich die JDBC-Quelle, um Daten in (Py) Spark zu schreiben und zu lesen?

Das Ziel dieser Frage ist es zu dokumentieren: Schritte, die zum Lesen und Schreiben von Daten mithilfe von JDBC-Verbindungen in PySpark erforderlich sind mögliche Probleme mit JDBC-Quellen und bekannten Lösungen it kleinen Änderungen ...

2 die antwort

Issue with UDF auf einer Vektorspalte in PySpark DataFrame

ch habe Probleme mit der Verwendung einer UDF für eine Vektorspalte in PySpark, die hier dargestellt werden kan from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions ...

6 die antwort

Wie man Spaltennamen mit Bindestrich in Spark SQL @ maskie

Ich habe eine JSON-Datei in Spark importiert und als @ in eine Tabelle konvertier myDF.registerTempTable("myDF") Ich möchte dann SQL-Abfragen für diese resultierende Tabelle ausführen val newTable = sqlContext.sql("select column-1 from ...