Suchergebnisse für Anfrage "apache-spark-sql"
Berechnung der Dauer durch Subtraktion von zwei datetime-Spalten im Zeichenfolgenformat
Ich habe einen Spark-Datenrahmen, der aus einer Reihe von Daten besteht: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...
Wie wird in Spark SQL nach Spalte in absteigender Reihenfolge sortiert?
Ich habe es versuchtdf.orderBy("col1").show(10) aber aufsteigend sortiert.df.sort("col1").show(10) wird auch in absteigender Reihenfolge sortiert. Ich habe auf stackoverflow geschaut und die Antworten, die ich gefunden habe, waren alle veraltet ...
DataFrame-ified zipWithIndex
Ich versuche, das uralte Problem des Hinzufügens einer Sequenznummer zu einem Datensatz zu lösen. Ich arbeite mit DataFrames und es scheint keinen DataFrame zu geben, der @ entsprichRDD.zipWithIndex. Andererseits funktioniert das Folgende mehr ...
Spark - "sbt package" - "value $ ist kein Mitglied von StringContext" - Fehlendes Scala-Plugin?
Wenn "sbt package" über die Befehlszeile für eine kleine Spark Scala-Anwendung ausgeführt wird, wird in der folgenden Codezeile der Kompilierungsfehler "value $ is not a member of StringContext" angezeigt: val joined = ordered.join(empLogins, ...
Wie verwende ich Spark SQL DataFrame mit flatMap?
Ich verwende die Spark Scala-API. Ich habe einen Spark SQL DataFrame (aus einer Avro-Datei gelesen) mit dem folgenden Schema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: ...
Ist die Auswahl der geschachtelten Spark DataFrame-Struktur eingeschränkt?
Ich habe eine JSON-Datei mit einigen Daten. Ich kann daraus einen DataFrame erstellen. Das Schema für einen bestimmten Teil davon, an dem ich interessiert bin, sieht folgendermaßen aus: val json: DataFrame = ...
Apache Spark, fügen Sie eine berechnete Spalte "CASE WHEN… ELSE…" zu einem vorhandenen DataFrame @ hin
Ich versuche, einem vorhandenen DataFrame mithilfe von Scala-APIs eine berechnete Spalte "CASE WHEN ... ELSE ..." hinzuzufügen. Datenrahmen wird gestartet: color Red Green Blue Gewünschter Datenrahmen (SQL-Syntax: CASE WHEN color == Green THEN ...
Wie verwende ich die JDBC-Quelle, um Daten in (Py) Spark zu schreiben und zu lesen?
Das Ziel dieser Frage ist es zu dokumentieren: Schritte, die zum Lesen und Schreiben von Daten mithilfe von JDBC-Verbindungen in PySpark erforderlich sind mögliche Probleme mit JDBC-Quellen und bekannten Lösungen it kleinen Änderungen ...
Issue with UDF auf einer Vektorspalte in PySpark DataFrame
ch habe Probleme mit der Verwendung einer UDF für eine Vektorspalte in PySpark, die hier dargestellt werden kan from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions ...
Wie man Spaltennamen mit Bindestrich in Spark SQL @ maskie
Ich habe eine JSON-Datei in Spark importiert und als @ in eine Tabelle konvertier myDF.registerTempTable("myDF") Ich möchte dann SQL-Abfragen für diese resultierende Tabelle ausführen val newTable = sqlContext.sql("select column-1 from ...