Suchergebnisse für Anfrage "pyspark-sql"

2 die antwort

Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)

Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, ...

2 die antwort

Spark ML Pipeline Verursacht java.lang.Exception: Fehler beim Kompilieren… Code… wächst über 64 KB hinaus

it Spark 2.0 versuche ich, einen einfachen VectorAssembler in einer Pyspark-ML-Pipeline wie folgt auszuführen: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

8 die antwort

Wie wähle ich die letzte Zeile aus und wie greife ich über den Index auf PySpark-Datenrahmen zu?

Von einem PySpark SQL-Datenrahmen wie name age city abc 20 A def 30 BWie erhalte ich die letzte Zeile? (Wie bei df.limit (1) kann ich die erste Zeile des Datenrahmens in einen neuen Datenrahmen umwandeln). Und wie kann ich über den Index auf ...

TOP-Veröffentlichungen

2 die antwort

Apache Funke Umgang mit case Aussagen

Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...

2 die antwort

Wie implementiere ich Auto-Inkrement in Spark-SQL (PySpark)?

Ich muss eine Auto-Inkrement-Spalte in meine Spark-SQL-Tabelle implementieren, wie könnte ich das tun. Bitte führe mich. Ich benutze Pyspark 2.0 Danke Kalyan

6 die antwort

PySpark-Fehler: AttributeError: Objekt 'NoneType' hat kein Attribut '_jvm'

Ich habe einen Zeitstempeldatensatz im Format von Und ich habe ein udf in pyspark geschrieben, um diesen Datensatz zu verarbeiten und als Map der Schlüsselwerte zurückzugeben. Aber bekomme unten Fehlermeldung. Dataset: ...