Suchergebnisse für Anfrage "pyspark"
PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?
Ich habe ein sehr großes pyspark.sql.dataframe.DataFrame mit dem Namen df. Ich brauche eine Möglichkeit, um Datensätze aufzulisten. Daher kann ich auf Datensätze mit einem bestimmten Index zugreifen. (oder Datensatzgruppe mit Indexbereich ...
Create Spark DataFrame. Schema für Typ kann nicht abgeleitet werden: <Typ 'float'>
Kann mir jemand bei der Lösung dieses Problems mit Spark DataFrame helfen? Wann mache ichmyFloatRDD.toDF() Ich erhalte eine Fehlermeldung: TypeError: Schema für Typ kann nicht abgeleitet werden: Typ 'float' Ich verstehe nicht warum ...
Wie konvertiere ich ein RDD mit einer SparseVector-Spalte in einen DataFrame mit einer Spalte als Vector
Ich habe ein RDD mit einem Tupel von Werten (String, SparseVector) und ich möchte ein @ erstell DataFrame Verwendung der RDD. Um ein (label: string, features: vector) @ zu erhalt DataFrame ist das Schema, das von den meisten Bibliotheken des ...
Konvertieren Sie eine RDD in iterable: PySpark?
Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und sie vorverarbeite. Ich möchte es nicht sammeln und auf der Festplatte oder im Speicher (vollständige Daten) speichern, sondern es an eine andere Funktion in Python übergeben, ...
Wie füge ich eine konstante Spalte in einem Spark-DataFrame hinzu?
Ich möchte eine Spalte in einem @ hinzufügDataFrame mit einem beliebigen Wert (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich @ benutwithColumn wie folgt dt.withColumn('new_column', ...
'PipelinedRDD' Objekt hat kein Attribut 'toDF' in PySpark
Ich versuche eine SVM-Datei zu laden und in eine @ zu konvertierDataFrame damit ich das ML Modul benutzen kann Pipeline ML) von Spark. Ich habe gerade einen neuen Spark 1.5.0 auf einem Ubuntu 14.04 installiert ...
Wie kann ich die Einstellung von SparkContext.sparkUser () (in pyspark) ändern?
Ich bin neu beiSpark undpyspark. Ich benutze Pyspark, nach meinemrdd Verarbeitung, ich habe versucht, es zu speichernhdfs Verwendung dersaveAsTextfile() Funktion. Aber ich bekomme ein ' Zugang verweiger 'Fehlermeldung, da Pyspark versucht, @ zu ...
Wie teile ich eine RDD in zwei oder mehr RDDs auf?
Ich suche nach einer Möglichkeit, eine RDD in zwei oder mehr RDDs aufzuteilen. Das nächste, das ich gesehen habe, istScala Spark: Sammlung in mehrere ...
Wie verwende ich Scala und Python in einem Spark-Projekt?
Ist das möglich @ zu leitSpark RDD zu Python? Weil ich eine Python-Bibliothek benötige, um meine Daten zu berechnen, aber mein Haupt-Spark-Projekt basiert auf Scala. Gibt es eine Möglichkeit, beide zu mischen oder Python auf denselben ...
SQL-Datei in Spark mit Python ausführen
from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName("Test").set("spark.driver.memory", "1g") sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) results ...