Suchergebnisse für Anfrage "apache-spark"
Spark: Wie kann ich meine Datensätze gleichmäßig auf allen Partitionen verteilen?
Ich habe eine RDD mit 30 Einträgen (Schlüssel / Wert-Paar: Schlüssel ist Zeitstempel und Wert ist JPEG Byte Array) und ich habe 30 Testamentsvollstrecker. Ich möchte dieses RDD in 30 Partitionen neu partitionieren, damit jede Partition einen ...
Running App JAR-Datei bei Spark-Submit in einer Google Dataproc Cluster-Instanz
Ich führe eine .jar-Datei aus, die alle Abhängigkeiten enthält, die ich darin packen muss. Eine dieser Abhängigkeiten istcom.google.common.util.concurrent.RateLimiter und bereits überprüft, ob die Klassendatei in dieser JAR-Datei enthalten ...
Wie importiere ich Pyspark in Anaconda
Ich versuche, @ zu importieren und zu verwendpyspark mit anaconda. Nach der Installation des Funkens und dem Einstellen des$SPARK_HOME Variable, die ich ausprobiert habe: $ pip install pysparkDies wird (natürlich) nicht funktionieren, da ...
Zufällige Elemente aus einem Spark GroupedData-Objekt auswählen
Ich bin neu in der Verwendung von Spark in Python und konnte dieses Problem nicht lösen: Nach dem Ausführen vongroupBy auf einenpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')wie kannst du @ ...
Spark, Scala, DataFrame: Feature-Vektoren erstellen
Ich habe einDataFrame das sieht aus wie folgt: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2 Die Anzahl der unterschiedlichen Kategorien beträgt 10, und ich möchte für jedes @ ...
So filtern Sie in Spark SQL nach Datumsbereich
Ich versuche, den Datumsbereich mithilfe von Datenblöcken aus den folgenden Daten herauszufiltern, die als Antwort null zurückgeben. Meine CSV-Daten sehen so aus: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, ...
Wie kann ich einen Spark-DataFrame aus einem verschachtelten Array von Strukturelementen erstellen?
Ich habe eine JSON-Datei in Spark eingelesen. Diese Datei hat folgende Struktur: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: ...
Doppelte Spalten in Spark Dataframe
Ich habe eine 10-GB-CSV-Datei in Hadoop-Cluster mit doppelten Spalten. Ich versuche es in SparkR zu analysieren, also benutze ichspark-csv Paket, um es als @ zu analysierDataFrame: df <- read.df( sqlContext, FILE_PATH, source = ...
Wie wirkt sich die Anzahl der Partitionen auf `wholeTextFiles` und` textFiles` aus?
Im Funken verstehe ich, wie man @ benutwholeTextFiles undtextFiles, aber ich bin mir nicht sicher, wann ich welche verwenden soll. Folgendes weiß ich bisher: Wenn Sie mit Dateien arbeiten, die nicht zeilenweise aufgeteilt sind, sollten Sie @ ...
Wie lade ich Jar-Abhängigkeiten in IPython Notebook?
Diese Seit [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] hat mich dazu inspiriert, spark-csv auszuprobieren, um CSV-Dateien in PySpark zu lesen. Ich habe ein paar Posts gefunden, wie ...