Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Spark: Wie kann ich meine Datensätze gleichmäßig auf allen Partitionen verteilen?

Ich habe eine RDD mit 30 Einträgen (Schlüssel / Wert-Paar: Schlüssel ist Zeitstempel und Wert ist JPEG Byte Array) und ich habe 30 Testamentsvollstrecker. Ich möchte dieses RDD in 30 Partitionen neu partitionieren, damit jede Partition einen ...

2 die antwort

Running App JAR-Datei bei Spark-Submit in einer Google Dataproc Cluster-Instanz

Ich führe eine .jar-Datei aus, die alle Abhängigkeiten enthält, die ich darin packen muss. Eine dieser Abhängigkeiten istcom.google.common.util.concurrent.RateLimiter und bereits überprüft, ob die Klassendatei in dieser JAR-Datei enthalten ...

10 die antwort

Wie importiere ich Pyspark in Anaconda

Ich versuche, @ zu importieren und zu verwendpyspark mit anaconda. Nach der Installation des Funkens und dem Einstellen des$SPARK_HOME Variable, die ich ausprobiert habe: $ pip install pysparkDies wird (natürlich) nicht funktionieren, da ...

TOP-Veröffentlichungen

2 die antwort

Zufällige Elemente aus einem Spark GroupedData-Objekt auswählen

Ich bin neu in der Verwendung von Spark in Python und konnte dieses Problem nicht lösen: Nach dem Ausführen vongroupBy auf einenpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')wie kannst du @ ...

6 die antwort

Spark, Scala, DataFrame: Feature-Vektoren erstellen

Ich habe einDataFrame das sieht aus wie folgt: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2 Die Anzahl der unterschiedlichen Kategorien beträgt 10, und ich möchte für jedes @ ...

2 die antwort

So filtern Sie in Spark SQL nach Datumsbereich

Ich versuche, den Datumsbereich mithilfe von Datenblöcken aus den folgenden Daten herauszufiltern, die als Antwort null zurückgeben. Meine CSV-Daten sehen so aus: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, ...

6 die antwort

Wie kann ich einen Spark-DataFrame aus einem verschachtelten Array von Strukturelementen erstellen?

Ich habe eine JSON-Datei in Spark eingelesen. Diese Datei hat folgende Struktur: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: ...

6 die antwort

Doppelte Spalten in Spark Dataframe

Ich habe eine 10-GB-CSV-Datei in Hadoop-Cluster mit doppelten Spalten. Ich versuche es in SparkR zu analysieren, also benutze ichspark-csv Paket, um es als @ zu analysierDataFrame: df <- read.df( sqlContext, FILE_PATH, source = ...

2 die antwort

Wie wirkt sich die Anzahl der Partitionen auf `wholeTextFiles` und` textFiles` aus?

Im Funken verstehe ich, wie man @ benutwholeTextFiles undtextFiles, aber ich bin mir nicht sicher, wann ich welche verwenden soll. Folgendes weiß ich bisher: Wenn Sie mit Dateien arbeiten, die nicht zeilenweise aufgeteilt sind, sollten Sie @ ...

4 die antwort

Wie lade ich Jar-Abhängigkeiten in IPython Notebook?

Diese Seit [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] hat mich dazu inspiriert, spark-csv auszuprobieren, um CSV-Dateien in PySpark zu lesen. Ich habe ein paar Posts gefunden, wie ...