Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Spark Mlib FPGrowth-Job schlägt mit Speicherfehler fehl

Ich habe einen ziemlich einfachen Anwendungsfall, aber möglicherweise eine sehr große Ergebnismenge. Mein Code macht folgendes (auf Pyspark Shell): from pyspark.mllib.fpm import FPGrowth data ...

8 die antwort

Spark ignoriert SPARK_WORKER_MEMORY?

Ich verwende den eigenständigen Cluster-Modus 1.5.2. Auch wenn ich einsetzeSPARK_WORKER_MEMORY imspark-env.sh, diese Einstellung wird anscheinend ignoriert. Ich kann in den Skripten unter @ keine Hinweise findbin/sbin Das-Xms/-Xmx eingestellt ...

2 die antwort

Was bedeutet "Übersprungene Bühne" in der Apache Spark-Webbenutzeroberfläche?

Von meiner Spark-Benutzeroberfläche. Was bedeutet übersprungen? [/imgs/cyvd1.png]

TOP-Veröffentlichungen

4 die antwort

Wie wende ich eine Funktion auf eine Spalte eines Spark-DataFrames an?

Nehmen wir an, wir haben einen Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramemit dem folgenden Schema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array ...

2 die antwort

Filtering RDD Basierend auf der Bedingung und dem Extrahieren übereinstimmender Daten in Spark Python

Ich habe die Daten wie, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 Cl_id-IDs: 10004, 20005 Filter von 10004 10004, 77173296 ,390.0 ...

2 die antwort

SparkR Job 100 Minuten Timeout

Ich habe ein etwas komplexes sparkR-Skript geschrieben und es mit spark-submit ausgeführt. Grundsätzlich wird eine große, auf Hive / Impala-Parkett basierende Tabelle zeilenweise gelesen und eine neue Parkettdatei mit der gleichen Anzahl von ...

6 die antwort

spark Fehler beim Laden von Dateien von S3 Wildcard

Ich verwende die Pyspark-Shell und versuche, Daten aus S3 mit der Datei-Platzhalter-Funktion von spark zu lesen. Es wird jedoch die folgende Fehlermeldung angezeigt: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ ...

10 die antwort

Spark 1.6-Fehler beim Auffinden der Winutils-Binärdatei im Hadoop-Binärpfad

Ich weiß, dass es einen sehr ähnlichen Beitrag zu diesem gibt Fehler beim Auffinden der Winutils-Binärdatei im Binärpfad von Hadoop [https://stackoverflow.com/questions/19620642/failed-to-locate-the-winutils-binary-in-the-hadoop-binary-path] ) ...

4 die antwort

DataFrame-PartitionDurch eine einzelne Parkettdatei (pro Partition)

Ich möchte meine Daten reparieren / zusammenführen, sodass sie in einer Parquet-Datei pro Partition gespeichert werden. Ich möchte auch die Spark-SQL-partitionBy-API verwenden. Also könnte ich das so ...

6 die antwort

Wie werden Daten von Kafka an Spark Streaming übergeben?

Ich versuche, Daten von Kafka an Spark-Streaming zu übergeben. Das habe ich bis jetzt gemacht: Installed bothkafka undsparkGestartetzookeeper mit Standardeigenschaften configGestartetkafka server mit Standardeigenschaften ...