Suchergebnisse für Anfrage "apache-spark"
Spark Mlib FPGrowth-Job schlägt mit Speicherfehler fehl
Ich habe einen ziemlich einfachen Anwendungsfall, aber möglicherweise eine sehr große Ergebnismenge. Mein Code macht folgendes (auf Pyspark Shell): from pyspark.mllib.fpm import FPGrowth data ...
Spark ignoriert SPARK_WORKER_MEMORY?
Ich verwende den eigenständigen Cluster-Modus 1.5.2. Auch wenn ich einsetzeSPARK_WORKER_MEMORY imspark-env.sh, diese Einstellung wird anscheinend ignoriert. Ich kann in den Skripten unter @ keine Hinweise findbin/sbin Das-Xms/-Xmx eingestellt ...
Was bedeutet "Übersprungene Bühne" in der Apache Spark-Webbenutzeroberfläche?
Von meiner Spark-Benutzeroberfläche. Was bedeutet übersprungen? [/imgs/cyvd1.png]
Wie wende ich eine Funktion auf eine Spalte eines Spark-DataFrames an?
Nehmen wir an, wir haben einen Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramemit dem folgenden Schema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array ...
Filtering RDD Basierend auf der Bedingung und dem Extrahieren übereinstimmender Daten in Spark Python
Ich habe die Daten wie, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 Cl_id-IDs: 10004, 20005 Filter von 10004 10004, 77173296 ,390.0 ...
SparkR Job 100 Minuten Timeout
Ich habe ein etwas komplexes sparkR-Skript geschrieben und es mit spark-submit ausgeführt. Grundsätzlich wird eine große, auf Hive / Impala-Parkett basierende Tabelle zeilenweise gelesen und eine neue Parkettdatei mit der gleichen Anzahl von ...
spark Fehler beim Laden von Dateien von S3 Wildcard
Ich verwende die Pyspark-Shell und versuche, Daten aus S3 mit der Datei-Platzhalter-Funktion von spark zu lesen. Es wird jedoch die folgende Fehlermeldung angezeigt: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ ...
Spark 1.6-Fehler beim Auffinden der Winutils-Binärdatei im Hadoop-Binärpfad
Ich weiß, dass es einen sehr ähnlichen Beitrag zu diesem gibt Fehler beim Auffinden der Winutils-Binärdatei im Binärpfad von Hadoop [https://stackoverflow.com/questions/19620642/failed-to-locate-the-winutils-binary-in-the-hadoop-binary-path] ) ...
DataFrame-PartitionDurch eine einzelne Parkettdatei (pro Partition)
Ich möchte meine Daten reparieren / zusammenführen, sodass sie in einer Parquet-Datei pro Partition gespeichert werden. Ich möchte auch die Spark-SQL-partitionBy-API verwenden. Also könnte ich das so ...
Wie werden Daten von Kafka an Spark Streaming übergeben?
Ich versuche, Daten von Kafka an Spark-Streaming zu übergeben. Das habe ich bis jetzt gemacht: Installed bothkafka undsparkGestartetzookeeper mit Standardeigenschaften configGestartetkafka server mit Standardeigenschaften ...