Suchergebnisse für Anfrage "apache-spark"
Spark - Fehler "Eine Master-URL muss in Ihrer Konfiguration festgelegt sein" beim Senden einer App
Ich habe eine Spark-App, die im lokalen Modus problemlos ausgeführt wird, habe jedoch einige Probleme beim Senden an den Spark-Cluster. Die Fehlermeldung lautet wie folgt: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage ...
Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?
Ich habe den folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toListund ich möchte es in einen DataFrame konvertieren. Wenn ich Folgendes versuche: sqlContext.createDataFrame(values)Ich habe diesen Fehler ...
Pyspark-String in Datumsformat konvertieren
Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...
Kafka-Thema in einem Spark-Batch-Job lesen
Ich schreibe einen Spark-Stapeljob (v1.6.0), der aus einem Kafka-Thema liest. Dafür kann ichorg.apache.spark.streaming.kafka.KafkaUtils#createRDD Ich muss jedoch die Offsets für alle Partitionen festlegen und sie auch irgendwo speichern (ZK? ...
Merge Spark gibt CSV-Dateien mit einem einzelnen Header aus
Ich möchte eine Datenverarbeitungs-Pipeline in AWS erstellen, um die verarbeiteten Daten schließlich für maschinelles Lernen zu verwenden. Ich habe ein Scala-Skript, das Rohdaten aus S3 entnimmt, verarbeitet und mit @ in HDFS oder sogar S3 ...
PySpark Auswertung
Ich versuche den folgenden Code, der jeder Zeile in einer RDD eine Nummer hinzufügt und mit PySpark eine Liste von RDDs zurückgibt. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = ...
Boosting spark.yarn.executor.memoryOverhead
Ich versuche, einen (py) Spark-Job für EMR auszuführen, der eine große Datenmenge verarbeitet. Derzeit schlägt mein Job mit der folgenden Fehlermeldung fehl: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...
Wie gleichmäßig in Spark neu partitionieren?
Um zu testen, wie.repartition() funktioniert, ich habe den folgenden Code ausgeführt: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() führte zu4. Dann lief ich: rdd = rdd.repartition(10) ...
Wie erstelle ich eine dünne Matrix in PySpark?
Ich bin neu bei Spark. Ich möchte eine spärliche Matrix zu einer Benutzer-ID-Element-ID-Matrix machen, die speziell für eine Empfehlungs-Engine vorgesehen ist. Ich weiß, wie ich das in Python machen würde. Wie macht man das in PySpark? Hier ist, ...
Spark Scala: Konvertieren von DataFrame [vector] in DataFrame [f1: Double,…, fn: Double)]
Ich habe gerade Standard Scaler verwendet, um meine Funktionen für eine ML-Anwendung zu normalisieren. Nachdem ich die skalierten Features ausgewählt habe, möchte ich diese zurück in einen Datenrahmen mit Doppelwerten konvertieren, obwohl die ...