Suchergebnisse für Anfrage "apache-spark"

26 die antwort

Spark - Fehler "Eine Master-URL muss in Ihrer Konfiguration festgelegt sein" beim Senden einer App

Ich habe eine Spark-App, die im lokalen Modus problemlos ausgeführt wird, habe jedoch einige Probleme beim Senden an den Spark-Cluster. Die Fehlermeldung lautet wie folgt: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage ...

10 die antwort

Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?

Ich habe den folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toListund ich möchte es in einen DataFrame konvertieren. Wenn ich Folgendes versuche: sqlContext.createDataFrame(values)Ich habe diesen Fehler ...

8 die antwort

Pyspark-String in Datumsformat konvertieren

Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...

TOP-Veröffentlichungen

2 die antwort

Kafka-Thema in einem Spark-Batch-Job lesen

Ich schreibe einen Spark-Stapeljob (v1.6.0), der aus einem Kafka-Thema liest. Dafür kann ichorg.apache.spark.streaming.kafka.KafkaUtils#createRDD Ich muss jedoch die Offsets für alle Partitionen festlegen und sie auch irgendwo speichern (ZK? ...

10 die antwort

Merge Spark gibt CSV-Dateien mit einem einzelnen Header aus

Ich möchte eine Datenverarbeitungs-Pipeline in AWS erstellen, um die verarbeiteten Daten schließlich für maschinelles Lernen zu verwenden. Ich habe ein Scala-Skript, das Rohdaten aus S3 entnimmt, verarbeitet und mit @ in HDFS oder sogar S3 ...

4 die antwort

PySpark Auswertung

Ich versuche den folgenden Code, der jeder Zeile in einer RDD eine Nummer hinzufügt und mit PySpark eine Liste von RDDs zurückgibt. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = ...

4 die antwort

Boosting spark.yarn.executor.memoryOverhead

Ich versuche, einen (py) Spark-Job für EMR auszuführen, der eine große Datenmenge verarbeitet. Derzeit schlägt mein Job mit der folgenden Fehlermeldung fehl: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...

2 die antwort

Wie gleichmäßig in Spark neu partitionieren?

Um zu testen, wie.repartition() funktioniert, ich habe den folgenden Code ausgeführt: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() führte zu4. Dann lief ich: rdd = rdd.repartition(10) ...

2 die antwort

Wie erstelle ich eine dünne Matrix in PySpark?

Ich bin neu bei Spark. Ich möchte eine spärliche Matrix zu einer Benutzer-ID-Element-ID-Matrix machen, die speziell für eine Empfehlungs-Engine vorgesehen ist. Ich weiß, wie ich das in Python machen würde. Wie macht man das in PySpark? Hier ist, ...

4 die antwort

Spark Scala: Konvertieren von DataFrame [vector] in DataFrame [f1: Double,…, fn: Double)]

Ich habe gerade Standard Scaler verwendet, um meine Funktionen für eine ML-Anwendung zu normalisieren. Nachdem ich die skalierten Features ausgewählt habe, möchte ich diese zurück in einen Datenrahmen mit Doppelwerten konvertieren, obwohl die ...