Suchergebnisse für Anfrage "apache-spark"

Ich habe eine Spark-App, die im lokalen Modus problemlos ausgeführt wird, habe jedoch einige Probleme beim Senden an den Spark-Cluster. Die Fehlermeldung lautet wie folgt: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage ...

scala apache-spark-sql spark-dataframe

10 die antwort

Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?

Ich habe den folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toListund ich möchte es in einen DataFrame konvertieren. Wenn ich Folgendes versuche: sqlContext.createDataFrame(values)Ich habe diesen Fehler ...

pyspark-sql apache-spark-sql pyspark

8 die antwort

Pyspark-String in Datumsformat konvertieren

Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

kafka-consumer-api scala spark-streaming apache-kafka

2 die antwort

Kafka-Thema in einem Spark-Batch-Job lesen

Ich schreibe einen Spark-Stapeljob (v1.6.0), der aus einem Kafka-Thema liest. Dafür kann ichorg.apache.spark.streaming.kafka.KafkaUtils#createRDD Ich muss jedoch die Offsets für alle Partitionen festlegen und sie auch irgendwo speichern (ZK? ...

hadoop csv scala

10 die antwort

Merge Spark gibt CSV-Dateien mit einem einzelnen Header aus

Ich möchte eine Datenverarbeitungs-Pipeline in AWS erstellen, um die verarbeiteten Daten schließlich für maschinelles Lernen zu verwenden. Ich habe ein Scala-Skript, das Rohdaten aus S3 entnimmt, verarbeitet und mit @ in HDFS oder sogar S3 ...

python pyspark

4 die antwort

PySpark Auswertung

Ich versuche den folgenden Code, der jeder Zeile in einer RDD eine Nummer hinzufügt und mit PySpark eine Liste von RDDs zurückgibt. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = ...

amazon-web-services pyspark emr amazon-emr

4 die antwort

Boosting spark.yarn.executor.memoryOverhead

Ich versuche, einen (py) Spark-Job für EMR auszuführen, der eine große Datenmenge verarbeitet. Derzeit schlägt mein Job mit der folgenden Fehlermeldung fehl: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...

pyspark

2 die antwort

Wie gleichmäßig in Spark neu partitionieren?

Um zu testen, wie.repartition() funktioniert, ich habe den folgenden Code ausgeführt: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() führte zu4. Dann lief ich: rdd = rdd.repartition(10) ...

python sparse-matrix pyspark recommendation-engine

2 die antwort

Wie erstelle ich eine dünne Matrix in PySpark?

Ich bin neu bei Spark. Ich möchte eine spärliche Matrix zu einer Benutzer-ID-Element-ID-Matrix machen, die speziell für eine Empfehlungs-Engine vorgesehen ist. Ich weiß, wie ich das in Python machen würde. Wie macht man das in PySpark? Hier ist, ...

apache-spark-ml scala apache-spark-sql

4 die antwort

Spark Scala: Konvertieren von DataFrame [vector] in DataFrame [f1: Double,…, fn: Double)]

Ich habe gerade Standard Scaler verwendet, um meine Funktionen für eine ML-Anwendung zu normalisieren. Nachdem ich die skalierten Features ausgewählt habe, möchte ich diese zurück in einen Datenrahmen mit Doppelwerten konvertieren, obwohl die ...

Seite 92 von 113

90 919293 94

Suchergebnisse für Anfrage "apache-spark"

Spark - Fehler "Eine Master-URL muss in Ihrer Konfiguration festgelegt sein" beim Senden einer App

Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?

Pyspark-String in Datumsformat konvertieren

Beliebte Schlagwörter

TOP-Veröffentlichungen

Kafka-Thema in einem Spark-Batch-Job lesen

Merge Spark gibt CSV-Dateien mit einem einzelnen Header aus

PySpark Auswertung

Boosting spark.yarn.executor.memoryOverhead

Wie gleichmäßig in Spark neu partitionieren?

Wie erstelle ich eine dünne Matrix in PySpark?

Spark Scala: Konvertieren von DataFrame [vector] in DataFrame [f1: Double,…, fn: Double)]

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark"

Beliebte Schlagwörter

TOP-Veröffentlichungen