Suchergebnisse für Anfrage "apache-spark"
Wie übergebe ich einen konstanten Wert an Python UDF?
Ich dachte, ob es möglich ist, ein @ zu erstellUDF das erhält zwei Argumente einColumn und eine andere Variable Object,Dictionary oder ein anderer Typ), führen Sie dann einige Operationen aus und geben Sie das Ergebnis zurück. Eigentlich habe ...
Anwenden der Funktion auf Spark Dataframe Column
Aus R kommend bin ich es gewohnt, Operationen an Spalten einfach auszuführen. Gibt es eine einfache Möglichkeit, diese Funktion zu nutzen, die ich in scala @ geschrieben hab def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...
Unerwartete Ergebnisse in Spark MapReduce
Ich bin neu bei Spark und möchte verstehen, wie MapReduce unter der Haube ausgeführt wird, um sicherzustellen, dass ich es richtig verwende.Dieser Beitra [https://stackoverflow.com/a/32520848/5880417] hat eine großartige Antwort geliefert, aber ...
create JAR for Spark
Ich folge diesemleite [https://spark.apache.org/docs/1.2.0/quick-start.html], aber ich kann Scala nicht in Spark ausführen, wenn ich versuche, die JAR mit @ zu erstelle sbt. Ich habe simple.sbt wie name := "Simple Project" version := "1.0" ...
Wie vermeide ich doppelte Spalten nach dem Join?
Ich habe zwei Datenrahmen mit den folgenden Spalten: df1.columns // Array(ts, id, X1, X2)un df2.columns // Array(ts, id, Y1, Y2)Nachdem ich val df_combined = df1.join(df2, Seq(ts,id))Ich lande mit den folgenden Spalten:Array(ts, id, X1, X2, ...
Was ist der Unterschied zwischen Spark DataSet und RDD
Ich habe immer noch Schwierigkeiten, die volle Leistungsfähigkeit der kürzlich eingeführten Spark-Datensätze zu verstehen. Gibt es bewährte Methoden für die Verwendung von RDDs und für die Verwendung von Datasets? n ...
Wie füge ich eine typsichere Konfigurationsdatei hinzu, die sich auf HDFS befindet, um einen Spark-Submit (Cluster-Modus) durchzuführen?
Ich habe eine Spark-Anwendung (Spark 1.5.2), die Daten von Kafka an HDFS überträgt. Meine Anwendung enthält zwei Typesafe-Konfigurationsdateien, um bestimmte Dinge wie Kafka-Themen usw. zu konfigurieren. Jetzt möchte ich meine Anwendung mit ...
Cache-Tabellen in Apache Spark SQL
Aus dem Spark-Beamtendokumentiere [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , es sagt it @Spark SQL können Tabellen in einem speicherinternen Spaltenformat zwischengespeichert werden, indem ...
pyspark: DataFrame in RDD konvertieren [string]
Ich würde gerne konvertierenpyspark.sql.dataframe.DataFrame zupyspark.rdd.RDD[String] Ich habe einen DataFrame konvertiertdf zu RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDdie neue RDDdata enthältRow first = data.first() type(first) ...
Random Partitioner-Verhalten auf dem verbundenen RDD
Ich versuche, zwei Datensätze zu verbinden. Eine vom Typ (Id, salesRecord) eine andere (Id, Name). Der erste Datensatz wird von HashPartitioner und der zweite von Custom Partitioner partitioniert. Wenn ich diesen RDDs nach ID beitrete ...