Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie übergebe ich einen konstanten Wert an Python UDF?

Ich dachte, ob es möglich ist, ein @ zu erstellUDF das erhält zwei Argumente einColumn und eine andere Variable Object,Dictionary oder ein anderer Typ), führen Sie dann einige Operationen aus und geben Sie das Ergebnis zurück. Eigentlich habe ...

2 die antwort

Anwenden der Funktion auf Spark Dataframe Column

Aus R kommend bin ich es gewohnt, Operationen an Spalten einfach auszuführen. Gibt es eine einfache Möglichkeit, diese Funktion zu nutzen, die ich in scala @ geschrieben hab def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...

2 die antwort

Unerwartete Ergebnisse in Spark MapReduce

Ich bin neu bei Spark und möchte verstehen, wie MapReduce unter der Haube ausgeführt wird, um sicherzustellen, dass ich es richtig verwende.Dieser Beitra [https://stackoverflow.com/a/32520848/5880417] hat eine großartige Antwort geliefert, aber ...

TOP-Veröffentlichungen

2 die antwort

create JAR for Spark

Ich folge diesemleite [https://spark.apache.org/docs/1.2.0/quick-start.html], aber ich kann Scala nicht in Spark ausführen, wenn ich versuche, die JAR mit @ zu erstelle sbt. Ich habe simple.sbt wie name := "Simple Project" version := "1.0" ...

10 die antwort

Wie vermeide ich doppelte Spalten nach dem Join?

Ich habe zwei Datenrahmen mit den folgenden Spalten: df1.columns // Array(ts, id, X1, X2)un df2.columns // Array(ts, id, Y1, Y2)Nachdem ich val df_combined = df1.join(df2, Seq(ts,id))Ich lande mit den folgenden Spalten:Array(ts, id, X1, X2, ...

2 die antwort

Was ist der Unterschied zwischen Spark DataSet und RDD

Ich habe immer noch Schwierigkeiten, die volle Leistungsfähigkeit der kürzlich eingeführten Spark-Datensätze zu verstehen. Gibt es bewährte Methoden für die Verwendung von RDDs und für die Verwendung von Datasets? n ...

4 die antwort

Wie füge ich eine typsichere Konfigurationsdatei hinzu, die sich auf HDFS befindet, um einen Spark-Submit (Cluster-Modus) durchzuführen?

Ich habe eine Spark-Anwendung (Spark 1.5.2), die Daten von Kafka an HDFS überträgt. Meine Anwendung enthält zwei Typesafe-Konfigurationsdateien, um bestimmte Dinge wie Kafka-Themen usw. zu konfigurieren. Jetzt möchte ich meine Anwendung mit ...

2 die antwort

Cache-Tabellen in Apache Spark SQL

Aus dem Spark-Beamtendokumentiere [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , es sagt it @Spark SQL können Tabellen in einem speicherinternen Spaltenformat zwischengespeichert werden, indem ...

2 die antwort

pyspark: DataFrame in RDD konvertieren [string]

Ich würde gerne konvertierenpyspark.sql.dataframe.DataFrame zupyspark.rdd.RDD[String] Ich habe einen DataFrame konvertiertdf zu RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDdie neue RDDdata enthältRow first = data.first() type(first) ...

2 die antwort

Random Partitioner-Verhalten auf dem verbundenen RDD

Ich versuche, zwei Datensätze zu verbinden. Eine vom Typ (Id, salesRecord) eine andere (Id, Name). Der erste Datensatz wird von HashPartitioner und der zweite von Custom Partitioner partitioniert. Wenn ich diesen RDDs nach ID beitrete ...