Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Spark Äquivalent von IF Then ELSE

Ich habe diese Frage hier früher gesehen und daraus Lehren gezogen. Ich bin mir jedoch nicht sicher, warum ich einen Fehler erhalte, wenn ich der Meinung bin, dass er funktionieren sollte. Ich möchte eine neue Spalte in vorhandenem Spark ...

8 die antwort

Verwenden Sie das Schema, um AVRO-Nachrichten mit Spark in DataFrame @ zu konvertiere

Gibt es eine Möglichkeit, ein Schema zum Konvertieren von @ zu verwende avro [/questions/tagged/avro] Nachrichten von kafka [/questions/tagged/kafka] mitFunk [/questions/tagged/spark] zu dataframe [/questions/tagged/dataframe]? Die Schemadatei ...

2 die antwort

wie man 3 Paar RDDs kombiniert

Ich habe eine Art komplexe Anforderung 1) 1) für Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD 2) für Instagram Twitter handle , instargam_post , instagram_likes handle ...

TOP-Veröffentlichungen

2 die antwort

Spark kartesisches Produkt

Ich muss die Koordinaten vergleichen, um die Entfernung zu ermitteln. Dazu lade ich die Daten mit sc.textFile () und erstelle ein kartesisches Produkt. Es gibt ungefähr 2.000.000 Zeilen in der Textdatei, also 2.000.000 x 2.000.000 ...

2 die antwort

Spark ML Pipeline Verursacht java.lang.Exception: Fehler beim Kompilieren… Code… wächst über 64 KB hinaus

it Spark 2.0 versuche ich, einen einfachen VectorAssembler in einer Pyspark-ML-Pipeline wie folgt auszuführen: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

2 die antwort

Leistungsauswirkungen der RDD-API im Vergleich zu UDFs, die mit der DataFrame-API gemischt sind

(Scala-spezifische Frage.) n @While Spark-Dokumenten wird die Verwendung der DataFrame-API empfohlen. Wenn die DataFrame-API nicht ausreicht, können Sie normalerweise auf die RDD-API zurückgreifen oder UDFs verwenden. Gibt es inhärente ...

4 die antwort

Spark: Überwachen einer Clustermodus-Anwendung

Right now Ich verwende Spark-Submit, um eine Anwendung im Cluster-Modus zu starten. Die Antwort vom Master-Server gibt ein json-Objekt mit einer Submission-ID, mit der ich die Anwendung identifiziere und gegebenenfalls beende. Ich habe jedoch ...

6 die antwort

SparkR von Rstudio - gibt in invokeJava einen Fehler aus (isStatic = TRUE, className, methodName,…):

Ich verwende RStudio. Nach dem Erstellen einer Sitzung, wenn ich versuche, einen Datenrahmen mit R-Daten zu erstellen, tritt ein Fehler auf. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") ...

2 die antwort

Spark 2.0.0 Lesen von JSON-Daten mit variablem Schema

Ich versuche, den Website-Traffic eines Monats zu verarbeiten, der in einem S3-Bucket als json gespeichert ist (ein json-Objekt pro Zeile / Website-Traffic-Treffer). Die Datenmenge ist groß genug, dass ich Spark nicht bitten kann, das Schema ...

4 die antwort

Spark-Fehler: Erwartete Nullargumente für die Erstellung von ClassDict (für numpy.core.multiarray._reconstruct)

Ich habe einen Datenrahmen in Spark, in dem eine der Spalten ein Array enthält. Jetzt habe ich eine separate UDF geschrieben, die das Array in ein anderes Array mit unterschiedlichen Werten konvertiert. Siehe folgendes Beispiel: Ex: ...