Suchergebnisse für Anfrage "apache-spark"
Spark Äquivalent von IF Then ELSE
Ich habe diese Frage hier früher gesehen und daraus Lehren gezogen. Ich bin mir jedoch nicht sicher, warum ich einen Fehler erhalte, wenn ich der Meinung bin, dass er funktionieren sollte. Ich möchte eine neue Spalte in vorhandenem Spark ...
Verwenden Sie das Schema, um AVRO-Nachrichten mit Spark in DataFrame @ zu konvertiere
Gibt es eine Möglichkeit, ein Schema zum Konvertieren von @ zu verwende avro [/questions/tagged/avro] Nachrichten von kafka [/questions/tagged/kafka] mitFunk [/questions/tagged/spark] zu dataframe [/questions/tagged/dataframe]? Die Schemadatei ...
wie man 3 Paar RDDs kombiniert
Ich habe eine Art komplexe Anforderung 1) 1) für Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD 2) für Instagram Twitter handle , instargam_post , instagram_likes handle ...
Spark kartesisches Produkt
Ich muss die Koordinaten vergleichen, um die Entfernung zu ermitteln. Dazu lade ich die Daten mit sc.textFile () und erstelle ein kartesisches Produkt. Es gibt ungefähr 2.000.000 Zeilen in der Textdatei, also 2.000.000 x 2.000.000 ...
Spark ML Pipeline Verursacht java.lang.Exception: Fehler beim Kompilieren… Code… wächst über 64 KB hinaus
it Spark 2.0 versuche ich, einen einfachen VectorAssembler in einer Pyspark-ML-Pipeline wie folgt auszuführen: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...
Leistungsauswirkungen der RDD-API im Vergleich zu UDFs, die mit der DataFrame-API gemischt sind
(Scala-spezifische Frage.) n @While Spark-Dokumenten wird die Verwendung der DataFrame-API empfohlen. Wenn die DataFrame-API nicht ausreicht, können Sie normalerweise auf die RDD-API zurückgreifen oder UDFs verwenden. Gibt es inhärente ...
Spark: Überwachen einer Clustermodus-Anwendung
Right now Ich verwende Spark-Submit, um eine Anwendung im Cluster-Modus zu starten. Die Antwort vom Master-Server gibt ein json-Objekt mit einer Submission-ID, mit der ich die Anwendung identifiziere und gegebenenfalls beende. Ich habe jedoch ...
SparkR von Rstudio - gibt in invokeJava einen Fehler aus (isStatic = TRUE, className, methodName,…):
Ich verwende RStudio. Nach dem Erstellen einer Sitzung, wenn ich versuche, einen Datenrahmen mit R-Daten zu erstellen, tritt ein Fehler auf. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") ...
Spark 2.0.0 Lesen von JSON-Daten mit variablem Schema
Ich versuche, den Website-Traffic eines Monats zu verarbeiten, der in einem S3-Bucket als json gespeichert ist (ein json-Objekt pro Zeile / Website-Traffic-Treffer). Die Datenmenge ist groß genug, dass ich Spark nicht bitten kann, das Schema ...
Spark-Fehler: Erwartete Nullargumente für die Erstellung von ClassDict (für numpy.core.multiarray._reconstruct)
Ich habe einen Datenrahmen in Spark, in dem eine der Spalten ein Array enthält. Jetzt habe ich eine separate UDF geschrieben, die das Array in ein anderes Array mit unterschiedlichen Werten konvertiert. Siehe folgendes Beispiel: Ex: ...