Suchergebnisse für Anfrage "apache-spark"
Finden der Gesamtanzahl der Zeilen in einer über hdfs verteilten Datei mithilfe der Befehlszeile
Ich arbeite an einem Cluster, in dem sich ein Datensatz in @ befindehdfs verteilt. Folgendes habe ich: [hmi@bdadev-5 ~]$ hadoop fs -ls /bdatest/clm/data/ Found 1840 items -rw-r--r-- 3 bda supergroup 0 2015-08-11 00:32 /bdatest/clm/data/_SUCCESS ...
Spark SQL - Escape Query String
Ich kann nicht glauben, dass ich das frage, aber ... WIE ENTSTEHT EINE SQL-ABFRAGE IN SPARK SQL MIT SCALA? ch habe alles satt und überall gesucht. Ich dachte, die Apache Commons Library würde es tun, aber kein Glück: import ...
Wie schreibe ich die resultierende RDD in eine CSV-Datei in Spark Python
Ich habe eine resultierende RDDlabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Dies hat in diesem Format ausgegeben: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Ich möchte eine CSV-Datei mit einer ...
Zufallszahlengenerierung in PySpark
Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...
Apache Spark MLlib Model File Format
Apache Spark MLlib-Algorithmen (z. B. Decision Trees) speichern das Modell an einem Ort (z. B.myModelPath) wo es zwei Verzeichnisse erstellt, nämlich.myModelPath/data undmyModelPath/metadata. In diesen Pfaden befinden sich mehrere Dateien, bei ...
Filtern eines Spark-Datenrahmens basierend auf dem Datum
Ich habe einen Datenrahmen von date, string, stringIch möchte Daten vor einem bestimmten Zeitraum auswählen. Ich habe folgendes ohne glück versucht data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) Ich erhalte ...
Bei der Erstellung einer globalen Liste aus einer Karte mit PySpark
Ich habe diesen Code, in dem ich eine Datei in @ lesipython usingpyspark. Was ich versuche, ist, ein Stück hinzuzufügen, das eine Liste basierend auf einer bestimmten aus der Datei gelesenen Spalte bildet, aber wenn ich versuche, sie auszuführen, ...
Wie konvertiere ich eine Karte in Spark's RDD
Ich habe einen Datensatz in Form von verschachtelten Karten, und sein Scala-Typ lautet: Map[String, (LabelType,Map[Int, Double])]Der ErsteString key ist ein eindeutiger Bezeichner für jede Stichprobe, und der Wert ist ein Tupel, das die ...
Wie definiere und verwende ich eine benutzerdefinierte Aggregatfunktion in Spark SQL?
Ich weiß, wie man eine UDF in Spark SQL schreibt: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Kann ich etwas Ähnliches tun, um eine Aggregatfunktion zu definieren? ...
So richten Sie Intellij 14 Scala Worksheet ein, um Spark @ auszuführ
Ich versuche, einen SparkContext in einem Intellij 14 Scala-Arbeitsblatt zu erstellen. hier sind meine Abhängigkeiten name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" // for working with Spark API libraryDependencies += ...