Suchergebnisse für Anfrage "apache-spark"

12 die antwort

Finden der Gesamtanzahl der Zeilen in einer über hdfs verteilten Datei mithilfe der Befehlszeile

Ich arbeite an einem Cluster, in dem sich ein Datensatz in @ befindehdfs verteilt. Folgendes habe ich: [hmi@bdadev-5 ~]$ hadoop fs -ls /bdatest/clm/data/ Found 1840 items -rw-r--r-- 3 bda supergroup 0 2015-08-11 00:32 /bdatest/clm/data/_SUCCESS ...

4 die antwort

Spark SQL - Escape Query String

Ich kann nicht glauben, dass ich das frage, aber ... WIE ENTSTEHT EINE SQL-ABFRAGE IN SPARK SQL MIT SCALA? ch habe alles satt und überall gesucht. Ich dachte, die Apache Commons Library würde es tun, aber kein Glück: import ...

6 die antwort

Wie schreibe ich die resultierende RDD in eine CSV-Datei in Spark Python

Ich habe eine resultierende RDDlabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Dies hat in diesem Format ausgegeben: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Ich möchte eine CSV-Datei mit einer ...

TOP-Veröffentlichungen

4 die antwort

Zufallszahlengenerierung in PySpark

Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...

2 die antwort

Apache Spark MLlib Model File Format

Apache Spark MLlib-Algorithmen (z. B. Decision Trees) speichern das Modell an einem Ort (z. B.myModelPath) wo es zwei Verzeichnisse erstellt, nämlich.myModelPath/data undmyModelPath/metadata. In diesen Pfaden befinden sich mehrere Dateien, bei ...

6 die antwort

Filtern eines Spark-Datenrahmens basierend auf dem Datum

Ich habe einen Datenrahmen von date, string, stringIch möchte Daten vor einem bestimmten Zeitraum auswählen. Ich habe folgendes ohne glück versucht data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) Ich erhalte ...

2 die antwort

Bei der Erstellung einer globalen Liste aus einer Karte mit PySpark

Ich habe diesen Code, in dem ich eine Datei in @ lesipython usingpyspark. Was ich versuche, ist, ein Stück hinzuzufügen, das eine Liste basierend auf einer bestimmten aus der Datei gelesenen Spalte bildet, aber wenn ich versuche, sie auszuführen, ...

4 die antwort

Wie konvertiere ich eine Karte in Spark's RDD

Ich habe einen Datensatz in Form von verschachtelten Karten, und sein Scala-Typ lautet: Map[String, (LabelType,Map[Int, Double])]Der ErsteString key ist ein eindeutiger Bezeichner für jede Stichprobe, und der Wert ist ein Tupel, das die ...

2 die antwort

Wie definiere und verwende ich eine benutzerdefinierte Aggregatfunktion in Spark SQL?

Ich weiß, wie man eine UDF in Spark SQL schreibt: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Kann ich etwas Ähnliches tun, um eine Aggregatfunktion zu definieren? ...

12 die antwort

So richten Sie Intellij 14 Scala Worksheet ein, um Spark @ auszuführ

Ich versuche, einen SparkContext in einem Intellij 14 Scala-Arbeitsblatt zu erstellen. hier sind meine Abhängigkeiten name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" // for working with Spark API libraryDependencies += ...