Suchergebnisse für Anfrage "apache-spark"
RDD mit Apache Spark @ als Textdatei schreib
Ich erkunde Spark für die Stapelverarbeitung. Ich aktiviere den Funken auf meinem lokalen Computer im Standalone-Modus. Ich versuche, das Spark-RDD mit der saveTextFile () -Methode als einzelne Datei [endgültige Ausgabe] zu konvertieren, aber ...
Stoppen Sie den Streaming-Kontext im Spark-Streaming nach einem bestimmten Zeitraum.
enn Sie eine Anwendung erstellen, die DStreams von Twitter empfängt, können Sie den Streaming-Kontext nur stoppen, indem Sie die Ausführung anhalten. Ich frage mich, ob es eine Möglichkeit gibt, eine Uhrzeit festzulegen und den Streaming-Socket ...
Spark MlLib lineare Regression (lineare kleinste Quadrate) mit zufälligen Ergebnissen
Im neu in Funken und Maschinelles Lernen im Allgemeinen. Ich habe einige der Mllib-Tutorials mit Erfolg verfolgt. Ich kann dieses Tutorial nicht zum Laufen bringen: Ich habe den Beispielcode hier ...
Warum Apache Spark die Filter auf dem Client durchführt
Neuling bei Apache Spark, Probleme beim Abrufen von Cassandra-Daten bei Spark. List<String> dates = Arrays.asList("2015-01-21","2015-01-22"); CassandraJavaRDD<A> aRDD = CassandraJavaUtil.javaFunctions(sc). cassandraTable("testing", ...
Wie füge ich eine Zeilennummer in jede Zeile ein?
Angenommen, dies sind meine Daten: ‘Maps‘ and ‘Reduces‘ are two phases of solving a query in HDFS. ‘Map’ is responsible to read data from input location. it will generate a key value pair. that is, an intermediate output in local machine. ...
DataFrame-Gleichheit in Apache Spark
Annehmendf1 unddf2 sind zweiDataFrames in Apache Spark, berechnet mit zwei verschiedenen Mechanismen, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es eine idiomatische Methode, um festzustellen, ob die beiden ...
Wird der Funke automatisch einige Ergebnisse zwischenspeichern?
Ich führe eine Aktion zweimal aus und das zweite Mal dauert sehr kurz. Ich vermute, dass der Funke einige Ergebnisse automatisch zwischenspeichert. Aber ich habe keine Quelle gefunden. Im using Spark1.4. doc = sc.textFile('...') doc_wc = ...
Installation von SparkR
Ich habe die letzte Version von R - 3.2.1. Jetzt möchte ich SparkR auf R installieren. Nachdem ich ausgeführt habe: > install.packages("SparkR")Ich bin zurückgekommen Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ...
PySpark - Zeitüberschneidung für Objekt in RDD
Mein Ziel ist es, Objekte nach Zeitüberschneidungen zu gruppieren. Jedes Objekt in meinemrdd enthält einstart_time undend_time. Ich gehe das wahrscheinlich ineffizient an, aber ich plane, jedem Objekt eine Überlappungs-ID zuzuweisen, basierend ...
Was bedeutet "Streaming" in Apache Spark und Apache Flink?
ls ich zu @ giApache Spark Streaming [https://spark.apache.org/streaming/] Website, ich habe einen Satz gesehen: Spark Streaming erleichtert das Erstellen skalierbarer fehlertoleranter Streaming-Anwendungen. Und inApache Flink ...