Suchergebnisse für Anfrage "apache-spark"

2 die antwort

RDD zu LabeledPoint Konvertierung

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

2 die antwort

Hive UDF für die Auswahl aller bis auf einige Spalten

Das gängige Muster für die Abfrageerstellung in HiveQL (und in SQL im Allgemeinen) besteht darin, entweder alle Spalten auszuwählen SELECT *) oder ein explizit angegebener Satz von Spalten SELECT A, B, C). In SQL ist kein Mechanismus zum ...

4 die antwort

Was ist die Planungsverzögerung in der Ereigniszeitleiste der Spark-Benutzeroberfläche?

Ich verwende die YARN-Umgebung, um Spark-Programme mit der Option @ auszuführe--master yarn-cluster. Wenn ich den Anwendungsmaster einer Funkenanwendung öffne, habe ich eine Menge von @ geseheScheduler Delay in einer Phase. Einige von ihnen sind ...

TOP-Veröffentlichungen

18 die antwort

Spark - repartition () vs coalesce ()

Nach Learning Spark Beachten Sie, dass das Neupartitionieren Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition () namens coalesce (), mit der das Verschieben von Daten vermieden werden kann, ...

2 die antwort

Fehler: nicht gefunden: Wert sc

Ich bin neu in Scala und versuche, eine Datei mit folgendem Code zu lesen scala> val textFile = sc.textFile("README.md") scala> textFile.count()Aber ich bekomme immer den folgenden Fehler error: not found: value scIch habe alles versucht, aber ...

4 die antwort

Process Spark Streaming rdd und Speichern in eine einzelne HDFS-Datei

Ich verwende Kafka Spark Streaming, um Streaming-Daten abzurufen. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Ich benutze diesen DStream und verarbeite ...

4 die antwort

Apache Spark benötigt 5 bis 6 Minuten für die einfache Zählung von 1 Billon Zeilen von Cassandra

Ich verwende den Spark Cassandra-Anschluss. Das Abrufen von Daten von der Cassandra-Tabelle dauert 5-6 Minuten. In Spark habe ich viele Aufgaben und Executor im Log gesehen. Der Grund könnte sein, dass Spark den Prozess in viele Aufgaben ...

10 die antwort

SPARK SQL-Ersatz für mysql GROUP_CONCAT-Aggregatfunktion

Ich habe eine Tabelle mit zwei Spalten vom Typ "Zeichenfolge" (Benutzername, Freund). Für jeden Benutzernamen möchte ich alle Freunde in einer Zeile zusammenfassen, die als Zeichenfolgen verkettet sind ("Benutzername1", "Freunde1", "Freunde2", ...

4 die antwort

Wie man eine neue Struct-Spalte zu einem DataFrame hinzufügt

Ich versuche derzeit, eine Datenbank aus MongoDB zu extrahieren und mit Spark mit @ in ElasticSearch zu importieregeo_points. Die Mongo-Datenbank enthält Breiten- und Längengrade, bei ElasticSearch müssen diese jedoch in das @ -Zeichen ...

2 die antwort

Spark mllib sagt seltsame Zahl oder NaN voraus

Ich bin neu in Apache Spark und versuche, mithilfe der maschinellen Lernbibliothek einige Daten vorherzusagen. Mein Datensatz im Moment ist nur etwa 350 Punkte. Hier sind 7 dieser Punkte: "365","4",41401.387,5330569 ...