Suchergebnisse für Anfrage "apache-spark"
RDD zu LabeledPoint Konvertierung
Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...
Hive UDF für die Auswahl aller bis auf einige Spalten
Das gängige Muster für die Abfrageerstellung in HiveQL (und in SQL im Allgemeinen) besteht darin, entweder alle Spalten auszuwählen SELECT *) oder ein explizit angegebener Satz von Spalten SELECT A, B, C). In SQL ist kein Mechanismus zum ...
Was ist die Planungsverzögerung in der Ereigniszeitleiste der Spark-Benutzeroberfläche?
Ich verwende die YARN-Umgebung, um Spark-Programme mit der Option @ auszuführe--master yarn-cluster. Wenn ich den Anwendungsmaster einer Funkenanwendung öffne, habe ich eine Menge von @ geseheScheduler Delay in einer Phase. Einige von ihnen sind ...
Spark - repartition () vs coalesce ()
Nach Learning Spark Beachten Sie, dass das Neupartitionieren Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition () namens coalesce (), mit der das Verschieben von Daten vermieden werden kann, ...
Fehler: nicht gefunden: Wert sc
Ich bin neu in Scala und versuche, eine Datei mit folgendem Code zu lesen scala> val textFile = sc.textFile("README.md") scala> textFile.count()Aber ich bekomme immer den folgenden Fehler error: not found: value scIch habe alles versucht, aber ...
Process Spark Streaming rdd und Speichern in eine einzelne HDFS-Datei
Ich verwende Kafka Spark Streaming, um Streaming-Daten abzurufen. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Ich benutze diesen DStream und verarbeite ...
Apache Spark benötigt 5 bis 6 Minuten für die einfache Zählung von 1 Billon Zeilen von Cassandra
Ich verwende den Spark Cassandra-Anschluss. Das Abrufen von Daten von der Cassandra-Tabelle dauert 5-6 Minuten. In Spark habe ich viele Aufgaben und Executor im Log gesehen. Der Grund könnte sein, dass Spark den Prozess in viele Aufgaben ...
SPARK SQL-Ersatz für mysql GROUP_CONCAT-Aggregatfunktion
Ich habe eine Tabelle mit zwei Spalten vom Typ "Zeichenfolge" (Benutzername, Freund). Für jeden Benutzernamen möchte ich alle Freunde in einer Zeile zusammenfassen, die als Zeichenfolgen verkettet sind ("Benutzername1", "Freunde1", "Freunde2", ...
Wie man eine neue Struct-Spalte zu einem DataFrame hinzufügt
Ich versuche derzeit, eine Datenbank aus MongoDB zu extrahieren und mit Spark mit @ in ElasticSearch zu importieregeo_points. Die Mongo-Datenbank enthält Breiten- und Längengrade, bei ElasticSearch müssen diese jedoch in das @ -Zeichen ...
Spark mllib sagt seltsame Zahl oder NaN voraus
Ich bin neu in Apache Spark und versuche, mithilfe der maschinellen Lernbibliothek einige Daten vorherzusagen. Mein Datensatz im Moment ist nur etwa 350 Punkte. Hier sind 7 dieser Punkte: "365","4",41401.387,5330569 ...