Suchergebnisse für Anfrage "apache-spark"

Wenn ich eine RDD mit etwa 500 Spalten und 200 Millionen Zeilen habe undRDD.columns.indexOf("target", 0) zeigt anInt = 77 gibt an, dass sich meine abhängige Zielvariable unter der Spaltennummer 77 befindet. Ich habe jedoch nicht genügend ...

udf hive apache-spark-sql hiveql

2 die antwort

Hive UDF für die Auswahl aller bis auf einige Spalten

Das gängige Muster für die Abfrageerstellung in HiveQL (und in SQL im Allgemeinen) besteht darin, entweder alle Spalten auszuwählen SELECT *) oder ein explizit angegebener Satz von Spalten SELECT A, B, C). In SQL ist kein Mechanismus zum ...

4 die antwort

Was ist die Planungsverzögerung in der Ereigniszeitleiste der Spark-Benutzeroberfläche?

Ich verwende die YARN-Umgebung, um Spark-Programme mit der Option @ auszuführe--master yarn-cluster. Wenn ich den Anwendungsmaster einer Funkenanwendung öffne, habe ich eine Menge von @ geseheScheduler Delay in einer Phase. Einige von ihnen sind ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

rdd distributed-computing

18 die antwort

Spark - repartition () vs coalesce ()

Nach Learning Spark Beachten Sie, dass das Neupartitionieren Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition () namens coalesce (), mit der das Verschieben von Daten vermieden werden kann, ...

scala

2 die antwort

Fehler: nicht gefunden: Wert sc

Ich bin neu in Scala und versuche, eine Datei mit folgendem Code zu lesen scala> val textFile = sc.textFile("README.md") scala> textFile.count()Aber ich bekomme immer den folgenden Fehler error: not found: value scIch habe alles versucht, aber ...

hive spark-streaming hdfs

4 die antwort

Process Spark Streaming rdd und Speichern in eine einzelne HDFS-Datei

Ich verwende Kafka Spark Streaming, um Streaming-Daten abzurufen. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Ich benutze diesen DStream und verarbeite ...

java spark-cassandra-connector cassandra

4 die antwort

Apache Spark benötigt 5 bis 6 Minuten für die einfache Zählung von 1 Billon Zeilen von Cassandra

Ich verwende den Spark Cassandra-Anschluss. Das Abrufen von Daten von der Cassandra-Tabelle dauert 5-6 Minuten. In Spark habe ich viele Aufgaben und Executor im Log gesehen. Der Grund könnte sein, dass Spark den Prozess in viele Aufgaben ...

aggregate-functions apache-spark-sql

10 die antwort

SPARK SQL-Ersatz für mysql GROUP_CONCAT-Aggregatfunktion

Ich habe eine Tabelle mit zwei Spalten vom Typ "Zeichenfolge" (Benutzername, Freund). Für jeden Benutzernamen möchte ich alle Freunde in einer Zeile zusammenfassen, die als Zeichenfolgen verkettet sind ("Benutzername1", "Freunde1", "Freunde2", ...

apache-spark-sql etl elasticsearch scala

4 die antwort

Wie man eine neue Struct-Spalte zu einem DataFrame hinzufügt

Ich versuche derzeit, eine Datenbank aus MongoDB zu extrahieren und mit Spark mit @ in ElasticSearch zu importieregeo_points. Die Mongo-Datenbank enthält Breiten- und Längengrade, bei ElasticSearch müssen diese jedoch in das @ -Zeichen ...

gradient-descent python pyspark apache-spark-mllib

2 die antwort

Spark mllib sagt seltsame Zahl oder NaN voraus

Ich bin neu in Apache Spark und versuche, mithilfe der maschinellen Lernbibliothek einige Daten vorherzusagen. Mein Datensatz im Moment ist nur etwa 350 Punkte. Hier sind 7 dieser Punkte: "365","4",41401.387,5330569 ...

Seite 38 von 113

36 373839 40

Suchergebnisse für Anfrage "apache-spark"

RDD zu LabeledPoint Konvertierung

Hive UDF für die Auswahl aller bis auf einige Spalten

Was ist die Planungsverzögerung in der Ereigniszeitleiste der Spark-Benutzeroberfläche?

Beliebte Schlagwörter

TOP-Veröffentlichungen

Spark - repartition () vs coalesce ()

Fehler: nicht gefunden: Wert sc

Process Spark Streaming rdd und Speichern in eine einzelne HDFS-Datei

Apache Spark benötigt 5 bis 6 Minuten für die einfache Zählung von 1 Billon Zeilen von Cassandra

SPARK SQL-Ersatz für mysql GROUP_CONCAT-Aggregatfunktion

Wie man eine neue Struct-Spalte zu einem DataFrame hinzufügt

Spark mllib sagt seltsame Zahl oder NaN voraus

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark"

Beliebte Schlagwörter

TOP-Veröffentlichungen