Suchergebnisse für Anfrage "apache-spark"

4 die antwort

olen Sie sich mehr als 20 Zeilen und zeigen Sie den vollen Wert der Spalte in der Spark-Shell a

Ich benutzeCassandraSQLContext von Spark-Shell, um Daten von Cassandra abzufragen. Also, ich möchte zwei Dinge wissen, wie man mit @ mehr als 20 Zeilen hoCassandraSQLContext und zweitens, wie kann ich den vollen Wert der Spalte anzeigen. Wie Sie ...

4 die antwort

Kann sqlContext.implicits._ nicht ohne Fehler über Jupyter importieren

Wenn ich versuche, das @ zu verwendimport sqlContext.implicits._ Auf meinem Jupyter-Notizbuch wird folgende Fehlermeldung angezeigt: Name: Compile Error Message: <console>:25: error: stable identifier required, but ...

2 die antwort

Kafka-Themenpartitionen für Spark-Streaming

Ich habe einige Anwendungsfälle, die ich genauer erläutern möchte, zum Thema Kafka-Partitionierung -> Verwendung von Spark-Streaming-Ressourcen. Ich verwende den Spark-Standalone-Modus, daher sind nur die Einstellungen "Gesamtanzahl der ...

TOP-Veröffentlichungen

4 die antwort

Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?

Ich versuche, das Perzentil einer Spalte in einem DataFrame zu berechnen. Ich kann keine Percentile_approx-Funktion in Spark-Aggregationsfunktionen finden. Für z.B. in Hive haben wir percentile_approx und wir können es auf folgende Weise ...

4 die antwort

Spark unionAlle mehreren Datenrahmen

Für eine Reihe von Datenrahmen val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")Union alle ...

8 die antwort

Rename geschwenkte und aggregierte Spalte in PySpark Dataframe

Mit einem Datenrahmen wie folgt: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", ...

4 die antwort

Was ist eine optimierte Methode zum Verknüpfen großer Tabellen in Spark SQL

Ich muss Tabellen mit Spark SQL oder Dataframe API verbinden. Sie müssen wissen, wie dies optimiert werden kann. Szenario ist: Alle Daten sind in der Struktur im ORC-Format (Basisdatenrahmen- und Referenzdateien) vorhanden.Ich muss eine aus ...

2 die antwort

Warum ist rdd.map (identity) .cache langsam, wenn rdd-Elemente groß sind?

Ich fand heraus, dass bei der Verwendung von.map( identity ).cache Auf einem Rdd wird es sehr langsam, wenn die Elemente groß sind. Während es sonst ziemlich augenblicklich ist. Hinweis: Dies ist wahrscheinlich im Zusammenhang mitdiese ...

4 die antwort

SparkStreaming, RabbitMQ und MQTT in Python mit pika

Nur um es knifflig zu machen, möchte ich Nachrichten aus der rabbitMQ-Warteschlange konsumieren. Jetzt weiß ich, dass es ein Plugin für MQTT auf Rabbit gibt https: //www.rabbitmq.com/mqtt.htm [https://www.rabbitmq.com/mqtt.html]). Ich kann ...

4 die antwort

Understanding Spark RandomForest featureImportances results

Ich benutzeRandomForest.featureImportances aber ich verstehe das Ausgabeergebnis nicht. Ich habe 12 Funktionen und dies ist die Ausgabe, die ich erhalte. Ich verstehe, dass dies möglicherweise keine Apache-Spark-spezifische Frage ist, aber ich ...