Suchergebnisse für Anfrage "apache-spark"
olen Sie sich mehr als 20 Zeilen und zeigen Sie den vollen Wert der Spalte in der Spark-Shell a
Ich benutzeCassandraSQLContext von Spark-Shell, um Daten von Cassandra abzufragen. Also, ich möchte zwei Dinge wissen, wie man mit @ mehr als 20 Zeilen hoCassandraSQLContext und zweitens, wie kann ich den vollen Wert der Spalte anzeigen. Wie Sie ...
Kann sqlContext.implicits._ nicht ohne Fehler über Jupyter importieren
Wenn ich versuche, das @ zu verwendimport sqlContext.implicits._ Auf meinem Jupyter-Notizbuch wird folgende Fehlermeldung angezeigt: Name: Compile Error Message: <console>:25: error: stable identifier required, but ...
Kafka-Themenpartitionen für Spark-Streaming
Ich habe einige Anwendungsfälle, die ich genauer erläutern möchte, zum Thema Kafka-Partitionierung -> Verwendung von Spark-Streaming-Ressourcen. Ich verwende den Spark-Standalone-Modus, daher sind nur die Einstellungen "Gesamtanzahl der ...
Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?
Ich versuche, das Perzentil einer Spalte in einem DataFrame zu berechnen. Ich kann keine Percentile_approx-Funktion in Spark-Aggregationsfunktionen finden. Für z.B. in Hive haben wir percentile_approx und wir können es auf folgende Weise ...
Spark unionAlle mehreren Datenrahmen
Für eine Reihe von Datenrahmen val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")Union alle ...
Rename geschwenkte und aggregierte Spalte in PySpark Dataframe
Mit einem Datenrahmen wie folgt: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", ...
Was ist eine optimierte Methode zum Verknüpfen großer Tabellen in Spark SQL
Ich muss Tabellen mit Spark SQL oder Dataframe API verbinden. Sie müssen wissen, wie dies optimiert werden kann. Szenario ist: Alle Daten sind in der Struktur im ORC-Format (Basisdatenrahmen- und Referenzdateien) vorhanden.Ich muss eine aus ...
Warum ist rdd.map (identity) .cache langsam, wenn rdd-Elemente groß sind?
Ich fand heraus, dass bei der Verwendung von.map( identity ).cache Auf einem Rdd wird es sehr langsam, wenn die Elemente groß sind. Während es sonst ziemlich augenblicklich ist. Hinweis: Dies ist wahrscheinlich im Zusammenhang mitdiese ...
SparkStreaming, RabbitMQ und MQTT in Python mit pika
Nur um es knifflig zu machen, möchte ich Nachrichten aus der rabbitMQ-Warteschlange konsumieren. Jetzt weiß ich, dass es ein Plugin für MQTT auf Rabbit gibt https: //www.rabbitmq.com/mqtt.htm [https://www.rabbitmq.com/mqtt.html]). Ich kann ...
Understanding Spark RandomForest featureImportances results
Ich benutzeRandomForest.featureImportances aber ich verstehe das Ausgabeergebnis nicht. Ich habe 12 Funktionen und dies ist die Ausgabe, die ich erhalte. Ich verstehe, dass dies möglicherweise keine Apache-Spark-spezifische Frage ist, aber ich ...