Suchergebnisse für Anfrage "apache-spark"
ei Amazon EMR 4.0.0 ist die Einstellung /etc/spark/conf/spark-env.conf unwirksa
Ich starte meinen funkenbasierten Hiveserver2 auf Amazon EMR, der eine zusätzliche Klassenpfadabhängigkeit aufweist. Aufgrund dieses Fehlers in ...
Warum führt die Verwendung einer UDF in einer SQL-Abfrage zu einem kartesischen Produkt?
Ich sah Databricks-Frage [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] und verstehe nicht Warum führt die Verwendung von UDFs zu einem kartesischen Produkt anstelle einer vollständigen ...
Lesen von csv-Dateien in Zeppelin mit spark-csv
Ich möchte CSV-Dateien in Zeppelin lesen und möchte das Spark-CSV-Paket von Databricks verwenden:https: //github.com/databricks/spark-cs [https://github.com/databricks/spark-csv] In der Spark-Shell kann ich Spark-CSV mit @ verwend spark-shell ...
Wie teile ich eine RDD in zwei oder mehr RDDs auf?
Ich suche nach einer Möglichkeit, eine RDD in zwei oder mehr RDDs aufzuteilen. Das nächste, das ich gesehen habe, istScala Spark: Sammlung in mehrere ...
Spark partitionBy viel langsamer als ohne
Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...
Flattening Rows in Spark
Ich teste mit Scala auf Funken. Wir lesen normalerweise JSON-Dateien, die wie im folgenden Beispiel bearbeitet werden müssen: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Wie kann ich es in das folgende Format ...
Spark Streaming auf EC2: Ausnahme im Thread "main" java.lang.ExceptionInInitializerError
Ich versuche, spark-submit für eine von mir erstellte JAR-Datei auszuführen. Wenn ich es lokal auf meinem Computer ausführe, funktioniert es ordnungsgemäß, aber wenn es auf Amazon EC2 bereitgestellt wird, wird der folgende ...
Spark NullPointerException mit saveAsTextFile
Ich erhalte eine NPE, wenn ich versuche, eine RDD zusammenzuführen und zu speichern. Code arbeitet lokal,un funktioniert auf dem Cluster in der Scala-Shell, löst jedoch den Fehler aus, wenn es als Job an den Cluster gesendet wird. Ich habe ...
SQL-Datei in Spark mit Python ausführen
from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName("Test").set("spark.driver.memory", "1g") sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) results ...
Map kann in Scala nicht serialisiert werden?
Ich bin neu in Scala. Wie kommt es, dass die "Map" -Funktion nicht serialisierbar ist? Wie kann man es serialisierbar machen? Zum Beispiel, wenn mein Code wie folgt lautet: val data = sc.parallelize(List(1,4,3,5,2,3,5)) def myfunc(iter: ...