Suchergebnisse für Anfrage "apache-spark"

4 die antwort

ei Amazon EMR 4.0.0 ist die Einstellung /etc/spark/conf/spark-env.conf unwirksa

Ich starte meinen funkenbasierten Hiveserver2 auf Amazon EMR, der eine zusätzliche Klassenpfadabhängigkeit aufweist. Aufgrund dieses Fehlers in ...

2 die antwort

Warum führt die Verwendung einer UDF in einer SQL-Abfrage zu einem kartesischen Produkt?

Ich sah Databricks-Frage [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] und verstehe nicht Warum führt die Verwendung von UDFs zu einem kartesischen Produkt anstelle einer vollständigen ...

12 die antwort

Lesen von csv-Dateien in Zeppelin mit spark-csv

Ich möchte CSV-Dateien in Zeppelin lesen und möchte das Spark-CSV-Paket von Databricks verwenden:https: //github.com/databricks/spark-cs [https://github.com/databricks/spark-csv] In der Spark-Shell kann ich Spark-CSV mit @ verwend spark-shell ...

TOP-Veröffentlichungen

8 die antwort

Wie teile ich eine RDD in zwei oder mehr RDDs auf?

Ich suche nach einer Möglichkeit, eine RDD in zwei oder mehr RDDs aufzuteilen. Das nächste, das ich gesehen habe, istScala Spark: Sammlung in mehrere ...

2 die antwort

Spark partitionBy viel langsamer als ohne

Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...

4 die antwort

Flattening Rows in Spark

Ich teste mit Scala auf Funken. Wir lesen normalerweise JSON-Dateien, die wie im folgenden Beispiel bearbeitet werden müssen: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Wie kann ich es in das folgende Format ...

2 die antwort

Spark Streaming auf EC2: Ausnahme im Thread "main" java.lang.ExceptionInInitializerError

Ich versuche, spark-submit für eine von mir erstellte JAR-Datei auszuführen. Wenn ich es lokal auf meinem Computer ausführe, funktioniert es ordnungsgemäß, aber wenn es auf Amazon EC2 bereitgestellt wird, wird der folgende ...

2 die antwort

Spark NullPointerException mit saveAsTextFile

Ich erhalte eine NPE, wenn ich versuche, eine RDD zusammenzuführen und zu speichern. Code arbeitet lokal,un funktioniert auf dem Cluster in der Scala-Shell, löst jedoch den Fehler aus, wenn es als Job an den Cluster gesendet wird. Ich habe ...

6 die antwort

SQL-Datei in Spark mit Python ausführen

from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName("Test").set("spark.driver.memory", "1g") sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) results ...

6 die antwort

Map kann in Scala nicht serialisiert werden?

Ich bin neu in Scala. Wie kommt es, dass die "Map" -Funktion nicht serialisierbar ist? Wie kann man es serialisierbar machen? Zum Beispiel, wenn mein Code wie folgt lautet: val data = sc.parallelize(List(1,4,3,5,2,3,5)) def myfunc(iter: ...