Suchergebnisse für Anfrage "apache-spark"

1 die antwort

Spark SQL kann das Schreiben von Parkettdaten mit einer großen Anzahl von Shards nicht abschließen.

Ich versuche, Apache Spark SQL zu verwenden, um JSON-Protokolldaten in S3 auch in Parquet-Dateien in S3 zu speichern. Mein Code ist im Grunde: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data ...

1 die antwort

Running Spark on YARN im Garncluster-Modus: Wohin geht die Konsolenausgabe?

Ich bin dieser Seite gefolgt und habe die SparkPi-Beispielanwendung auf YARN im Garncluster-Modus ausgeführt. http: //spark.apache.org/docs/latest/running-on-yarn.htm [http://spark.apache.org/docs/latest/running-on-yarn.html] Ich sehe die ...

2 die antwort

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3

Amazon S3 Dateigrößenbeschränkung soll laut diesem @ 5T betragAnkündigun [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], aber ich erhalte die folgende Fehlermeldung beim Hochladen einer ...

TOP-Veröffentlichungen

4 die antwort

Running Spark Scala Beispiel fehlgeschlagen

Ich bin neu bei Spark und Scala. Ich habe ein IntelliJ Scala-Projekt mit SBT erstellt und build.sbt um einige Zeilen erweitert. name := "test-one" version := "1.0" scalaVersion := "2.11.2" libraryDependencies += "org.apache.spark" % ...

3 die antwort

Wie konvertiere ich Scala RDD in Map

Ich habe ein RDD (Array von String)org.apache.spark.rdd.RDD[String] = MappedRDD[18] und um es in eine Karte mit eindeutigen IDs umzuwandeln. Ich tat 'val vertexMAp = vertices.zipWithUniqueId 'aber das gab mir einen anderen RDD vom ...

1 die antwort

Wie funktioniert die Partitionierung in Spark?

Ich versuche zu verstehen, wie in Apache Spark partitioniert wird. Könnt ihr bitte helfen? Hier ist das Szenario: ein Master und zwei Knoten mit je 1 Kerneine Dateicount.txt von 10 MB in der GrößeWie viele Partitionen werden von den folgenden ...

1 die antwort

In Spark, was ist der richtige Weg, um ein statisches Objekt für alle Worker zu haben?

Ich habe mir die Dokumentation für Spark angesehen und erwähne Folgendes: ie API von @ Spark basiert in hohem Maße auf der Übergabe von Funktionen im Treiberprogramm, um auf dem Cluster ausgeführt zu werden. Es gibt zwei empfohlene ...

1 die antwort

Accesing Hive-Tabellen in Funken

Ich habe Hive 0.13 installiert und benutzerdefinierte Datenbanken erstellt. Ich habe Funken 1.1.0 Single Node Cluster mit MVN-Hive-Option gebaut. Ich möchte in einer Spark-Anwendung mit hivecontext auf Tabellen in dieser Datenbank zugreifen. ...

5 die antwort

Warum kann PySpark py4j.java_gateway nicht finden?

Ich habe Spark installiert, die sbt-Assembly ausgeführt und kann bin / pyspark problemlos öffnen. Es treten jedoch Probleme beim Laden des Pyspark-Moduls in ipython auf. Ich erhalte den folgenden Fehler: In [1]: import ...

8 die antwort

Wie man den Apache Spark Executor-Speicher einstellt

Wie kann ich den verfügbaren Speicher für Apache Spark Executor-Knoten erhöhen? Ich habe eine 2-GB-Datei, die zum Laden in Apache Spark geeignet ist. Momentan läuft Apache Spark auf 1 Computer, sodass sich der Treiber und der Executor ...