Suchergebnisse für Anfrage "apache-spark"
Spark SQL kann das Schreiben von Parkettdaten mit einer großen Anzahl von Shards nicht abschließen.
Ich versuche, Apache Spark SQL zu verwenden, um JSON-Protokolldaten in S3 auch in Parquet-Dateien in S3 zu speichern. Mein Code ist im Grunde: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data ...
Running Spark on YARN im Garncluster-Modus: Wohin geht die Konsolenausgabe?
Ich bin dieser Seite gefolgt und habe die SparkPi-Beispielanwendung auf YARN im Garncluster-Modus ausgeführt. http: //spark.apache.org/docs/latest/running-on-yarn.htm [http://spark.apache.org/docs/latest/running-on-yarn.html] Ich sehe die ...
EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3
Amazon S3 Dateigrößenbeschränkung soll laut diesem @ 5T betragAnkündigun [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], aber ich erhalte die folgende Fehlermeldung beim Hochladen einer ...
Running Spark Scala Beispiel fehlgeschlagen
Ich bin neu bei Spark und Scala. Ich habe ein IntelliJ Scala-Projekt mit SBT erstellt und build.sbt um einige Zeilen erweitert. name := "test-one" version := "1.0" scalaVersion := "2.11.2" libraryDependencies += "org.apache.spark" % ...
Wie konvertiere ich Scala RDD in Map
Ich habe ein RDD (Array von String)org.apache.spark.rdd.RDD[String] = MappedRDD[18] und um es in eine Karte mit eindeutigen IDs umzuwandeln. Ich tat 'val vertexMAp = vertices.zipWithUniqueId 'aber das gab mir einen anderen RDD vom ...
Wie funktioniert die Partitionierung in Spark?
Ich versuche zu verstehen, wie in Apache Spark partitioniert wird. Könnt ihr bitte helfen? Hier ist das Szenario: ein Master und zwei Knoten mit je 1 Kerneine Dateicount.txt von 10 MB in der GrößeWie viele Partitionen werden von den folgenden ...
In Spark, was ist der richtige Weg, um ein statisches Objekt für alle Worker zu haben?
Ich habe mir die Dokumentation für Spark angesehen und erwähne Folgendes: ie API von @ Spark basiert in hohem Maße auf der Übergabe von Funktionen im Treiberprogramm, um auf dem Cluster ausgeführt zu werden. Es gibt zwei empfohlene ...
Accesing Hive-Tabellen in Funken
Ich habe Hive 0.13 installiert und benutzerdefinierte Datenbanken erstellt. Ich habe Funken 1.1.0 Single Node Cluster mit MVN-Hive-Option gebaut. Ich möchte in einer Spark-Anwendung mit hivecontext auf Tabellen in dieser Datenbank zugreifen. ...
Warum kann PySpark py4j.java_gateway nicht finden?
Ich habe Spark installiert, die sbt-Assembly ausgeführt und kann bin / pyspark problemlos öffnen. Es treten jedoch Probleme beim Laden des Pyspark-Moduls in ipython auf. Ich erhalte den folgenden Fehler: In [1]: import ...
Wie man den Apache Spark Executor-Speicher einstellt
Wie kann ich den verfügbaren Speicher für Apache Spark Executor-Knoten erhöhen? Ich habe eine 2-GB-Datei, die zum Laden in Apache Spark geeignet ist. Momentan läuft Apache Spark auf 1 Computer, sodass sich der Treiber und der Executor ...