Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Bluemix spark-submit - So sichern Sie die für mein Scala-Glas erforderlichen Anmeldeinformationen

Ich habe eine Spark-Anwendung, die ich beim Bluemix Spark-Cluster einreiche. Es liest aus einer DASHDB-Datenbank und schreibt die Ergebnisse in Cloudant. Der Code greift sowohl mit Spark als auch mit JDBC auf die DASHDB zu. Die Benutzer-ID und ...

4 die antwort

Die Verwendung von Spark zum Schreiben einer Parkettdatei in s3 über s3a ist sehr langsam

Ich versuche ein @ zu schreibparquet file out toAmazon S3 usingSpark 1.6.1. Der kleineparquet das ich generiere ist~2GB einmal geschrieben, es sind also nicht so viele Daten. Ich versuche zu beweisen,Sparkout als Plattform, die ich ...

2 die antwort

Kann ich eine RDD von einem Kafka-Thema erstellen, wenn ich den Bis-Offset nicht kenne?

...

TOP-Veröffentlichungen

4 die antwort

So übergeben Sie mehrere Anweisungen an Spark SQL HiveContext

Zum Beispiel habe ich einige Hive HQL-Anweisungen, die ich an Spark SQL übergeben möchte: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;Folgen ...

4 die antwort

Warum hält Spark SQL die Unterstützung von Indizes für unwichtig?

Zitieren der Spark-DataFrames,Datasets und SQL-Handbuch [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Eine Handvoll Hive-Optimierungen sind noch nicht in Spark enthalten. Einige davon (z. B. ...

2 die antwort

Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD

Was ist der beste Weg, um die maximale Zeile (Wert) zurückzugeben, die jedem eindeutigen Schlüssel in einer Funken-RDD zugeordnet ist? Ich benutze Python und habe es mit Math max versucht, indem ich es mit Schlüsseln und Aggregaten abbilde und ...

2 die antwort

Wie ändere ich den Spaltentyp in DataFrames von "String" in "Datum"?

Ich habe einen Datenrahmen mit zwei Spalten (C, D), die als Zeichenfolgenspaltentyp definiert sind, aber die Daten in den Spalten sind tatsächlich Datumsangaben. Spalte C hat beispielsweise das Datum "01-APR-2015" und Spalte D das Datum ...

6 die antwort

Wie ersetze ich einen String-Wert in PySpark durch einen NULL-Wert?

Ich möchte so etwas machen: df.replace('empty-value', None, 'NAME')rundsätzlich möchte ich einen Wert durch NULL ersetzen. aber es akzeptiert keine in dieser Funktion. Wie kann ich das machen

6 die antwort

Apache Spark: Unterschiede zwischen Client- und Cluster-Bereitstellungsmodus

TL; DR: Worin unterscheiden sich die Bereitstellungsmodi für Clients und Cluster in einem eigenständigen Spark-Cluster? Wie lege ich fest, in welchem Modus meine Anwendung ausgeführt werden soll? ir haben einen Spark-Standalone-Cluster mit drei ...

4 die antwort

Was entspricht der Scala-Fallklasse in PySpark?

Wie würden Sie vorgehen, um ein Fallklassenäquivalent in PySpark einzusetzen und / oder zu implementieren?