Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Voraussetzungen für die Konvertierung von Spark-Datenrahmen in Pandas / R-Datenrahmen

Ich starte Spark auf Hadoops YARN. Wie funktioniert diese Konvertierung? Findet ein collect () vor der Konvertierung statt? Auch muss ich Python und R auf jedem Slave-Knoten installieren, damit die Konvertierung funktioniert? Ich habe Mühe, ...

6 die antwort

mische mehrere kleine Dateien in ein paar größeren Dateien in Spark

Ich benutze Hive durch Spark. Ich habe eine Abfrage In partitionierte Tabelle einfügen in meinem Spark-Code. Die Eingabedaten sind in 200 + gb. Wenn Spark in eine partitionierte Tabelle schreibt, werden sehr kleine Dateien (Dateien in ...

10 die antwort

Wie definiere ich die Partitionierung von DataFrame?

Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte in Scala einen benutzerdefinierten Partitionierer für DataFrames definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, ...

TOP-Veröffentlichungen

10 die antwort

RDD mit Apache Spark @ als Textdatei schreib

Ich erkunde Spark für die Stapelverarbeitung. Ich aktiviere den Funken auf meinem lokalen Computer im Standalone-Modus. Ich versuche, das Spark-RDD mit der saveTextFile () -Methode als einzelne Datei [endgültige Ausgabe] zu konvertieren, aber ...

10 die antwort

DataFrame-Gleichheit in Apache Spark

Annehmendf1 unddf2 sind zweiDataFrames in Apache Spark, berechnet mit zwei verschiedenen Mechanismen, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es eine idiomatische Methode, um festzustellen, ob die beiden ...

10 die antwort

Speichern Spark-Datenframe als dynamisch partitionierte Tabelle in Hive

Ich habe eine Beispielanwendung, die arbeitet, um aus CSV-Dateien in einen Datenrahmen zu lesen. Der Datenrahmen kann mit der Methode @ im Parkettformat in einer Hive-Tabelle gespeichert werdedf.saveAsTable(tablename,mode). Der obige Code ...

6 die antwort

Was ist effizient, Dataframe oder RDD oder hiveql?

ch bin ein Neuling bei Apache Spar Mein Job liest zwei CSV-Dateien, wählt bestimmte Spalten aus, führt sie zusammen, aggregiert sie und schreibt das Ergebnis in eine einzelne CSV-Datei. Beispielsweise CSV1name,age,deparment_id ...

10 die antwort

Wie exportiere ich einen Tabellendatenrahmen in PySpark nach csv?

Ich verwende Spark 1.3.1 (PySpark) und habe eine Tabelle mit einer SQL-Abfrage generiert. Ich habe jetzt ein Objekt, das ein @ iDataFrame. Ich möchte dieses @ exportierDataFrame Objekt (ich habe es "Tabelle" genannt) in eine CSV-Datei, damit ich ...

8 die antwort

Wie konvertiere ich DataFrame nach Json?

Ich habe eine riesige Json-Datei, einen kleinen Teil davon wie folgt: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ...

4 die antwort

Wie kann man über Spark SQL als verteilte JDBC-Abfrage-Engine auf RDD-Tabellen zugreifen?

ei @Several Postings on Stackoverflow werden teilweise Informationen zum Zugriff auf RDD-Tabellen über Spark SQL als JDBC Distributed Query Engine angezeigt. Daher möchte ich die folgenden Fragen stellen, um vollständige Informationen dazu zu ...