Suchergebnisse für Anfrage "apache-spark-sql"
Voraussetzungen für die Konvertierung von Spark-Datenrahmen in Pandas / R-Datenrahmen
Ich starte Spark auf Hadoops YARN. Wie funktioniert diese Konvertierung? Findet ein collect () vor der Konvertierung statt? Auch muss ich Python und R auf jedem Slave-Knoten installieren, damit die Konvertierung funktioniert? Ich habe Mühe, ...
mische mehrere kleine Dateien in ein paar größeren Dateien in Spark
Ich benutze Hive durch Spark. Ich habe eine Abfrage In partitionierte Tabelle einfügen in meinem Spark-Code. Die Eingabedaten sind in 200 + gb. Wenn Spark in eine partitionierte Tabelle schreibt, werden sehr kleine Dateien (Dateien in ...
Wie definiere ich die Partitionierung von DataFrame?
Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte in Scala einen benutzerdefinierten Partitionierer für DataFrames definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, ...
RDD mit Apache Spark @ als Textdatei schreib
Ich erkunde Spark für die Stapelverarbeitung. Ich aktiviere den Funken auf meinem lokalen Computer im Standalone-Modus. Ich versuche, das Spark-RDD mit der saveTextFile () -Methode als einzelne Datei [endgültige Ausgabe] zu konvertieren, aber ...
DataFrame-Gleichheit in Apache Spark
Annehmendf1 unddf2 sind zweiDataFrames in Apache Spark, berechnet mit zwei verschiedenen Mechanismen, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es eine idiomatische Methode, um festzustellen, ob die beiden ...
Speichern Spark-Datenframe als dynamisch partitionierte Tabelle in Hive
Ich habe eine Beispielanwendung, die arbeitet, um aus CSV-Dateien in einen Datenrahmen zu lesen. Der Datenrahmen kann mit der Methode @ im Parkettformat in einer Hive-Tabelle gespeichert werdedf.saveAsTable(tablename,mode). Der obige Code ...
Was ist effizient, Dataframe oder RDD oder hiveql?
ch bin ein Neuling bei Apache Spar Mein Job liest zwei CSV-Dateien, wählt bestimmte Spalten aus, führt sie zusammen, aggregiert sie und schreibt das Ergebnis in eine einzelne CSV-Datei. Beispielsweise CSV1name,age,deparment_id ...
Wie exportiere ich einen Tabellendatenrahmen in PySpark nach csv?
Ich verwende Spark 1.3.1 (PySpark) und habe eine Tabelle mit einer SQL-Abfrage generiert. Ich habe jetzt ein Objekt, das ein @ iDataFrame. Ich möchte dieses @ exportierDataFrame Objekt (ich habe es "Tabelle" genannt) in eine CSV-Datei, damit ich ...
Wie konvertiere ich DataFrame nach Json?
Ich habe eine riesige Json-Datei, einen kleinen Teil davon wie folgt: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ...
Wie kann man über Spark SQL als verteilte JDBC-Abfrage-Engine auf RDD-Tabellen zugreifen?
ei @Several Postings on Stackoverflow werden teilweise Informationen zum Zugriff auf RDD-Tabellen über Spark SQL als JDBC Distributed Query Engine angezeigt. Daher möchte ich die folgenden Fragen stellen, um vollständige Informationen dazu zu ...