Wie lade ich Daten in Chunks von einem Pandas-Datenframe in einen Spark-Datenframe?

Question

Jul 31, 2016, 01:37 AM

Wie lade ich Daten in Chunks von einem Pandas-Datenframe in einen Spark-Datenframe?

Ich habe Daten in Chunks über eine Pyodbc-Verbindung gelese

import pandas as pd
import pyodbc
conn = pyodbc.connect("Some connection Details")
sql = "SELECT * from TABLES;"
df1 = pd.read_sql(sql,conn,chunksize=10)

Nun möchte ich all diese Chunks in einem einzigen Spark-Datenframe lesen, indem ich Folgendes verwende:

i = 0
for chunk in df1:
    if i==0:
        df2 = sqlContext.createDataFrame(chunk)
    else:
        df2.unionAll(sqlContext.createDataFrame(chunk))
    i = i+1

Das Problem ist, wenn ich eindf2.count() Ich erhalte das Ergebnis als 10, was bedeutet, dass nur der Fall i = 0 funktioniert. Ist dies ein Fehler bei unionAll? Mache ich hier etwas falsc

Antworten auf die Frage(2)

Top Fragen

0 die antwort

Aufforderung zur Eingabe mehrerer Fragen an den Benutzer (Ja / Nein & Eingabe des Dateinamens)

0 die antwort

Liest Eingaben von raw_input (), ohne dass die Eingabeaufforderung von anderen Threads in Python überschrieben wird

0 die antwort

Wie schränke ich die Länge von Benutzereingabezeichen für den HTML5-Eingabetyp = "Zahl" ein?

0 die antwort

So initialisieren Sie den Keystore

0 die antwort

Kann ich Tuple in Dapper ein Ergebnis zuordnen?

Du bist sehr aktiv! Es ist großartig!

Wie lade ich Daten in Chunks von einem Pandas-Datenframe in einen Spark-Datenframe?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage

Top Fragen