Como carregar dados em pedaços de um dataframe do pandas para um spark dataframe
Eu li dados em pedaços através de uma conexão pyodbc usando algo como isto:
import pandas as pd
import pyodbc
conn = pyodbc.connect("Some connection Details")
sql = "SELECT * from TABLES;"
df1 = pd.read_sql(sql,conn,chunksize=10)
Agora eu quero ler todos esses pedaços em um único dataframe spark usando algo como:
i = 0
for chunk in df1:
if i==0:
df2 = sqlContext.createDataFrame(chunk)
else:
df2.unionAll(sqlContext.createDataFrame(chunk))
i = i+1
O problema é quando eu faço umdf2.count()
Eu recebo o resultado como 10, o que significa que apenas o caso i = 0 está funcionando. Isso é um bug com unionAll. Estou fazendo algo errado aqui?