Como carregar dados em pedaços de um dataframe do pandas para um spark dataframe

Question

Jul 31, 2016, 01:37 AM

Como carregar dados em pedaços de um dataframe do pandas para um spark dataframe

Eu li dados em pedaços através de uma conexão pyodbc usando algo como isto:

import pandas as pd
import pyodbc
conn = pyodbc.connect("Some connection Details")
sql = "SELECT * from TABLES;"
df1 = pd.read_sql(sql,conn,chunksize=10)

Agora eu quero ler todos esses pedaços em um único dataframe spark usando algo como:

i = 0
for chunk in df1:
    if i==0:
        df2 = sqlContext.createDataFrame(chunk)
    else:
        df2.unionAll(sqlContext.createDataFrame(chunk))
    i = i+1

O problema é quando eu faço umdf2.count() Eu recebo o resultado como 10, o que significa que apenas o caso i = 0 está funcionando. Isso é um bug com unionAll. Estou fazendo algo errado aqui?

leaveComments