Как загрузить данные порциями из фрейма данных pandas в фрейм искры
Я прочитал данные порциями по соединению pyodbc, используя что-то вроде этого:
import pandas as pd
import pyodbc
conn = pyodbc.connect("Some connection Details")
sql = "SELECT * from TABLES;"
df1 = pd.read_sql(sql,conn,chunksize=10)
Теперь я хочу прочитать все эти куски в одном кадре данных spark, используя что-то вроде:
i = 0
for chunk in df1:
if i==0:
df2 = sqlContext.createDataFrame(chunk)
else:
df2.unionAll(sqlContext.createDataFrame(chunk))
i = i+1
Проблема в том, когда я делаюdf2.count()
я получаю результат как 10, что означает, что работает только случай i = 0. Это ошибка с unionAll. Я делаю что-то не так?