Как создать DataFrame из строк при сохранении существующей схемы?
Если я позвоню карте илиmapPartition
и моя функция получает строки из PySpark, каков естественный способ создания локального PySpark или Pandas DataFrame? Что-то, что объединяет строки и сохраняет схему?
В настоящее время я делаю что-то вроде:
def combine(partition):
rows = [x for x in partition]
dfpart = pd.DataFrame(rows,columns=rows[0].keys())
pandafunc(dfpart)
mydf.mapPartition(combine)