Config-Datei zum Definieren der JSON-Schemastruktur in PySpark
Ich habe eine PySpark-Anwendung erstellt, die die JSON-Datei in einem Datenrahmen über ein definiertes Schema liest. Codebeispiel unten
schema = StructType([
StructField("domain", StringType(), True),
StructField("timestamp", LongType(), True),
])
df= sqlContext.read.json(file, schema)
Ich brauche eine Möglichkeit, um herauszufinden, wie ich dieses Schema in einer Art Konfigurations- oder INI-Datei usw. definieren kann. Lesen Sie das in der Hauptanwendung von PySpark.
Dies wird mir helfen, das Schema für den sich ändernden JSON zu ändern, falls dies in Zukunft erforderlich sein sollte, ohne den PySpark-Hauptcode zu ändern.