_corrupt_record Fehler beim Einlesen einer JSON-Datei in Spark
Ich habe diese JSON-Datei
{
"a": 1,
"b": 2
}
, das mit der Python-Methode json.dump ermittelt wurde. Jetzt möchte ich diese Datei mit pyspark in einen DataFrame in Spark einlesen. Nach der Dokumentation mache ich das
sc = SparkContext ()
sqlc = SQLContext (sc)
df = sqlc.read.json ('my_file.json')
print df.show ()
Die print-Anweisung gibt dies jedoch wieder:
+---------------+
|_corrupt_record|
+---------------+
| {|
| "a": 1, |
| "b": 2|
| }|
+---------------+
Weiß jemand, was los ist und warum die Datei nicht richtig interpretiert wird?