Filtern eines Pyspark DataFrame mit einer SQL-ähnlichen IN-Klausel
Ich möchte einen Pyspark DataFrame mit einem SQL-ähnlichen @ filterIN
-Klausel, wie in
sc = SparkContext()
sqlc = SQLContext(sc)
df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')
woa
ist das Tupel(1, 2, 3)
. Ich erhalte folgenden Fehler:
java.lang.RuntimeException: [1.67] Fehler: `` ('' erwartet, identifiziert aber ein gefundenes
which sagt im Grunde, es erwartete so etwas wie '(1, 2, 3)' anstelle einer. Das Problem ist, dass ich die Werte in a nicht manuell schreiben kann, da sie aus einem anderen Job extrahiert wurden.
Wie würde ich in diesem Fall filtern?