pyspark Untermenge von Dateien mit Regex / Glob von s3 auswählen
Ich habe eine Reihe von Dateien, die jeweils nach Datum getrennt sind(date=yyyymmdd)
auf Amazon S3. Die Dateien reichen 6 Monate zurück, aber ich möchte mein Skript so einschränken, dass nur die Daten der letzten 3 Monate verwendet werden. Ich bin mir nicht sicher, ob ich reguläre Ausdrücke verwenden kann, um so etwas wie @ zu tusc.textFile("s3://path_to_dir/yyyy[m1,m2,m3]*")
wobei m1, m2, m3 die 3 Monate ab dem aktuellen Datum darstellen, die ich verwenden möchte.
Eine Diskussion schlug auch vor, etwas wie @ zu verwendsc.textFile("s3://path_to_dir/yyyym1*","s3://path_to_dir/yyyym2*","s3://path_to_dir/yyyym3*")
aber das scheint bei mir nicht zu funktionieren.
Tutsc.textFile( )
reguläre Ausdrücke nehmen? Ich weiß, dass Sie Glob-Ausdrücke verwenden können, aber ich war mir nicht sicher, wie ich den obigen Fall als Glob-Ausdruck darstellen sol