pyspark Untermenge von Dateien mit Regex / Glob von s3 auswählen

Question

Jul 21, 2015, 05:44 PM

amazon-s3 regex glob apache-spark pyspark

pyspark Untermenge von Dateien mit Regex / Glob von s3 auswählen

Ich habe eine Reihe von Dateien, die jeweils nach Datum getrennt sind(date=yyyymmdd) auf Amazon S3. Die Dateien reichen 6 Monate zurück, aber ich möchte mein Skript so einschränken, dass nur die Daten der letzten 3 Monate verwendet werden. Ich bin mir nicht sicher, ob ich reguläre Ausdrücke verwenden kann, um so etwas wie @ zu tusc.textFile("s3://path_to_dir/yyyy[m1,m2,m3]*")

wobei m1, m2, m3 die 3 Monate ab dem aktuellen Datum darstellen, die ich verwenden möchte.

Eine Diskussion schlug auch vor, etwas wie @ zu verwendsc.textFile("s3://path_to_dir/yyyym1*","s3://path_to_dir/yyyym2*","s3://path_to_dir/yyyym3*") aber das scheint bei mir nicht zu funktionieren.

Tutsc.textFile( ) reguläre Ausdrücke nehmen? Ich weiß, dass Sie Glob-Ausdrücke verwenden können, aber ich war mir nicht sicher, wie ich den obigen Fall als Glob-Ausdruck darstellen sol