Verwenden von Pyspark, Lesen / Schreiben von 2D-Bildern auf dem Hadoop-Dateisystem

Ich möchte in der Lage sein, Bilder in einem HDFS-Dateisystem zu lesen / zu schreiben und die HDFS-Lokalität zu nutzen.

Ich habe eine Sammlung von Bildern, bei denen jedes Bild aus @ besteh

2D Arrays von uint16 grundlegende zusätzliche Informationen als XML-Datei gespeichert.

Ich möchte ein Archiv über das Dateisystem hdfs erstellen und das Archiv mit spark analysieren. Im Moment kämpfe ich darum, wie ich die Daten am besten über das hdfs-Dateisystem speichern kann, um die Vorteile der spark + hdfs-Struktur voll ausnutzen zu können.

Soweit ich weiß, ist es am besten, einen sequenceFile-Wrapper zu erstellen. Ich habe zwei Fragen

Ist es der beste Weg, einen sequenceFile-Wrapper zu erstellen? Hat jemand einen Zeiger auf Beispiele, mit denen ich beginnen könnte? Ich muss nicht der erste sein, der etwas anderes als eine Textdatei auf hdfs durch Funken lesen muss!

Antworten auf die Frage(2)

Ihre Antwort auf die Frage