usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop

Quiero poder leer / escribir imágenes en un sistema de archivos hdfs y aprovechar la localidad hdfs.

Tengo una colección de imágenes donde cada imagen está compuesta de

Matrices 2D de uint16información adicional básica almacenada como un archivo xml.

Quiero crear un archivo sobre el sistema de archivos hdfs y usar spark para analizar el archivo. En este momento estoy luchando por la mejor manera de almacenar los datos sobre el sistema de archivos hdfs para poder aprovechar al máximo la estructura spark + hdfs.

Por lo que entiendo, la mejor manera sería crear un contenedor de archivo de secuencia. Tengo dos preguntas :

¿Es la creación de un contenedor de archivo de secuencia la mejor manera?¿Alguien tiene algún puntero a ejemplos con los que pueda comenzar? ¡No debo ser el primero que necesita leer algo diferente al archivo de texto en hdfs a través de spark!

Respuestas a la pregunta(1)

Su respuesta a la pregunta