usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop

Quero poder ler / gravar imagens em um sistema de arquivos hdfs e aproveitar a localidade hdfs.

Eu tenho uma coleção de imagens onde cada imagem é composta por

Matrizes 2D de uint16informações adicionais básicas armazenadas como um arquivo xml.

Quero criar um arquivo no sistema de arquivos hdfs e usar o spark para analisar o arquivo. No momento, estou lutando pela melhor maneira de armazenar os dados no sistema de arquivos hdfs para poder tirar o máximo proveito da estrutura do spark + hdfs.

Pelo que entendi, a melhor maneira seria criar um wrapper sequenceFile. Eu tenho duas perguntas :

A melhor maneira de criar um wrapper sequenceFile?Alguém tem algum ponteiro para exemplos que eu poderia usar para começar? Eu não devo ser o primeiro que precisa ler algo diferente do arquivo de texto em hdfs através do spark!

questionAnswers(1)

yourAnswerToTheQuestion