Lista de carpetas de Spark Scala en el directorio
Quiero enumerar todas las carpetas dentro de un directorio hdfs usando Scala / Spark. En Hadoop puedo hacer esto usando el comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/
Lo probé con:
val conf = new Configuration()
val fs = FileSystem.get(new URI("hdfs://sandbox.hortonworks.com/"), conf)
val path = new Path("hdfs://sandbox.hortonworks.com/demo/")
val files = fs.listFiles(path, false)
Pero no parece que busque en el directorio de Hadoop ya que no puedo encontrar mis carpetas / archivos.
También probé con:
FileSystem.get(sc.hadoopConfiguration).listFiles(new Path("hdfs://sandbox.hortonworks.com/demo/"), true)
Pero esto tampoco ayuda.
¿Tiene usted alguna otra idea?
PD: también revisé este hilo:Spark iterar directorio HDFS pero no funciona para mí, ya que no parece buscar en el directorio hdfs, solo en el sistema de archivos local con el archivo de esquema //.