Use o Spark para listar todos os arquivos em um diretório Hadoop HDFS?

Question

Apr 29, 2014, 12:31 AM

Use o Spark para listar todos os arquivos em um diretório Hadoop HDFS?

Desejo percorrer todos os arquivos de texto em um diretório do Hadoop e contar todas as ocorrências da palavra "erro". Existe uma maneira de fazer umhadoop fs -ls /users/ubuntu/ listar todos os arquivos em um diretório com a API do Apache Spark Scala?

Do dadoprimeiro exemplo, o contexto do spark parece acessar apenas os arquivos individualmente por meio de algo como:

val file = spark.textFile("hdfs://target_load_file.txt")

No meu problema, não sei quantos nem os nomes dos arquivos na pasta HDFS anteriormente. Olhou para odocumentos de contexto de faísca mas não conseguiu encontrar esse tipo de funcionalidade.