Verwenden Sie Spark, um alle Dateien in einem Hadoop HDFS-Verzeichnis aufzulisten?

Ich möchte alle Textdateien in einem Hadoop-Verzeichnis durchlaufen und alle Vorkommen des Wortes "error" zählen. Gibt es eine Möglichkeit, ahadoop fs -ls /users/ubuntu/ Auflisten aller Dateien in einem Verzeichnis mit der Apache Spark Scala-API?

Aus dem Gegebenenerstes Beispiel, der Spark-Kontext scheint nur über Folgendes auf Dateien einzeln zuzugreifen:

val file = spark.textFile("hdfs://target_load_file.txt")

Bei meinem Problem weiß ich vorher weder wie viele noch wie viele Namen die Dateien im HDFS-Ordner haben. Schaute auf denFunken Kontextdokumente aber konnte diese Art von Funktionalität nicht finden.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage