Verwenden Sie Spark, um alle Dateien in einem Hadoop HDFS-Verzeichnis aufzulisten?

Question

Apr 29, 2014, 12:31 AM

Verwenden Sie Spark, um alle Dateien in einem Hadoop HDFS-Verzeichnis aufzulisten?

Ich möchte alle Textdateien in einem Hadoop-Verzeichnis durchlaufen und alle Vorkommen des Wortes "error" zählen. Gibt es eine Möglichkeit, ahadoop fs -ls /users/ubuntu/ Auflisten aller Dateien in einem Verzeichnis mit der Apache Spark Scala-API?

Aus dem Gegebenenerstes Beispiel, der Spark-Kontext scheint nur über Folgendes auf Dateien einzeln zuzugreifen:

val file = spark.textFile("hdfs://target_load_file.txt")

Bei meinem Problem weiß ich vorher weder wie viele noch wie viele Namen die Dateien im HDFS-Ordner haben. Schaute auf denFunken Kontextdokumente aber konnte diese Art von Funktionalität nicht finden.

Antworten auf die Frage(2)

Top Fragen

0 die antwort

Wie kann ich das Qt SDK mit dem Yocto-Projekt richtig konfigurieren?

0 die antwort

Warum kann DateTime.MinValue nicht in Zeitzonen vor UTC serialisiert werden?

0 die antwort

Verwenden mehrerer WebSecurityConfigurerAdapter mit unterschiedlichen AuthenticationProvidern (grundlegende Authentifizierung für API und LDAP für Web-App)

0 die antwort

Wie kann ich mit einem Bluetooth-Headset Ton aufnehmen?

0 die antwort

Wie man von einer xhr-Anfrage umleitet

Du bist sehr aktiv! Es ist großartig!

Verwenden Sie Spark, um alle Dateien in einem Hadoop HDFS-Verzeichnis aufzulisten?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage

Top Fragen