„Kein Dateisystem für Schema: gs“, wenn Spark-Job lokal ausgeführt wird

Question

Jan 05, 2015, 04:41 PM

apache-spark hadoop google-hadoop google-cloud-dataproc google-cloud-storage

„Kein Dateisystem für Schema: gs“, wenn Spark-Job lokal ausgeführt wird

Ich führe einen Spark-Job aus (Version 1.2.0) und die Eingabe ist ein Ordner in einem Google Clous-Speicher-Bucket (d. H. Gs: // mybucket / folder).

Wenn der Auftrag lokal auf meinem Mac ausgeführt wird, wird die folgende Fehlermeldung angezeigt:

5932 [main] FEHLER com.doit.customer.dataconverter.Phase1 - Auftrag für Datum: 2014_09_23 fehlgeschlagen mit Fehler: Kein Dateisystem für Schema: gs

Ich weiß, dass zwei Dinge getan werden müssen, damit gs-Pfade unterstützt werden. Zum einen wird der GCS-Connector installiert, und zum anderen wird in core-site.xml der Hadoop-Installation Folgendes eingerichtet:

<property>
    <name>fs.gs.impl</name>
    <value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem</value>
    <description>The FileSystem for gs: (GCS) uris.</description>
</property>
<property>
    <name>fs.AbstractFileSystem.gs.impl</name>
    <value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS</value>
    <description>
     The AbstractFileSystem for gs: (GCS) uris. Only necessary for use with Hadoop 2.
    </description>
</property>

Ich denke, mein Problem ist die Tatsache, dass ich nicht sicher bin, wo genau jedes Stück in diesem lokalen Modus konfiguriert werden muss. Im Intellij-Projekt verwende ich Maven und habe die Spark-Bibliothek folgendermaßen importiert:

<dependency> <!-- Spark dependency -->
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.10</artifactId>
    <version>1.2.0</version>
    <exclusions>
        <exclusion>  <!-- declare the exclusion here -->
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
        </exclusion>
    </exclusions>
</dependency>

und Hadoop 1.2.1 wie folgt:

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>1.2.1</version>
</dependency>

Die Sache ist, ich bin nicht sicher, wo der Hadoop-Speicherort für Spark konfiguriert ist und wo die Hadoop-Konf konfiguriert ist. Daher füge ich möglicherweise die falsche Hadoop-Installation hinzu. Muss nach dem Ändern der Dateien noch etwas neu gestartet werden? Meines Erachtens läuft auf meinem Computer kein Hadoop-Dienst.