“Nenhum sistema de arquivos para o esquema: gs” ao executar o trabalho spark localmente
Estou executando um trabalho do Spark (versão 1.2.0) e a entrada é uma pasta dentro de um bucket do Google Clous Storage (ou seja, gs: // mybucket / folder)
Ao executar o trabalho localmente na minha máquina Mac, estou recebendo o seguinte erro:
5932 [main] ERRO com.doit.customer.dataconverter.Phase1 - Falha na tarefa da data: 2014_09_23 com erro: Nenhum Sistema de Arquivos para o esquema: gs
Eu sei que duas coisas precisam ser feitas para que os caminhos gs sejam suportados. Um é instalar o conector GCS e o outro é ter a seguinte configuração no core-site.xml da instalação do Hadoop:
<property>
<name>fs.gs.impl</name>
<value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem</value>
<description>The FileSystem for gs: (GCS) uris.</description>
</property>
<property>
<name>fs.AbstractFileSystem.gs.impl</name>
<value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS</value>
<description>
The AbstractFileSystem for gs: (GCS) uris. Only necessary for use with Hadoop 2.
</description>
</property>
Acho que meu problema vem do fato de não ter certeza de onde exatamente cada peça precisa ser configurada nesse modo local. No projeto Intellij, estou usando o Maven e, portanto, importei a biblioteca spark da seguinte maneira:
<dependency> <!-- Spark dependency -->
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.2.0</version>
<exclusions>
<exclusion> <!-- declare the exclusion here -->
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
</exclusion>
</exclusions>
</dependency>
e Hadoop 1.2.1 da seguinte maneira:
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>1.2.1</version>
</dependency>
O problema é que não tenho certeza de onde o local do hadoop está configurado para o Spark e também de onde o conf do hadoop está configurado. Portanto, posso estar adicionando à instalação incorreta do Hadoop. Além disso, há algo que precisa ser reiniciado após a modificação dos arquivos? Tanto quanto vi, não há serviço Hadoop em execução na minha máquina.