Cómo leer la entrada de S3 en una aplicación de clúster EC2 de Spark Streaming

Question

Jun 05, 2014, 12:35 AM

Cómo leer la entrada de S3 en una aplicación de clúster EC2 de Spark Streaming

Estoy tratando de hacer que mi aplicación Spark Streaming lea su entrada de un directorio S3, pero sigo recibiendo esta excepción después de iniciarla con el script spark-submit:

Exception in thread "main" java.lang.IllegalArgumentException: AWS Access Key ID and Secret Access Key must be specified as the username or password (respectively) of a s3n URL, or by setting the fs.s3n.awsAccessKeyId or fs.s3n.awsSecretAccessKey properties (respectively).
    at org.apache.hadoop.fs.s3.S3Credentials.initialize(S3Credentials.java:66)
    at org.apache.hadoop.fs.s3native.Jets3tNativeFileSystemStore.initialize(Jets3tNativeFileSystemStore.java:49)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)
    at org.apache.hadoop.fs.s3native.$Proxy6.initialize(Unknown Source)
    at org.apache.hadoop.fs.s3native.NativeS3FileSystem.initialize(NativeS3FileSystem.java:216)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1386)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1404)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:254)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:187)
    at org.apache.spark.streaming.StreamingContext.checkpoint(StreamingContext.scala:195)
    at MainClass$.main(MainClass.scala:1190)
    at MainClass.main(MainClass.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:292)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:55)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

Estoy configurando esas variables a través de este bloque de código como se sugiere aquíhttp://spark.apache.org/docs/latest/ec2-scripts.html (final de la página):

val ssc = new org.apache.spark.streaming.StreamingContext(
  conf,
  Seconds(60))
ssc.sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId",args(2))
ssc.sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey",args(3))

args (2) y args (3) son mi ID de clave de acceso de AWS y mi clave de acceso secreta, por supuesto.

¿Por qué sigue diciendo que no están configurados?

EDITAR: también lo intenté de esta manera, pero obtengo la misma excepción:

val lines = ssc.textFileStream("s3n://"+ args(2) +":"+ args(3) + "@<mybucket>/path/")

Respuestas a la pregunta(9)

Preguntas populares

0 la respuesta

¿Cómo evitar que el reproductor multimedia se detenga cuando la pantalla se apaga?

0 la respuesta

Creando objetos javascript desde diferentes archivos.

0 la respuesta

Datos en blanco insertados en la base de datos MYSQL con la interfaz de iOS

0 la respuesta

Poner el foco en el campo en DIV cargado dinámicamente

0 la respuesta

Redireccionando a URL en Frask

¡Eres muy activo! ¡Es genial!

Cómo leer la entrada de S3 en una aplicación de clúster EC2 de Spark Streaming

Respuestas a la pregunta(9)

Su respuesta a la pregunta

Preguntas populares