Resultados de la búsqueda a petición "hadoop"

4 la respuesta

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567 [http://aws.amazon.com/datasets/8172056142375670], y quiero ...

1 la respuesta

Obteniendo 'chequeando flume.conf por cambios' en un ciclo

Estoy usando Apache Flume 1.4.0 para recopilar archivos de registro (auth.log) y almacenarlos en HDFS (Hadoop 2.6.0). El comando utilizado es: bin/flume-ng agent --conf ./conf/ -f flume.conf -Dflume.root.logger=DEBUG,console -n ...

2 la respuesta

¿Cómo puedo forzar a Spark a ejecutar código?

¿Cómo puedo forzar a Spark a ejecutar una llamada al mapa, incluso si cree que no es necesario ejecutarlo debido a su evaluación diferida? He intentado ponercache() con la llamada al mapa, pero eso todavía no funciona. Mi método de mapa ...

4 la respuesta

Cambio de usuario en python

Estoy escribiendo un script simple que reinicia un esclavo hadoop. En el script, tengo que hacer algunos cambios iniciales como usuario root. Después de eso, tengo que cambiar al usuario "hadoop" y realizar un conjunto de comandos. Estaba usando ...

9 la respuesta

Clase no encontrada Excepción en el trabajo de conteo de palabras de Mapreduce

Estoy tratando de ejecutar un trabajo de wordcount en hadoop. Pero siempre obtengo una excepción de clase no encontrada. Estoy publicando la clase que escrib...

3 la respuesta

¿Cómo cambiar el formato de fecha en la colmena?

Mi tabla en la colmena tiene una fecha de presentación en el formato de "2016/06/01". pero encuentro que no es perjudicial con el formato '2016-06-01'. No se pueden comparar, por ejemplo. Ambos son cuerdas. Así que quiero saber cómo hacerlos ...

2 la respuesta

Conexión a un maestro remoto de Spark - Java / Scala

Creé un nodo 3 (1 maestro, 2 trabajadores)Apache Spark clúster en AWS. Puedo enviar trabajos al clúster desde el maestro, sin embargo, no puedo hacer que funcione de forma remota. /* SimpleApp.scala */ import org.apache.spark.SparkContext ...

2 la respuesta

No se ha encontrado la clase de asignador.

A veces mi trabajo de MR se queja de que no se encuentra la clase MyMapper. Y eso tengo que dar job.setJarByClass (MyMapper.class); Para decirle que lo cargu...

4 la respuesta

Hadoop: Proporcionar directorio como entrada para el trabajo MapReduce

Estoy usando Cloudera Hadoop. Soy capaz de ejecutar el programa mapreduce simple donde proporciono un archivo como entrada para el programa MapReduce.Este ar...

2 la respuesta

La división de entrada de Hadoop- ¿Cómo funciona?