Resultados de la búsqueda a petición "mapreduce"

1 la respuesta

Hadoop cluster: ¿necesito replicar mi código en todas las máquinas antes de ejecutar el trabajo?

Esto es lo que me confunde, cuando uso el ejemplo de conteo de palabras, mantengo el código como maestro y lo dejo hacer cosas con los esclavos y funciona bien Pero cuando estoy ejecutando mi código, comienza a fallar en los esclavos ...

2 la respuesta

hadoop streaming: ¿cómo ver los registros de aplicaciones?

Puedo ver todos los registros de hadoop en mi/usr/local/hadoop/logs camin pero ¿dónde puedo ver los registros de nivel de aplicación? por ejemplo mapper.py import logging def main(): logging.info("starting map task now") // -- do some task ...

2 la respuesta

¿Cómo personalizar la clase de escritura en Hadoop?

Estoy tratando de implementar una clase de escritura, pero no tengo idea de cómo implementar una clase de escritura si en mi clase hay un objeto anidado, como una lista, etc. ¿Podría alguien ayudarme? Gracia public class StorageClass implements ...

1 la respuesta

Diferentes formas de configurar la memoria para el proceso secundario TaskTracker (Mapper y Reduce Tasks)

¿Cuál es la diferencia entre configurar el mapred.job.map.memory.mb [https://issues.apache.org/jira/browse/HADOOP-5881] y mapred.child.java.opts [http://hadoop.apache.org/common/docs/current/mapred-default.html] usando -Xmx para controlar la ...

2 la respuesta

Group y cuenta en MongoDB

Estoy tratando de agrupar y contar la cantidad de elementos para cada grupo en mongodb 2.0.1, pero hasta ahora no he tenido éxito. Mi esquema de DB se ve así: { "_id" : ObjectId("4ece7544853b4b0941000000"), "ResultSet" : { "Results" : [ ...

4 la respuesta

Utilización completa de todos los núcleos en modo pseudodistribuido de Hadoop

Estoy ejecutando una tarea en modo pseudodistribuido en mi computadora portátil de 4 núcleos. ¿Cómo puedo asegurarme de que todos los núcleos se utilizan de manera efectiva? Actualmente, mi rastreador de trabajos muestra que solo se ...

8 la respuesta

¿Cómo eliminar registros duplicados en MongoDB por MapReduce?

Tengo una colección muy grande en MongoDB y quiero eliminar el registro duplicado de esa colección. Lo primero que me viene a la mente es soltar el índice y reconstruir el índice con dropDups. Sin embargo, los datos duplicados son demasiados ...

6 la respuesta

¿Cómo cambiar la estructura de los resultados de reducción de mapas de MongoDB?

Cuando ejecuto Map-Reduce en una base de datos Mongo, generalmente obtengo resultados similares a los siguientes: { _id: <some-id>, value: { <first-key>: <first-value>, ... } }Hay una manera de omitir lavalue: { ... } part e inserte directamente ...

2 la respuesta

Clase de clave incorrecta: el texto no es IntWritable

Esto puede parecer una pregunta estúpida, pero no veo el problema en mis tipos en mi código mapreduce para hadoop omo se indicó en la pregunta, el problema es que está esperando IntWritable pero le estoy pasando un objeto de texto en el ...

6 la respuesta

En Hadoop, ¿dónde guarda el marco la salida de la tarea Map en una aplicación Map-Reduce normal?

stoy tratando de averiguar dónde se guarda la salida de una tarea de Mapa en el disco antes de que pueda ser utilizada por una tarea Reducir. Nota - la versión utilizada es Hadoop 0.20.204 con la nueva API Por ejemplo, al sobrescribir el ...