Resultados de la búsqueda a petición "mapreduce"
Proporcionar varios archivos no textuales a un solo mapa en Hadoop MapReduce
Actualmente estoy escribiendo una aplicación distribuida que analiza archivos PDF con la ayuda de Hadoop MapReduce. La entrada al trabajo de MapReduce es miles de archivos Pdf (que en su mayoría varían de 100 KB a ~ 2 MB), y la salida es un ...
Consulta de objetos incrustados en Mongoid / rails 3 ("Menor que", operadores mínimos y clasificación)
Estoy usando rieles 3 con mongoid. Tengo una colección de acciones con una colección integrada de precios: class Stock include Mongoid::Document field :name, :type => String field :code, :type => Integer embeds_many :prices class Price include ...
Ravendb mapreduce agrupación por múltiples campos
Tenemos un sitio que contiene video en tiempo real y queremos mostrar tres informes de los videos más vistos en la última semana, mes y año (una ventana móvil). Almacenamos un documento en ravendb cada vez que se ve un video: public class ...
Comenzando con Avro
Quiero comenzar a usar Avro con Map Reduce. ¿Alguien puede sugerir un buen tutorial / ejemplo para comenzar? No pude encontrar mucho a través de la búsqueda en Internet.
MapReduce (secundaria) clasificación / filtrado - ¿cómo?
Tengo un archivo de registro de valores con marca de tiempo (usuarios concurrentes) de diferentes "zonas" de una aplicación web de sala de chat en el formato "Marca de tiempo; Zona; Valor". Para cada zona existe un valor por minuto de cada ...
Eliminar registros duplicados usando MapReduce
Estoy usando MongoDB y necesito eliminar registros duplicados. Tengo una colección de listados que se ve así: (simplificado) [ { "MlsId": "12345"" }, { "MlsId": "12345" }, { "MlsId": "23456" }, { "MlsId": "23456" }, { "MlsId": "0" }, { "MlsId": ...
¿Por qué falla mi implementación modificada (haskell del mundo real) de Mapreduce con "Demasiados archivos abiertos"
Estoy implementando un programa haskell que compara cada línea de un archivo con la otra línea del archivo. Por simplicidad, supongamos que la estructura de datos representada por una línea es solo un Int, y mi algoritmo es la distancia al ...
MongoDB MapReduce bloquea la base de datos
¿Un trabajo de MongoDB MapReduce bloquea la base de datos? Estoy desarrollando una aplicación web MongoDB multiusuario y me preocupan los conflictos y el rendimiento de varios usuarios. ¿Alguien tiene alguna palabra de sabiduría para mí?
Lectura programática de la salida del programa Hadoop Mapreduce
Esta puede ser una pregunta básica, pero no pude encontrar una respuesta en Google. Tengo un trabajo de reducción de mapas que crea múltiples archivos de salida en su directorio de salida. Mi aplicación Java ejecuta este trabajo en un ...
¿Cómo obtener Nombre de archivo / Contenido de archivo como entrada de clave / valor para MAP cuando se ejecuta un trabajo de Hadoop MapReduce?
Estoy creando un programa para analizar archivos PDF, DOC y DOCX. Estos archivos se almacenan en HDFS. Cuando comienzo mi trabajo de MapReduce, quiero que la función de mapa tenga el Nombre de archivo como clave y el Contenido binario como ...