Resultados de la búsqueda a petición "hadoop"
El manejo de errores en el mapa de hadoop reduce
De acuerdo con la documentación, hay algunas formas en que se reduce el manejo de errores en el mapa. Debajo están los pocos: a. Contadores personalizados que utilizan enum - incremento para cada registro fallido. si. Registra el error y ...
Cómo escribir en HDFS usando Scala
Estoy aprendiendo Scala y necesito escribir un archivo personalizado en HDFS. Tengo mi propio HDFS ejecutándose en una imagen de Cloudera usando vmware fusion en mi computadora portátil. Este es mi código real: package org.glassfish.samples ...
Optimización de unión de colmena
Tengo dos conjuntos de datos almacenados en un depósito de S3 que necesito procesar en Hive y almacenar la salida de nuevo en S3. Las filas de muestra de cada conjunto de datos son las siguientes: DataSet 1: ...
Parquet vs ORC vs ORC con Snappy
Estoy ejecutando algunas pruebas en los formatos de almacenamiento disponibles con Hive y usando Parquet y ORC como opciones principales. Incluí ORC una vez con compresión predeterminada y una vez con Snappy. He leído muchos documentos que ...
Diferencia entre la arquitectura típica de Hadoop y la arquitectura MapR
Yo sé esoHadoop se basa en la arquitectura maestro / esclavo HDFS funciona conNameNodes yDataNodes yMapReduce funciona conjobtrackers yTasktrackers Pero no puedo encontrar todos estos servicios enMapR, Descubro que tiene su propia arquitectura ...
Cola de trabajo para la acción de la colmena en oozie
Tengo un flujo de trabajo oozie. Estoy enviando todas las acciones de la colmena con <name>mapred.job.queue.name</name> <value>${queueName}</value>Pero para algunas acciones de la colmena, el trabajo iniciado no está en la cola especificada; ...
Hadoop 1.2.1 - clúster multinodo - ¿Se bloquea la fase reductora para el programa Wordcount?
Mi pregunta puede sonar redundante aquí, pero la solución a las preguntas anteriores fueron todas ad-hoc. pocos lo he intentado pero aún no tuve suerte. Acutalmente, estoy trabajando en hadoop-1.2.1 (en ubuntu 14), inicialmente ...
Comparación de Hadoop con RDBMS
Realmente no entiendo la razón real detrás de la escala de hadoop mejor que RDBMS. ¿Alguien puede explicar a nivel granular? ¿Tiene esto algo que ver con las estructuras de datos y algoritmos subyacentes?
¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?
Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...
¿Cómo contar líneas en un archivo con el comando hdfs?
Tengo un archivo en HDFS que quiero saber cuántas líneas hay. (archivo de prueba) En Linux, puedo hacer: wc -l <filename>¿Puedo hacer algo similar con el comando "hadoop fs"? Puedo imprimir el contenido del archivo con: hadoop fs -text ...