Resultados de la búsqueda a petición "hadoop"

4 la respuesta

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567 [http://aws.amazon.com/datasets/8172056142375670], y quiero ...

0 la respuesta

spark - problema de espacio de almacenamiento dinámico de Java - ExecutorLostFailure - contenedor salido con estado 143

Estoy leyendo la cadena que tiene una longitud de más de 100k bytes y estoy dividiendo las columnas según el ancho. Tengo cerca de 16K columnas que dividí de la cadena anterior en función del ancho. pero mientras escribo en el parquet estoy ...

2 la respuesta

Proporcionar varios archivos no textuales a un solo mapa en Hadoop MapReduce

Actualmente estoy escribiendo una aplicación distribuida que analiza archivos PDF con la ayuda de Hadoop MapReduce. La entrada al trabajo de MapReduce es miles de archivos Pdf (que en su mayoría varían de 100 KB a ~ 2 MB), y la salida es un ...

1 la respuesta

Diferencia entre el conjunto de datos de Spark escribir

Estoy usando Spark-Java. Necesito saber si hay alguna diferencia (rendimiento, etc.) entre los siguientes métodos de escritura en Hadoop: ds.write().mode(mode).format("orc").save(path); ds.write().mode(mode).orc(path);Gracias

3 la respuesta

¿Es posible guardar archivos en Hadoop sin guardarlos en el sistema de archivos local?

¿Es posible guardar archivos en Hadoop sin guardarlos en el sistema de archivos local? Me gustaría hacer algo como se muestra a continuación, sin embargo, me gustaría guardar el archivo directamente en HDFS. En este momento guardo archivos en el ...

1 la respuesta

Ejecutar hadoop en Mac OS

Intento configurar para ejecutar Hadoop en Mac OS conbrew. Los pasos dados se proporcionan a continuación, Instalar en pchadoop con el comando,$brew install hadoop Dentro de la carpetausr/local/Cellar/hadoop/3.1.0/libexec/etc/hadoop y agregó ...

1 la respuesta

nifi ConvertRecord JSON a CSV obteniendo un solo registro?

Tengo el siguiente flujo configurado para leer datos json y convertirlos a csv usando el procesador convertRecord. Sin embargo, el archivo de flujo de salida essolo rellenado con un solo registro (Estoy asumiendo solo el primer registro) en ...

1 la respuesta

Max / Min para conjuntos completos de registros en PIG

Tengo un conjunto de registros que estoy cargando desde un archivo y lo primero que tengo que hacer es obtener el máximo y mínimo de una columna. En SQL, haría esto con una subconsulta como esta: select c.state, c.population, (select ...

1 la respuesta

Resultados clasificados de hbase scanner

¿Cómo recuperar los "valores" de la familia de columnas hbase en cualquier orden ordenado de la misma? me gust column valor familiar --------------------------------- Columna: 1 1 Columna: 3 2 Columna: 4 3 Columna: 2 4

1 la respuesta

Macos Hadoop 3.1.1: no se pudo iniciar namenode. java.io.IOException: No se pudo analizar la línea: "Sistema de archivos 1024 bloques utilizados Capacidad disponible montada en"

Instalo hadoop 3.1.1 de homebrew en mac os. core-site.xml config de la siguiente manera: <configuration> <property> <name>hadoop.tmp.dir</name> <value>file:///Users/yishuihanxiao/Personal_Home/ws/DB_Data/hadoop/hdfs/tmp</value> <description>A ...