Resultados de la búsqueda a petición "hadoop"
¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?
Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567 [http://aws.amazon.com/datasets/8172056142375670], y quiero ...
spark - problema de espacio de almacenamiento dinámico de Java - ExecutorLostFailure - contenedor salido con estado 143
Estoy leyendo la cadena que tiene una longitud de más de 100k bytes y estoy dividiendo las columnas según el ancho. Tengo cerca de 16K columnas que dividí de la cadena anterior en función del ancho. pero mientras escribo en el parquet estoy ...
Proporcionar varios archivos no textuales a un solo mapa en Hadoop MapReduce
Actualmente estoy escribiendo una aplicación distribuida que analiza archivos PDF con la ayuda de Hadoop MapReduce. La entrada al trabajo de MapReduce es miles de archivos Pdf (que en su mayoría varían de 100 KB a ~ 2 MB), y la salida es un ...
Diferencia entre el conjunto de datos de Spark escribir
Estoy usando Spark-Java. Necesito saber si hay alguna diferencia (rendimiento, etc.) entre los siguientes métodos de escritura en Hadoop: ds.write().mode(mode).format("orc").save(path); ds.write().mode(mode).orc(path);Gracias
¿Es posible guardar archivos en Hadoop sin guardarlos en el sistema de archivos local?
¿Es posible guardar archivos en Hadoop sin guardarlos en el sistema de archivos local? Me gustaría hacer algo como se muestra a continuación, sin embargo, me gustaría guardar el archivo directamente en HDFS. En este momento guardo archivos en el ...
Ejecutar hadoop en Mac OS
Intento configurar para ejecutar Hadoop en Mac OS conbrew. Los pasos dados se proporcionan a continuación, Instalar en pchadoop con el comando,$brew install hadoop Dentro de la carpetausr/local/Cellar/hadoop/3.1.0/libexec/etc/hadoop y agregó ...
nifi ConvertRecord JSON a CSV obteniendo un solo registro?
Tengo el siguiente flujo configurado para leer datos json y convertirlos a csv usando el procesador convertRecord. Sin embargo, el archivo de flujo de salida essolo rellenado con un solo registro (Estoy asumiendo solo el primer registro) en ...
Max / Min para conjuntos completos de registros en PIG
Tengo un conjunto de registros que estoy cargando desde un archivo y lo primero que tengo que hacer es obtener el máximo y mínimo de una columna. En SQL, haría esto con una subconsulta como esta: select c.state, c.population, (select ...
Resultados clasificados de hbase scanner
¿Cómo recuperar los "valores" de la familia de columnas hbase en cualquier orden ordenado de la misma? me gust column valor familiar --------------------------------- Columna: 1 1 Columna: 3 2 Columna: 4 3 Columna: 2 4
Macos Hadoop 3.1.1: no se pudo iniciar namenode. java.io.IOException: No se pudo analizar la línea: "Sistema de archivos 1024 bloques utilizados Capacidad disponible montada en"
Instalo hadoop 3.1.1 de homebrew en mac os. core-site.xml config de la siguiente manera: <configuration> <property> <name>hadoop.tmp.dir</name> <value>file:///Users/yishuihanxiao/Personal_Home/ws/DB_Data/hadoop/hdfs/tmp</value> <description>A ...