Resultados de la búsqueda a petición "hadoop"

3 la respuesta

¿Cómo hacer CopyMerge en Hadoop 3.0?

Lo séhadoop versión2.7'sFileUtil tiene elcopyMerge función que combina múltiples archivos en uno nuevo. Pero elcopyMerge la función ya no es compatible con la API en el3.0 versión. Alguna idea sobre cómo combinar todos los archivos dentro de un ...

1 la respuesta

Autenticación del servidor de historial de chispas en clúster kerberizado

Configuré un clúster HDP que contiene, entre otros, Spark. También habilité Kerberos para el clúster, para que todos los servicios y usuarios tengan que autenticarse a través de sus principales. Esto parece funcionar bien, todos los servicios se ...

1 la respuesta

Spark que lee el archivo WARC con InputFormat personalizado

Necesito procesar un archivo .warc a través de Spark, pero parece que no puedo encontrar una manera sencilla de hacerlo. Preferiría usar Python y no leer todo el archivo en un RDD a través dewholeTextFiles() (porque todo el archivo se procesaría ...

0 la respuesta

Analizar etiquetas XML repetidas en Hive

estoy usandohivexmlserdepara analizar archivos xml. Estoy analizando algunas etiquetas repetidas en mi xml y las guardo comoformación <cuerda>. El resultado que obtengo se muestra a ...

2 la respuesta

Hadoop Streaming: Mapper 'envolviendo' un ejecutable binario

Tengo una tubería que actualmente ejecuto en un gran grupo de computadoras de la universidad. Para fines de publicación, me gustaría convertirlo a formato mapreduce para que cualquier persona pueda ejecutarlo utilizando un clúster hadoop como ...

1 la respuesta

Configuración y configuración de JanusGraph para un clúster Spark y Cassandra

Estoy ejecutando JanusGraph (0.1.0) con Spark (1.6.1) en una sola máquina. Hice mi configuración como se describeaquí [https://stackoverflow.com/questions/40105047/setup-and-configuration-of-titan-for-a-spark-cluster-and-cassandra] . Al acceder ...

1 la respuesta

error httpfs La categoría de operación READ no es compatible con el estado en espera

Estoy trabajando en hadoop apache 2.7.1 y tengo un clúster que consta de 3 nodos nn1 nn2 dn1 nn1 es dfs.default.name, por lo que es el nodo del nombre maestro. Instalé httpfs y lo comencé, por supuesto, después de reiniciar todos ...

1 la respuesta

cómo manejar millones de archivos s3 más pequeños con apache spark

así que este problema me ha estado volviendo loco, y está comenzando a sentir que la chispa con s3 no es la herramienta adecuada para este trabajo específico. Básicamente, tengo millones de archivos más pequeños en un cubo s3. Por razones en las ...

1 la respuesta

Migrar tabla de colmena a Google BigQuery

Estoy tratando de diseñar una especie de canalización de datos para migrar mis tablas de Hive a BigQuery. Hive se ejecuta en un clúster Hadoop on premise. Este es mi diseño actual, en realidad, es muy fácil, es solo un script de shell: para cada ...

1 la respuesta

Implementación de un ArrayWritable para un tipo Hadoop personalizado

¿Cómo defino un ArrayWritable para un tipo Hadoop personalizado? Estoy tratando de implementar un índice invertido en Hadoop, con tipos personalizados de Hadoop para almacenar los datos. Yo tengo unPublicación individual clase que almacena la ...