Resultados de la búsqueda a petición "hadoop"
¿Cómo hacer CopyMerge en Hadoop 3.0?
Lo séhadoop versión2.7'sFileUtil tiene elcopyMerge función que combina múltiples archivos en uno nuevo. Pero elcopyMerge la función ya no es compatible con la API en el3.0 versión. Alguna idea sobre cómo combinar todos los archivos dentro de un ...
Autenticación del servidor de historial de chispas en clúster kerberizado
Configuré un clúster HDP que contiene, entre otros, Spark. También habilité Kerberos para el clúster, para que todos los servicios y usuarios tengan que autenticarse a través de sus principales. Esto parece funcionar bien, todos los servicios se ...
Spark que lee el archivo WARC con InputFormat personalizado
Necesito procesar un archivo .warc a través de Spark, pero parece que no puedo encontrar una manera sencilla de hacerlo. Preferiría usar Python y no leer todo el archivo en un RDD a través dewholeTextFiles() (porque todo el archivo se procesaría ...
Analizar etiquetas XML repetidas en Hive
estoy usandohivexmlserdepara analizar archivos xml. Estoy analizando algunas etiquetas repetidas en mi xml y las guardo comoformación <cuerda>. El resultado que obtengo se muestra a ...
Hadoop Streaming: Mapper 'envolviendo' un ejecutable binario
Tengo una tubería que actualmente ejecuto en un gran grupo de computadoras de la universidad. Para fines de publicación, me gustaría convertirlo a formato mapreduce para que cualquier persona pueda ejecutarlo utilizando un clúster hadoop como ...
Configuración y configuración de JanusGraph para un clúster Spark y Cassandra
Estoy ejecutando JanusGraph (0.1.0) con Spark (1.6.1) en una sola máquina. Hice mi configuración como se describeaquí [https://stackoverflow.com/questions/40105047/setup-and-configuration-of-titan-for-a-spark-cluster-and-cassandra] . Al acceder ...
error httpfs La categoría de operación READ no es compatible con el estado en espera
Estoy trabajando en hadoop apache 2.7.1 y tengo un clúster que consta de 3 nodos nn1 nn2 dn1 nn1 es dfs.default.name, por lo que es el nodo del nombre maestro. Instalé httpfs y lo comencé, por supuesto, después de reiniciar todos ...
cómo manejar millones de archivos s3 más pequeños con apache spark
así que este problema me ha estado volviendo loco, y está comenzando a sentir que la chispa con s3 no es la herramienta adecuada para este trabajo específico. Básicamente, tengo millones de archivos más pequeños en un cubo s3. Por razones en las ...
Migrar tabla de colmena a Google BigQuery
Estoy tratando de diseñar una especie de canalización de datos para migrar mis tablas de Hive a BigQuery. Hive se ejecuta en un clúster Hadoop on premise. Este es mi diseño actual, en realidad, es muy fácil, es solo un script de shell: para cada ...
Implementación de un ArrayWritable para un tipo Hadoop personalizado
¿Cómo defino un ArrayWritable para un tipo Hadoop personalizado? Estoy tratando de implementar un índice invertido en Hadoop, con tipos personalizados de Hadoop para almacenar los datos. Yo tengo unPublicación individual clase que almacena la ...