Resultados de la búsqueda a petición "hadoop"

7 la respuesta

Lista de carpetas de Spark Scala en el directorio

Quiero enumerar todas las carpetas dentro de un directorio hdfs usando Scala / Spark. En Hadoop puedo hacer esto usando el comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Lo probé con: val conf = new Configuration() val fs = ...

4 la respuesta

Conjunto de datos de Twitter (redes sociales)

Estoy buscando el conjunto de datos de Twitter u otros sitios de redes sociales para mi proyecto. Actualmente tengo el conjunto de datos de Twitter CAW 2.0, pero solo contiene tweets de usuarios. Quiero una información que muestre la cantidad de ...

3 la respuesta

Implementación de combinadores y trabajo interno

Quiero usar un combinador en mi código MR, por ejemplo, WordCount. ¿Cómo debo implementarlo? ¿Qué tipo de datos se pasan al reductor desde el combinador? Será genial si alguno de ustedes me puede proporcionar códigos tanto de Combiner como de ...

4 la respuesta

Conseguir que Spark, Python y MongoDB trabajen juntos

Tengo dificultades para lograr que estos componentes se unan correctamente. Tengo Spark instalado y trabajando con éxito, puedo ejecutar trabajos localmente, de forma independiente y también a través de YARN. He seguido los pasos recomendados ...

1 la respuesta

Cómo eliminar un tema en apache kafka [duplicar]

Esta pregunta ya tiene una respuesta aquí: Eliminar tema en Kafka 0.8.1.1 [/questions/24287900/delete-topic-in-kafka-0-8-1-1] 13 respuestasNecesito eliminar un tema en kafka-0.8.2.2.3. He utilizado el siguiente comando para eliminar el ...

1 la respuesta

Cómo obtener la diferencia de fecha en minutos usando Hive

La siguiente consulta es mi consulta de servidor sql y quiero que la convierta en consulta de colmena: select DATEDIFF([minute], '19000101', '2013-01-01 10:10:10')

3 la respuesta

Columnas duplicadas en Spark Dataframe

Tengo un archivo csv de 10GB en clúster hadoop con columnas duplicadas. Intento analizarlo en SparkR, así que usospark-csv paquete para analizarlo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...

3 la respuesta

Obtenga las propiedades de tabla de Hive con la API de Java

Estoy tratando de obtener las propiedades de la tabla como la tabla db, el nombre, el propietario y la ubicación hdfs de la colmena metastore utilizando el cliente metastore en java. Creo que puedo obtener las bases de datos y los nombres de las ...

1 la respuesta

¿Por qué el nodo de datos Dockerized Hadoop se registra con la dirección IP incorrecta?

Tengo imágenes Docker (1.9.1) separadas para los nodos de nombre y de datos de Hadoop (2.7.1). Puedo crear contenedores a partir de estos y hacer que se comuniquen a través de una red Docker definida por el usuario. Sin embargo, el nodo de datos ...

1 la respuesta

colmena sobrescribir el proceso de mover el directorio como distcp?

Cuando corro unINSERT OVERWRITE DIRECTORY consulta en colmena, parece almacenar los resultados en una.hivexxxx carpeta de ensayo y luego mover los archivos desde allí al directorio ... Al final del proceso de reducción del mapa, muestra ...