Resultados de la búsqueda a petición "hadoop"
Lista de carpetas de Spark Scala en el directorio
Quiero enumerar todas las carpetas dentro de un directorio hdfs usando Scala / Spark. En Hadoop puedo hacer esto usando el comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Lo probé con: val conf = new Configuration() val fs = ...
Conjunto de datos de Twitter (redes sociales)
Estoy buscando el conjunto de datos de Twitter u otros sitios de redes sociales para mi proyecto. Actualmente tengo el conjunto de datos de Twitter CAW 2.0, pero solo contiene tweets de usuarios. Quiero una información que muestre la cantidad de ...
Implementación de combinadores y trabajo interno
Quiero usar un combinador en mi código MR, por ejemplo, WordCount. ¿Cómo debo implementarlo? ¿Qué tipo de datos se pasan al reductor desde el combinador? Será genial si alguno de ustedes me puede proporcionar códigos tanto de Combiner como de ...
Conseguir que Spark, Python y MongoDB trabajen juntos
Tengo dificultades para lograr que estos componentes se unan correctamente. Tengo Spark instalado y trabajando con éxito, puedo ejecutar trabajos localmente, de forma independiente y también a través de YARN. He seguido los pasos recomendados ...
Cómo eliminar un tema en apache kafka [duplicar]
Esta pregunta ya tiene una respuesta aquí: Eliminar tema en Kafka 0.8.1.1 [/questions/24287900/delete-topic-in-kafka-0-8-1-1] 13 respuestasNecesito eliminar un tema en kafka-0.8.2.2.3. He utilizado el siguiente comando para eliminar el ...
Cómo obtener la diferencia de fecha en minutos usando Hive
La siguiente consulta es mi consulta de servidor sql y quiero que la convierta en consulta de colmena: select DATEDIFF([minute], '19000101', '2013-01-01 10:10:10')
Columnas duplicadas en Spark Dataframe
Tengo un archivo csv de 10GB en clúster hadoop con columnas duplicadas. Intento analizarlo en SparkR, así que usospark-csv paquete para analizarlo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...
Obtenga las propiedades de tabla de Hive con la API de Java
Estoy tratando de obtener las propiedades de la tabla como la tabla db, el nombre, el propietario y la ubicación hdfs de la colmena metastore utilizando el cliente metastore en java. Creo que puedo obtener las bases de datos y los nombres de las ...
¿Por qué el nodo de datos Dockerized Hadoop se registra con la dirección IP incorrecta?
Tengo imágenes Docker (1.9.1) separadas para los nodos de nombre y de datos de Hadoop (2.7.1). Puedo crear contenedores a partir de estos y hacer que se comuniquen a través de una red Docker definida por el usuario. Sin embargo, el nodo de datos ...
colmena sobrescribir el proceso de mover el directorio como distcp?
Cuando corro unINSERT OVERWRITE DIRECTORY consulta en colmena, parece almacenar los resultados en una.hivexxxx carpeta de ensayo y luego mover los archivos desde allí al directorio ... Al final del proceso de reducción del mapa, muestra ...