Resultados de la búsqueda a petición "hadoop"

Quiero enumerar todas las carpetas dentro de un directorio hdfs usando Scala / Spark. En Hadoop puedo hacer esto usando el comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Lo probé con: val conf = new Configuration() val fs = ...

twitter facebook dataset

4 la respuesta

Conjunto de datos de Twitter (redes sociales)

Estoy buscando el conjunto de datos de Twitter u otros sitios de redes sociales para mi proyecto. Actualmente tengo el conjunto de datos de Twitter CAW 2.0, pero solo contiene tweets de usuarios. Quiero una información que muestre la cantidad de ...

combiners mapreduce

3 la respuesta

Implementación de combinadores y trabajo interno

Quiero usar un combinador en mi código MR, por ejemplo, WordCount. ¿Cómo debo implementarlo? ¿Qué tipo de datos se pasan al reductor desde el combinador? Será genial si alguno de ustedes me puede proporcionar códigos tanto de Combiner como de ...

pymongo apache-spark mongodb python

4 la respuesta

Conseguir que Spark, Python y MongoDB trabajen juntos

Tengo dificultades para lograr que estos componentes se unan correctamente. Tengo Spark instalado y trabajando con éxito, puedo ejecutar trabajos localmente, de forma independiente y también a través de YARN. He seguido los pasos recomendados ...

java apache-kafka

1 la respuesta

Cómo eliminar un tema en apache kafka [duplicar]

Esta pregunta ya tiene una respuesta aquí: Eliminar tema en Kafka 0.8.1.1 [/questions/24287900/delete-topic-in-kafka-0-8-1-1] 13 respuestasNecesito eliminar un tema en kafka-0.8.2.2.3. He utilizado el siguiente comando para eliminar el ...

sql hive date-difference

1 la respuesta

Cómo obtener la diferencia de fecha en minutos usando Hive

La siguiente consulta es mi consulta de servidor sql y quiero que la convierta en consulta de colmena: select DATEDIFF([minute], '19000101', '2013-01-01 10:10:10')

csv sparkr apache-spark r

3 la respuesta

Columnas duplicadas en Spark Dataframe

Tengo un archivo csv de 10GB en clúster hadoop con columnas duplicadas. Intento analizarlo en SparkR, así que usospark-csv paquete para analizarlo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...

metastore api java hive

3 la respuesta

Obtenga las propiedades de tabla de Hive con la API de Java

Estoy tratando de obtener las propiedades de la tabla como la tabla db, el nombre, el propietario y la ubicación hdfs de la colmena metastore utilizando el cliente metastore en java. Creo que puedo obtener las bases de datos y los nombres de las ...

docker hdfs java

1 la respuesta

¿Por qué el nodo de datos Dockerized Hadoop se registra con la dirección IP incorrecta?

Tengo imágenes Docker (1.9.1) separadas para los nodos de nombre y de datos de Hadoop (2.7.1). Puedo crear contenedores a partir de estos y hacer que se comuniquen a través de una red Docker definida por el usuario. Sin embargo, el nodo de datos ...

hive

1 la respuesta

colmena sobrescribir el proceso de mover el directorio como distcp?

Cuando corro unINSERT OVERWRITE DIRECTORY consulta en colmena, parece almacenar los resultados en una.hivexxxx carpeta de ensayo y luego mover los archivos desde allí al directorio ... Al final del proceso de reducción del mapa, muestra ...

Página 73 de 90

71 727374 75

Resultados de la búsqueda a petición "hadoop"

Lista de carpetas de Spark Scala en el directorio

Conjunto de datos de Twitter (redes sociales)

Implementación de combinadores y trabajo interno

Etiquetas Populares

Conseguir que Spark, Python y MongoDB trabajen juntos

Cómo eliminar un tema en apache kafka [duplicar]

Cómo obtener la diferencia de fecha en minutos usando Hive

Columnas duplicadas en Spark Dataframe

Obtenga las propiedades de tabla de Hive con la API de Java

¿Por qué el nodo de datos Dockerized Hadoop se registra con la dirección IP incorrecta?

colmena sobrescribir el proceso de mover el directorio como distcp?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "hadoop"

Etiquetas Populares