Resultados de la búsqueda a petición "hive"

4 la respuesta

Diferencia principal entre particiones dinámicas y estáticas en Hive

¿Cuál es la principal diferencia entre la partición estática y dinámica en Hive? El uso de inserción individual significa inserción estática y única en la tabla de particiones significa dinámica. ¿Hay alguna otra ventaja?

2 la respuesta

¿Puede explicar cuándo y por qué se invoca mapreduce en la colmena?

select * from Table_name limit 5; select col1_name,col2_name from table_name limit 5; Cuando ejecuto la primera consulta, no se invocará MapReduce, mientras que para otros se invoca MapReduce. ¿Podría por favor explicar la razón?

3 la respuesta

fusionar múltiples archivos pequeños en unos pocos archivos más grandes en Spark

Estoy usando la colmena a través de Spark. Tengo una consulta Insertar en tabla particionada en mi código de chispa. Los datos de entrada están en 200 + gb. Cuando Spark está escribiendo en una tabla particionada, está escupiendo archivos muy ...

4 la respuesta

Colmena: ¿hay alguna manera de optimizar aún más una consulta HiveQL?

He escrito una consulta para encontrar los 10 aeropuertos más concurridos en los EE. UU. De marzo a abril. Produce el resultado deseado, sin embargo, quiero intentar optimizarlo aún más. ¿Hay alguna optimización específica de HiveQL que se pueda ...

2 la respuesta

Hadoop / Hive Collect_list sin repetir elementos

Según la publicación,Colmena 0.12 - Collect_list [https://stackoverflow.com/questions/6445339/collect-set-in-hive-keep-duplicates] , Estoy tratando de ubicar el código Java para implementar un UDAF que logre esta funcionalidad u otra similar pero ...

2 la respuesta

Colmena - Operador LIKE

No puedo entender cómo trato ese problema: Esta es mi información: Table1: Table2: BRAND PRODUCT SOLD Sony Sony ABCD 1233 Apple Sony adv 1233 Google Sony aaaa 1233 IBM Apple 123 1233 etc. Apple 345 1233 IBM 13123 1233¿Es posible filtrar la ...

5 la respuesta

Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive

Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...

2 la respuesta

Hive 1.1.0 Alterar el tipo de partición de tabla de int a string

Tengo una tabla que tiene una partición de tipo int pero que quiero convertir a cadena. Sin embargo, no puedo entender cómo hacer esto. La descripción de la tabla es: Col1 timestamp Col2 string Col3 string Col4 string Part_col int # ...

4 la respuesta

PySpark: mapear un SchemaRDD en un SchemaRDD

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

2 la respuesta

Procese Spark Streaming rdd y almacene en un solo archivo HDFS

Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...