Resultados de la búsqueda a petición "hive"
Diferencia principal entre particiones dinámicas y estáticas en Hive
¿Cuál es la principal diferencia entre la partición estática y dinámica en Hive? El uso de inserción individual significa inserción estática y única en la tabla de particiones significa dinámica. ¿Hay alguna otra ventaja?
¿Puede explicar cuándo y por qué se invoca mapreduce en la colmena?
select * from Table_name limit 5; select col1_name,col2_name from table_name limit 5; Cuando ejecuto la primera consulta, no se invocará MapReduce, mientras que para otros se invoca MapReduce. ¿Podría por favor explicar la razón?
fusionar múltiples archivos pequeños en unos pocos archivos más grandes en Spark
Estoy usando la colmena a través de Spark. Tengo una consulta Insertar en tabla particionada en mi código de chispa. Los datos de entrada están en 200 + gb. Cuando Spark está escribiendo en una tabla particionada, está escupiendo archivos muy ...
Colmena: ¿hay alguna manera de optimizar aún más una consulta HiveQL?
He escrito una consulta para encontrar los 10 aeropuertos más concurridos en los EE. UU. De marzo a abril. Produce el resultado deseado, sin embargo, quiero intentar optimizarlo aún más. ¿Hay alguna optimización específica de HiveQL que se pueda ...
Hadoop / Hive Collect_list sin repetir elementos
Según la publicación,Colmena 0.12 - Collect_list [https://stackoverflow.com/questions/6445339/collect-set-in-hive-keep-duplicates] , Estoy tratando de ubicar el código Java para implementar un UDAF que logre esta funcionalidad u otra similar pero ...
Colmena - Operador LIKE
No puedo entender cómo trato ese problema: Esta es mi información: Table1: Table2: BRAND PRODUCT SOLD Sony Sony ABCD 1233 Apple Sony adv 1233 Google Sony aaaa 1233 IBM Apple 123 1233 etc. Apple 345 1233 IBM 13123 1233¿Es posible filtrar la ...
Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive
Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...
Hive 1.1.0 Alterar el tipo de partición de tabla de int a string
Tengo una tabla que tiene una partición de tipo int pero que quiero convertir a cadena. Sin embargo, no puedo entender cómo hacer esto. La descripción de la tabla es: Col1 timestamp Col2 string Col3 string Col4 string Part_col int # ...
PySpark: mapear un SchemaRDD en un SchemaRDD
Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...
Procese Spark Streaming rdd y almacene en un solo archivo HDFS
Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...