Resultados da pesquisa a pedido "hive"
Principal diferença entre particionamento dinâmico e estático no Hive
Qual é a principal diferença entre partição estática e dinâmica no Hive? Usar inserção individual significa inserção estática e única para particionar tabela significa dinâmico. Existe alguma outra vantagem?
mesclar vários arquivos pequenos em poucos arquivos maiores no Spark
Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...
Operador Hive - LIKE
Não consigo descobrir como lido com esse problema: Estes são os meus dados: Table1: Table2: BRAND PRODUCT SOLD Sony Sony ABCD 1233 Apple Sony adv 1233 Google Sony aaaa 1233 IBM Apple 123 1233 etc. Apple 345 1233 IBM 13123 1233É possível filtrar ...
Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive
Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode). O código acima funciona bem, mas ...
Hadoop / Hive Collect_list sem repetir itens
Com base na postagem,Hive 0.12 - Lista de Coletas [https://stackoverflow.com/questions/6445339/collect-set-in-hive-keep-duplicates] , Estou tentando localizar o código Java para implementar um UDAF que realize essa funcionalidade ou semelhante, ...
Hive 1.1.0 Alterar o tipo de partição da tabela de int para string
Eu tenho uma tabela que tem uma partição do tipo int, mas que eu quero converter em string. No entanto, não consigo descobrir como fazer isso. A descrição da tabela é: Col1 timestamp Col2 string Col3 string Col4 string Part_col int # ...
PySpark: Mapeie um SchemaRDD para um SchemaRDD
Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...
Hive UDF para selecionar todas, exceto algumas colunas
O padrão de criação de consulta comum no HiveQL (e SQL em geral) é selecionar todas as colunas (SELECT *) ou um conjunto de colunas explicitamente especificado (SELECT A, B, C) O SQL não possui mecanismo interno para selecionar todas, exceto um ...
Processar o Spark Streaming rdd e armazenar em um único arquivo HDFS
Estou usando o Kafka Spark Streaming para obter dados de streaming. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estou usando este DStream e processando ...
Funções unix_timestamp e from_unixtime do Hive
Estou com a impressão de queunix_timestampefrom_unixtimeAs funções da seção são "inversas" uma da outra. Quando tento converter a seqüência de carimbo de data e hora em segundos no Hive: SELECT unix_timestamp('10-Jun-15 10.00.00.000000 AM', ...