Resultados da pesquisa a pedido "hive"

Qual é a principal diferença entre partição estática e dinâmica no Hive? Usar inserção individual significa inserção estática e única para particionar tabela significa dinâmico. Existe alguma outra vantagem?

3 a resposta

mesclar vários arquivos pequenos em poucos arquivos maiores no Spark

Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...

sql-like hadoop hiveql

2 a resposta

Operador Hive - LIKE

Não consigo descobrir como lido com esse problema: Estes são os meus dados: Table1: Table2: BRAND PRODUCT SOLD Sony Sony ABCD 1233 Apple Sony adv 1233 Google Sony aaaa 1233 IBM Apple 123 1233 etc. Apple 345 1233 IBM 13123 1233É possível filtrar ...

apache-spark-sql hadoop spark-dataframe apache-spark

5 a resposta

Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive

Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode). O código acima funciona bem, mas ...

hiveql hadoop

2 a resposta

Hadoop / Hive Collect_list sem repetir itens

Com base na postagem,Hive 0.12 - Lista de Coletas [https://stackoverflow.com/questions/6445339/collect-set-in-hive-keep-duplicates] , Estou tentando localizar o código Java para implementar um UDAF que realize essa funcionalidade ou semelhante, ...

partitioning hadoop ddl

2 a resposta

Hive 1.1.0 Alterar o tipo de partição da tabela de int para string

Eu tenho uma tabela que tem uma partição do tipo int, mas que eu quero converter em string. No entanto, não consigo descobrir como fazer isso. A descrição da tabela é: Col1 timestamp Col2 string Col3 string Col4 string Part_col int # ...

pyspark rdd apache-spark apache-spark-sql

4 a resposta

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...

hiveql udf apache-spark apache-spark-sql

1 a resposta

Hive UDF para selecionar todas, exceto algumas colunas

O padrão de criação de consulta comum no HiveQL (e SQL em geral) é selecionar todas as colunas (SELECT *) ou um conjunto de colunas explicitamente especificado (SELECT A, B, C) O SQL não possui mecanismo interno para selecionar todas, exceto um ...

spark-streaming apache-spark hdfs

2 a resposta

Processar o Spark Streaming rdd e armazenar em um único arquivo HDFS

Estou usando o Kafka Spark Streaming para obter dados de streaming. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estou usando este DStream e processando ...

hiveql

2 a resposta

Funções unix_timestamp e from_unixtime do Hive

Estou com a impressão de queunix_timestampefrom_unixtimeAs funções da seção são "inversas" uma da outra. Quando tento converter a seqüência de carimbo de data e hora em segundos no Hive: SELECT unix_timestamp('10-Jun-15 10.00.00.000000 AM', ...

Página 24 do 31

22 232425 26

Resultados da pesquisa a pedido "hive"

Principal diferença entre particionamento dinâmico e estático no Hive

mesclar vários arquivos pequenos em poucos arquivos maiores no Spark

Operador Hive - LIKE

Tags populares

Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive

Hadoop / Hive Collect_list sem repetir itens

Hive 1.1.0 Alterar o tipo de partição da tabela de int para string

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Hive UDF para selecionar todas, exceto algumas colunas

Processar o Spark Streaming rdd e armazenar em um único arquivo HDFS

Funções unix_timestamp e from_unixtime do Hive

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "hive"

Tags populares