Resultados da pesquisa a pedido "hive"
como converter um carimbo de data / hora em string (sem alterar o fuso horário)?
Tenho algumas vezes unix que converto em timestamps emsparklyr e por alguns motivos, também preciso convertê-los em strings. Infelizmente, parece que durante a conversão em stringhive converte para EST (minha localidade). df_new <- ...
Esquema da tabela Spark e Hive fora de sincronia após substituição externa
Estou tendo problemas com o esquema das tabelas do Hive que estão fora de sincronia entre o Spark e o Hive em um cluster Mapr com o Spark 2.1.0 e o Hive 2.1.1. Preciso tentar resolver esse problema especificamente para tabelas gerenciadas, mas o ...
Hive - Existe uma maneira de otimizar ainda mais uma consulta HiveQL?
Escrevi uma consulta para encontrar os 10 aeroportos mais movimentados nos EUA de março a abril. Ele produz a saída desejada, no entanto, quero tentar otimizá-lo ainda mais. Existem otimizações específicas do HiveQL que podem ser aplicadas à ...
Falha intermitente do Hive / Hadoop: Não é possível mover a origem para o destino
Existem alguns artigos sobre SOHive/Hadoop Erro "Não foi possível mover a origem". Muitos deles apontam para um problema de permissão. No entanto, no meu site, vi o mesmo erro, mas tenho certeza de que não está relacionado ao problema de ...
Comandos Hive External Table vs Internal table
Supondo que eu tenho essas duas tabelas: Externo: create external table emp_feedback ( emp_id int, emp_name string ) LOCATION '/user/hive/warehouse/mydb.db/contacts';interno: create table emp_feedback ( emp_id int, emp_name string ) LOAD DATA ...
Executar Hive Query com parâmetros da cláusula IN em paralelo
Estou tendo uma consulta do Hive como a abaixo: select a.x as column from table1 a where a.y in (<long comma-separated list of parameters>) union all select b.x as column from table2 b where b.y in (<long comma-separated list of parameters>)Eu ...
Desempenho da consulta do Hive para campo de alta cardinalidade
Eu tenho uma tabela única mas enorme na seção, que quase sempre será consultada com a coluna da chave primária (por exemplo,employee_id) A tabela será realmente enorme, milhões de linhas serão inseridas todos os dias e eu quero ...
SPARK SQL falha se não houver um caminho de partição especificado disponível
Estou usando o Hive Metastore no EMR. Consigo consultar a tabela manualmente através do HiveSQL. Mas quando eu uso a mesma tabela no Spark Job, ele dizO caminho de entrada não existe: s3: // Causado por: ...
Como fazer com que o MSCK REPAIR TABLE seja executado automaticamente no AWS Athena
Eu tenho um trabalho em lote que é executado a cada hora. Cada execução gera e armazena novos dados emS3 com o padrão de nomenclatura de diretórioDATA/YEAR=?/MONTH=?/DATE=?/datafile. Depois de enviar os dados paraS3, Quero investigá-los ...
Como importo uma matriz de dados em linhas separadas em uma tabela de seção?
Estou tentando importar dados no seguinte formato para uma tabela de seção [ { "identifier" : "id#1", "dataA" : "dataA#1" }, { "identifier" : "id#2", "dataA" : "dataA#2" } ]Eu tenho vários arquivos como este e quero que cada {} forme uma linha ...