Resultados da pesquisa a pedido "hadoop"
Como ler recursivamente arquivos Hadoop do diretório usando o Spark?
Dentro do diretório fornecido, tenho muitas pastas diferentes e, dentro de cada pasta, tenho arquivos Hadoop (part_001etc.). directory -> folder1 -> part_001... -> part_002... -> folder2 -> part_001... ... Dado o diretório, como posso ler ...
Como excluir registros duplicados da tabela do Hive?
Estou tentando aprender sobre a exclusão de registros duplicados de uma tabela do Hive. Tabela My Hive: 'dynpart' com colunas: Id, Nome, Tecnologia Id Name Technology 1 Abcd Hadoop 2 Efgh Java 3 Ijkl MainFrames 2 Efgh JavaTemos opções como ...
Como fazer o CopyMerge no Hadoop 3.0?
eu seihadoop versão2.7éFileUtil tem ocopyMerge função que mescla vários arquivos em um novo. Mas ocopyMerge A função não é mais suportada pela API no diretório3.0 versão. Alguma idéia de como mesclar todos os arquivos em um diretório em um ...
Como definir uma variável de ambiente personalizada no EMR para estar disponível para um aplicativo Spark
Preciso definir uma variável de ambiente personalizada no EMR para estar disponível ao executar um aplicativo spark. Eu tentei adicionar isso: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ { "Classification": ...
Como converter uma tabela SQL de 500GB para Apache Parquet?
Talvez isso esteja bem documentado, mas estou ficando muito confuso sobre como fazer isso (existem muitas ferramentas Apache). Quando crio uma tabela SQL, crio a tabela usando os seguintes comandos: CREATE TABLE table_name( column1 datatype, ...
Conectando a um mestre mestre remoto do Spark - Java / Scala
Eu criei um nó 3 (1 mestre, 2 trabalhadores)Apache Spark cluster na AWS. Sou capaz de enviar trabalhos ao cluster a partir do mestre, mas não consigo fazê-lo funcionar remotamente. /* SimpleApp.scala */ import org.apache.spark.SparkContext ...
quantos mapeadores e redutores serão criados para uma tabela particionada no hive
Estou sempre confuso sobre quantos mapeadores e reduções serão criados para uma tarefa específica no hive. por exemplo, se o tamanho do bloco = 128mb e houver 365 arquivos cada mapeados para uma data em um ano (tamanho do arquivo = 1 mb cada). Há ...
Como reiniciar uma tarefa com falha no Airflow
Estou usando umLocalExecutore meu dag tem3 tarefasonde a tarefa (C) depende da tarefa (A). Tarefa (B) e tarefa (A) podem ser executadas em paralelo, como abaixo A -> C B Portanto, a tarefa (A) falhoue mastarefa (B) correu bem. A tarefa (C) ...
É possível ler e escrever o Parquet usando Java sem depender do Hadoop e HDFS?
Eu tenho procurado por uma solução para esta pergunta. Parece-me que não há como incorporar a leitura e a gravação do formato Parquet em um programa Java sem gerar dependências no HDFS e no Hadoop. Isso está correto? Quero ler e gravar em uma ...
como lidar com milhões de arquivos s3 menores com o apache spark
então esse problema está me deixando louco, e está começando a parecer que a faísca com s3 não é a ferramenta certa para esse trabalho específico. Basicamente, tenho milhões de arquivos menores em um balde s3. Por motivos em que não posso ...