Resultados da pesquisa a pedido "hadoop"

2 a resposta

Não foi possível iniciar o serviço de metastore do hive ou o hive-shell após configurar o mysql com o hive

Eu já sei essa pergunta, mas essas respostas não estão ajudando de forma alguma. Estou gastando mais tempo para configurar o mysql com o hive. Toda vez que encontro erros e não entendo onde isso dá errado ... como você pode ver neste ligação ...

3 a resposta

Como atribuir e usar cabeçalhos de coluna no Spark?

Estou lendo um conjunto de dados como abaixo. f = sc.textFile("s3://test/abc.csv")Meu arquivo contém mais de 50 campos e desejo atribuir cabeçalhos de coluna para cada um dos campos para referência posteriormente no meu script. Como faço isso ...

2 a resposta

Leia arquivos de texto inteiro de uma compactação no Spark

Eu tenho o seguinte problema: suponha que eu tenha um diretório que contém diretórios compactados que contêm vários arquivos, armazenados no HDFS. Eu quero criar um RDD que consiste em alguns objetos do tipo T, ou seja: context = new ...

3 a resposta

Quais são os prós e os contras do formato parquet em comparação com outros formatos?

As características do Apache Parquet são: Auto-descriçãoFormato colunarIndependente do idiomaEm comparação com Avro, Sequence Files, RC File etc. Quero uma visão geral dos formatos. Eu já li:Como o Impala funciona com formatos de arquivo ...

1 a resposta

Hadoop e renderização em 3d de imagens

Eu tenho que fazer um projeto Renderização distribuída de uma imagem 3d. Eu posso usar algoritmos padrão. O objetivo é aprender o hadoop e não o processamento de imagens. Assim, qualquer um pode sugerir qual idioma devo usar c ++ ou java e alguma ...

1 a resposta

Porco: é possível escrever um loop sobre variáveis em uma lista?

Eu tenho que repetir mais de 30 variáveis em uma lista [var1,var2, ... , var30] e para cada variável eu uso algum PIGgroup by declaração como grouped = GROUP data by var1; data_var1 = FOREACH grouped{ GENERATE group as mygroup, COUNT(data) as ...

2 a resposta

Sqoop - Divisão de dados

Sqoop capaz de importar dados de várias tabelas usando--query , mas não está claro se é capaz de importar a consulta abaixo. Selecionar deptid, média (salário) do grupo emp por deptid Outra pergunta é sqoop import --connect jdbc: mysql: // ...

2 a resposta

Quantas partições o Spark cria quando um arquivo é carregado no bucket do S3?

Se o arquivo for carregado do HDFS por padrão, o spark criará uma partição por bloco. Mas como o spark decide partições quando um arquivo é carregado no bucket do S3?

1 a resposta

O Spark suporta subconsultas? [duplicado

Esta pergunta já tem uma resposta aqui: O SparkSQL suporta subconsulta? [/questions/33933118/does-sparksql-support-subquery] 2 respostasQuando estou executando esta consulta, recebi esse tipo de erro select * from raw_2 where ip NOT IN (select ...

1 a resposta

O que acontece se um RDD não puder caber na memória no Spark? [duplicado

Esta pergunta já tem uma resposta aqui: O que a faísca fará se eu não tiver memória suficiente? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respostas Até onde eu sei, o Spark tenta fazer todo o cálculo na memória, ...