Resultados da pesquisa a pedido "bigdata"

3 a resposta

python - Usando estruturas de pandas com csv grande (iterar e chunksize)

Eu tenho um arquivo csv grande, cerca de 600mb com 11 milhões de linhas e quero criar dados estatísticos como pivôs, histogramas, gráficos etc. Obviamente, tentando apenas ler normalmente: df = pd.read_csv('Check400_900.csv', sep='\t')não ...

3 a resposta

Como definir o tamanho do bloco de dados no Hadoop? É vantagem mudar isso?

Se pudermos alterar o tamanho do bloco de dados no Hadoop, informe-me como fazer isso. É vantajoso alterar o tamanho do bloco. Se sim, informe-me Por que e como? Se não, deixe-me saber por que e como?

1 a resposta

Tempo de espera de 100 minutos do trabalho do SparkR

Eu escrevi um script sparkR um pouco complexo e o execute usando o envio de spark. O que o script basicamente faz é ler uma grande tabela de colméia / impala com base em parquet, linha por linha, e gerar um novo arquivo com o mesmo número de ...

2 a resposta

Como obter todas as definições de tabela em um banco de dados no Hive?

Estou procurando obter todas as definições de tabela no Hive. Eu sei que, para definição de tabela única, posso usar algo como - describe <<table_name>> describe extended <<table_name>>Mas não consegui encontrar uma maneira de obter todas as ...

3 a resposta

Um flatMap com faísca causa uma reprodução aleatória?

O flatMap no spark se comporta como a função de mapa e, portanto, não causa embaralhamento ou desencadeia um embaralhamento. Eu suspeito que isso causa embaralhamento. Alguém pode confirmar?

1 a resposta

Erro ao ativar a criptografia de dados usando a chave local MONGODB

Eu criptografei a comunicação com sucesso no mongoDB, mas quando tento habilitar a criptografia de dados, estou recebendo erros. Estou usando a edição corporativa do mongoDB com a versão 3.2.4. Eu recebo a seguinte mensagem no console: ERROR: ...

1 a resposta

Limites de memória na tabela de dados: vetores de comprimento negativo não são permitidos

Eu tenho uma tabela de dados com vários usuários de mídia social e seus seguidores. A tabela de dados original possui o seguinte formato: X.USERID FOLLOWERS 1081 4053807021,2476584389,4713715543, ...Portanto, cada linha contém um usuário junto ...

2 a resposta

Por que o Spark SQL considera o suporte de índices sem importância?

Citando os DataFrames Spark,Conjuntos de dados e manual SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Algumas otimizações do Hive ainda não estão incluídas no Spark. Alguns desses (como ...

1 a resposta

Confusão no hash usado pelo LSH

[/imgs/UYyNH.jpg] MatrizM é a matriz de assinaturas, produzida via Minhashing dos dados reais, possui documentos como colunas e palavras como linhas. Portanto, uma coluna representa um documento. Agora diz que todas as faixas (b em número,r de ...

2 a resposta

Quantas partições o Spark cria quando um arquivo é carregado no bucket do S3?

Se o arquivo for carregado do HDFS por padrão, o spark criará uma partição por bloco. Mas como o spark decide partições quando um arquivo é carregado no bucket do S3?