Resultados da pesquisa a pedido "bigdata"
python - Usando estruturas de pandas com csv grande (iterar e chunksize)
Eu tenho um arquivo csv grande, cerca de 600mb com 11 milhões de linhas e quero criar dados estatísticos como pivôs, histogramas, gráficos etc. Obviamente, tentando apenas ler normalmente: df = pd.read_csv('Check400_900.csv', sep='\t')não ...
Como definir o tamanho do bloco de dados no Hadoop? É vantagem mudar isso?
Se pudermos alterar o tamanho do bloco de dados no Hadoop, informe-me como fazer isso. É vantajoso alterar o tamanho do bloco. Se sim, informe-me Por que e como? Se não, deixe-me saber por que e como?
Tempo de espera de 100 minutos do trabalho do SparkR
Eu escrevi um script sparkR um pouco complexo e o execute usando o envio de spark. O que o script basicamente faz é ler uma grande tabela de colméia / impala com base em parquet, linha por linha, e gerar um novo arquivo com o mesmo número de ...
Como obter todas as definições de tabela em um banco de dados no Hive?
Estou procurando obter todas as definições de tabela no Hive. Eu sei que, para definição de tabela única, posso usar algo como - describe <<table_name>> describe extended <<table_name>>Mas não consegui encontrar uma maneira de obter todas as ...
Um flatMap com faísca causa uma reprodução aleatória?
O flatMap no spark se comporta como a função de mapa e, portanto, não causa embaralhamento ou desencadeia um embaralhamento. Eu suspeito que isso causa embaralhamento. Alguém pode confirmar?
Erro ao ativar a criptografia de dados usando a chave local MONGODB
Eu criptografei a comunicação com sucesso no mongoDB, mas quando tento habilitar a criptografia de dados, estou recebendo erros. Estou usando a edição corporativa do mongoDB com a versão 3.2.4. Eu recebo a seguinte mensagem no console: ERROR: ...
Limites de memória na tabela de dados: vetores de comprimento negativo não são permitidos
Eu tenho uma tabela de dados com vários usuários de mídia social e seus seguidores. A tabela de dados original possui o seguinte formato: X.USERID FOLLOWERS 1081 4053807021,2476584389,4713715543, ...Portanto, cada linha contém um usuário junto ...
Por que o Spark SQL considera o suporte de índices sem importância?
Citando os DataFrames Spark,Conjuntos de dados e manual SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Algumas otimizações do Hive ainda não estão incluídas no Spark. Alguns desses (como ...
Confusão no hash usado pelo LSH
[/imgs/UYyNH.jpg] MatrizM é a matriz de assinaturas, produzida via Minhashing dos dados reais, possui documentos como colunas e palavras como linhas. Portanto, uma coluna representa um documento. Agora diz que todas as faixas (b em número,r de ...
Quantas partições o Spark cria quando um arquivo é carregado no bucket do S3?
Se o arquivo for carregado do HDFS por padrão, o spark criará uma partição por bloco. Mas como o spark decide partições quando um arquivo é carregado no bucket do S3?