Resultados da pesquisa a pedido "bigdata"

3 a resposta

removendo unidades duplicadas do quadro de dados

Estou trabalhando em um grande conjunto de dados com n covariates. Muitas das linhas são duplicadas. Para identificar as duplicatas, preciso usar um subconju...

2 a resposta

Como centelha, como funciona a transmissão?

Esta é uma pergunta muito simples: na centelha,broadcast pode ser usado para enviar variáveis aos executores com eficiência. Como é que isso funciona ? Mais precisamente: quando os valores são enviados: assim que eu ligarbroadcastou quando os ...

2 a resposta

Trabalhando com big data em python e numpy, ram insuficiente, como salvar resultados parciais no disco?

Eu estou tentando implementar algoritmos para dados de 1000 dimensões com 200k + datapoints em python. Eu quero usar numpy, scipy, sklearn, networkx e outras...

1 a resposta

Modelo de dados do Cassandra para séries temporais

3 a resposta

Como acelerar a estimativa de GLM?

2 a resposta

Como obter array / bag de elementos do grupo Hive por operadora?

Eu quero agrupar por um determinado campo e obter a saída com campos agrupados. Abaixo está um exemplo do que estou tentando alcançar:Imagine uma tabela cham...

1 a resposta

Preparar meus dados grandes com Spark via Python

Meus 100m de tamanho, dados quantizados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado desejado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Então, o que eu quero é transformar os dados para agrupar 3885 ...

2 a resposta

atualizando a tabela externa Hive com alterações do HDFS

Vamos dizer, eu criei Hive tabela externa "myTable" do arquivo myFile.csv (localizado no HDFS).myFile.csv é alterado todos os dias, então estou int...

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

1 a resposta

converter data.frame para ff

Eu gostaria de converter um data.frame para um objeto ff, com as.ffdf como descritoAqui