Resultados da pesquisa a pedido "bigdata"
removendo unidades duplicadas do quadro de dados
Estou trabalhando em um grande conjunto de dados com n covariates. Muitas das linhas são duplicadas. Para identificar as duplicatas, preciso usar um subconju...
Como centelha, como funciona a transmissão?
Esta é uma pergunta muito simples: na centelha,broadcast pode ser usado para enviar variáveis aos executores com eficiência. Como é que isso funciona ? Mais precisamente: quando os valores são enviados: assim que eu ligarbroadcastou quando os ...
Trabalhando com big data em python e numpy, ram insuficiente, como salvar resultados parciais no disco?
Eu estou tentando implementar algoritmos para dados de 1000 dimensões com 200k + datapoints em python. Eu quero usar numpy, scipy, sklearn, networkx e outras...
Como obter array / bag de elementos do grupo Hive por operadora?
Eu quero agrupar por um determinado campo e obter a saída com campos agrupados. Abaixo está um exemplo do que estou tentando alcançar:Imagine uma tabela cham...
Preparar meus dados grandes com Spark via Python
Meus 100m de tamanho, dados quantizados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado desejado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Então, o que eu quero é transformar os dados para agrupar 3885 ...
atualizando a tabela externa Hive com alterações do HDFS
Vamos dizer, eu criei Hive tabela externa "myTable" do arquivo myFile.csv (localizado no HDFS).myFile.csv é alterado todos os dias, então estou int...
Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?
De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...
converter data.frame para ff
Eu gostaria de converter um data.frame para um objeto ff, com as.ffdf como descritoAqui