Resultados da pesquisa a pedido "bigdata"

Estou trabalhando em um grande conjunto de dados com n covariates. Muitas das linhas são duplicadas. Para identificar as duplicatas, preciso usar um subconju...

apache-spark hadoop2

2 a resposta

Como centelha, como funciona a transmissão?

Esta é uma pergunta muito simples: na centelha,broadcast pode ser usado para enviar variáveis aos executores com eficiência. Como é que isso funciona ? Mais precisamente: quando os valores são enviados: assim que eu ligarbroadcastou quando os ...

scipy python arrays numpy

2 a resposta

Trabalhando com big data em python e numpy, ram insuficiente, como salvar resultados parciais no disco?

Eu estou tentando implementar algoritmos para dados de 1000 dimensões com 200k + datapoints em python. Eu quero usar numpy, scipy, sklearn, networkx e outras...

time-series cassandra nosql database

1 a resposta

Modelo de dados do Cassandra para séries temporais

performance r

3 a resposta

Como acelerar a estimativa de GLM?

sql hive hadoop apache-pig

2 a resposta

Como obter array / bag de elementos do grupo Hive por operadora?

Eu quero agrupar por um determinado campo e obter a saída com campos agrupados. Abaixo está um exemplo do que estou tentando alcançar:Imagine uma tabela cham...

algorithm distributed-computing python apache-spark

1 a resposta

Preparar meus dados grandes com Spark via Python

Meus 100m de tamanho, dados quantizados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado desejado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Então, o que eu quero é transformar os dados para agrupar 3885 ...

hiveql hive hadoop

2 a resposta

atualizando a tabela externa Hive com alterações do HDFS

Vamos dizer, eu criei Hive tabela externa "myTable" do arquivo myFile.csv (localizado no HDFS).myFile.csv é alterado todos os dias, então estou int...

amazon-emr parquet emr amazon-s3

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

1 a resposta

converter data.frame para ff

Eu gostaria de converter um data.frame para um objeto ff, com as.ffdf como descritoAqui

Página 3 do 13

1 234 5

Resultados da pesquisa a pedido "bigdata"

removendo unidades duplicadas do quadro de dados

Como centelha, como funciona a transmissão?

Trabalhando com big data em python e numpy, ram insuficiente, como salvar resultados parciais no disco?

Tags populares

Modelo de dados do Cassandra para séries temporais

Como acelerar a estimativa de GLM?

Como obter array / bag de elementos do grupo Hive por operadora?

Preparar meus dados grandes com Spark via Python

atualizando a tabela externa Hive com alterações do HDFS

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

converter data.frame para ff

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "bigdata"

Tags populares