Resultados da pesquisa a pedido "bigdata"

1 a resposta

tempo de execução do trabalho no @park aumenta exponencialmente com um conjunto de dados muito amplo e o número de colunas [duplicado]

Esta pergunta é uma duplicata exata de: mportação de arquivo de largura fixa do @Spark Grande número de colunas causando alto tempo de ...

1 a resposta

Determinação do número ideal de partições Spark com base em trabalhadores, núcleos e tamanho do DataFrame

Existem vários conceitos semelhantes, porém diferentes, no Spark-land que envolvem como o trabalho é distribuído em diferentes nós e executado simultaneamente. Especificamente, há: O nó do Driver Spark sparkDriverCount)O número de nós do ...

1 a resposta

O que acontece se um RDD não puder caber na memória no Spark? [duplicado

Esta pergunta já tem uma resposta aqui: O que a faísca fará se eu não tiver memória suficiente? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respostas Até onde eu sei, o Spark tenta fazer todo o cálculo na memória, ...

1 a resposta

Como faço para subir no HDFS com spark?

Eu particionei dados no HDFS. Em algum momento eu decido atualizá-lo. O algoritmo é: Leia os novos dados de um tópico kafk Descubra novos nomes de partição de dado Carregue os dados das partições com esses nomes que estão no HDFMerge os dados do ...

2 a resposta

Trabalhando com um grande arquivo CSV no MATLAB

Tenho que trabalhar com um grande arquivo CSV, de até 2 GB. Mais especificamente, eu tenho que fazer upload de todos esses dados no banco de dados mySQL, mas antes que eu precise fazer alguns cálculos sobre isso, preciso fazer tudo isso no ...

1 a resposta

Armazenamento de dados para grandes dados de simulação astrofísica

Eu sou estudante de astrofísica. Eu corro grandes simulações usando códigos desenvolvidos principalmente por outras pessoas há mais de uma década. Para exemplos desses códigos, você pode conferir o gadgethttp: //www.mpa-garching.mpg.de/gadget ...

1 a resposta

Mude do Mysql para o MongoDB 200 milhões de linhas

Estamos tentando passar do mysql para o mongodb. estrutura mysql é id_src int id_dest int chave exclusiva: id_src, id_dest São cerca de 200 milhões de linhas no mysql xemplo de dados: {id_src, id_dest} {1,2} {1,3} {1,10} {2,3} {2,10} ...

1 a resposta

Leitura de arquivo em buffer C ++

Gostaria de saber se a leitura de um arquivo de texto grande, linha por linha (por exemplo, std :: getline ou fgets) pode ser armazenada em buffer com o tamanho predefinido do buffer de leitura ou é necessário usar funções especiais bytewis ...

7 a resposta

Melhor maneira de excluir milhões de linhas por ID

Preciso excluir cerca de 2 milhões de linhas do meu banco de dados PG. Eu tenho uma lista de IDs que preciso excluir. No entanto, qualquer maneira que eu tente fazer isso está levando dias. Eu tentei colocá-los em uma tabela e fazê-lo em lotes ...

6 a resposta

importância do PCA ou SVD no aprendizado de máquina

odo esse tempo (especialmente no concurso da Netflix), eu sempre me deparei com este blog (ou fórum de líderes), onde eles mencionam como a aplicação de uma simples etapa SVD nos dados os ajudou a reduzir a escassez de dados ou, em geral, ...