Resultados da pesquisa a pedido "bigdata"
tempo de execução do trabalho no @park aumenta exponencialmente com um conjunto de dados muito amplo e o número de colunas [duplicado]
Esta pergunta é uma duplicata exata de: mportação de arquivo de largura fixa do @Spark Grande número de colunas causando alto tempo de ...
Determinação do número ideal de partições Spark com base em trabalhadores, núcleos e tamanho do DataFrame
Existem vários conceitos semelhantes, porém diferentes, no Spark-land que envolvem como o trabalho é distribuído em diferentes nós e executado simultaneamente. Especificamente, há: O nó do Driver Spark sparkDriverCount)O número de nós do ...
O que acontece se um RDD não puder caber na memória no Spark? [duplicado
Esta pergunta já tem uma resposta aqui: O que a faísca fará se eu não tiver memória suficiente? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respostas Até onde eu sei, o Spark tenta fazer todo o cálculo na memória, ...
Como faço para subir no HDFS com spark?
Eu particionei dados no HDFS. Em algum momento eu decido atualizá-lo. O algoritmo é: Leia os novos dados de um tópico kafk Descubra novos nomes de partição de dado Carregue os dados das partições com esses nomes que estão no HDFMerge os dados do ...
Trabalhando com um grande arquivo CSV no MATLAB
Tenho que trabalhar com um grande arquivo CSV, de até 2 GB. Mais especificamente, eu tenho que fazer upload de todos esses dados no banco de dados mySQL, mas antes que eu precise fazer alguns cálculos sobre isso, preciso fazer tudo isso no ...
Armazenamento de dados para grandes dados de simulação astrofísica
Eu sou estudante de astrofísica. Eu corro grandes simulações usando códigos desenvolvidos principalmente por outras pessoas há mais de uma década. Para exemplos desses códigos, você pode conferir o gadgethttp: //www.mpa-garching.mpg.de/gadget ...
Mude do Mysql para o MongoDB 200 milhões de linhas
Estamos tentando passar do mysql para o mongodb. estrutura mysql é id_src int id_dest int chave exclusiva: id_src, id_dest São cerca de 200 milhões de linhas no mysql xemplo de dados: {id_src, id_dest} {1,2} {1,3} {1,10} {2,3} {2,10} ...
Leitura de arquivo em buffer C ++
Gostaria de saber se a leitura de um arquivo de texto grande, linha por linha (por exemplo, std :: getline ou fgets) pode ser armazenada em buffer com o tamanho predefinido do buffer de leitura ou é necessário usar funções especiais bytewis ...
Melhor maneira de excluir milhões de linhas por ID
Preciso excluir cerca de 2 milhões de linhas do meu banco de dados PG. Eu tenho uma lista de IDs que preciso excluir. No entanto, qualquer maneira que eu tente fazer isso está levando dias. Eu tentei colocá-los em uma tabela e fazê-lo em lotes ...
importância do PCA ou SVD no aprendizado de máquina
odo esse tempo (especialmente no concurso da Netflix), eu sempre me deparei com este blog (ou fórum de líderes), onde eles mencionam como a aplicação de uma simples etapa SVD nos dados os ajudou a reduzir a escassez de dados ou, em geral, ...