Resultados da pesquisa a pedido "large-data"

0 a resposta

Centralidade de intermediação para dados em escala relativamente grande

Usando R, tento calcular a centralidade de intermediação para cerca de 1 milhão de nós e mais de 20 milhões de arestas. Para fazer isso, eu tenho uma máquina bastante decente com 128 GB de RAM e CPU de 4 * 2,40 GHz e janelas de 64 bits. No ...

1 a resposta

erro de estouro de pilha de proteção de contato

Eu estou usando fread no data.table (1.8.8, R 3.0.1) em uma tentativa de ler arquivos muito grandes.O arquivo em questão tem 313 linhas e ~ 6,6 milhões de co...

1 a resposta

Por que o MongoDB ocupa muito espaço?

Eu estou tentando armazenar registros com um conjunto de duplas e ints (em torno de 15-20) no mongoDB. Os registros principalmente (99,99%) têm a mesma estru...

1 a resposta

R não pôde alocar memória no procedimento ff. Por quê?

Estou trabalhando em uma máquina Windows Server 2008 de 64 bits com processador Intel Xeon e 24 GB de RAM. Estou com problemas para tentar ler um arquivo TSV (delimitado por tabulação) específico de 11 GB (> 24 milhões de linhas, 20 colunas). Meu ...

1 a resposta

R - Por que adicionar uma coluna à tabela de dados quase dobra o pico de memória usado?

Depois de receberSocorro [https://stackoverflow.com/questions/28279078/r-how-to-run-average-max-on-different-data-table-columns-based-on-multiple-f] de dois senhores, consegui passar para as tabelas de dados do quadro de dados + plyr. A situação ...

1 a resposta

MATLAB permutando aleatoriamente colunas de maneira diferente

Eu tenho uma matriz muito grande A com N linhas e M colunas. Eu quero basicamente fazer a seguinte operação for k = 1:N A(k,:) = A(k,randperm(M)); endmas rápido e eficiente. (M e N são muito grandes, e esse é apenas um loop interno em um loop ...

1 a resposta

RANK ou ROW_NUMBER no BigQuery em um grande conjunto de dados

Preciso adicionar números de linhas a um grande conjunto de dados (cerca de bilhões de linhas) no BigQuery. Quando tento: SELECT * ROW_NUMBER() OVER (ORDER BY d_arf DESC) plarf FROM [trigram.trigrams8] Recebo "Recursos excedidos durante a ...

1 a resposta

Projetando um algoritmo de classificação de memória externa

Se eu tiver uma lista muito grande armazenada na memória externa que precise ser classificada. Como essa lista é muito grande para a memória interna, que fatores principais devem ser considerados ao projetar um algoritmo de classificação externa?

1 a resposta

Inserir grande quantidade de dados no BigQuery por meio da biblioteca bigquery-python

Eu tenho arquivos csv grandes e arquivos excel, onde os leio e crio o script de criação de tabela necessário dinamicamente, dependendo dos campos e tipos que ele possui. Em seguida, insira os dados na tabela criada. eu ...

1 a resposta

R: xmlEventParse com entrada XML grande e de nó variável e conversão para quadro de dados

Eu tenho ~ 100 arquivos XML de dados de publicação cada um> 10 GB formatados assim: <?xml version="1.0" encoding="UTF-8"?> <records xmlns="http://website”> <REC rid=“this is a test”> <UID>ABCD123</UID> <data_1> <fullrecord_metadata> <references ...