Resultados da pesquisa a pedido "large-data"
Centralidade de intermediação para dados em escala relativamente grande
Usando R, tento calcular a centralidade de intermediação para cerca de 1 milhão de nós e mais de 20 milhões de arestas. Para fazer isso, eu tenho uma máquina bastante decente com 128 GB de RAM e CPU de 4 * 2,40 GHz e janelas de 64 bits. No ...
erro de estouro de pilha de proteção de contato
Eu estou usando fread no data.table (1.8.8, R 3.0.1) em uma tentativa de ler arquivos muito grandes.O arquivo em questão tem 313 linhas e ~ 6,6 milhões de co...
Por que o MongoDB ocupa muito espaço?
Eu estou tentando armazenar registros com um conjunto de duplas e ints (em torno de 15-20) no mongoDB. Os registros principalmente (99,99%) têm a mesma estru...
R não pôde alocar memória no procedimento ff. Por quê?
Estou trabalhando em uma máquina Windows Server 2008 de 64 bits com processador Intel Xeon e 24 GB de RAM. Estou com problemas para tentar ler um arquivo TSV (delimitado por tabulação) específico de 11 GB (> 24 milhões de linhas, 20 colunas). Meu ...
R - Por que adicionar uma coluna à tabela de dados quase dobra o pico de memória usado?
Depois de receberSocorro [https://stackoverflow.com/questions/28279078/r-how-to-run-average-max-on-different-data-table-columns-based-on-multiple-f] de dois senhores, consegui passar para as tabelas de dados do quadro de dados + plyr. A situação ...
MATLAB permutando aleatoriamente colunas de maneira diferente
Eu tenho uma matriz muito grande A com N linhas e M colunas. Eu quero basicamente fazer a seguinte operação for k = 1:N A(k,:) = A(k,randperm(M)); endmas rápido e eficiente. (M e N são muito grandes, e esse é apenas um loop interno em um loop ...
RANK ou ROW_NUMBER no BigQuery em um grande conjunto de dados
Preciso adicionar números de linhas a um grande conjunto de dados (cerca de bilhões de linhas) no BigQuery. Quando tento: SELECT * ROW_NUMBER() OVER (ORDER BY d_arf DESC) plarf FROM [trigram.trigrams8] Recebo "Recursos excedidos durante a ...
Projetando um algoritmo de classificação de memória externa
Se eu tiver uma lista muito grande armazenada na memória externa que precise ser classificada. Como essa lista é muito grande para a memória interna, que fatores principais devem ser considerados ao projetar um algoritmo de classificação externa?
Inserir grande quantidade de dados no BigQuery por meio da biblioteca bigquery-python
Eu tenho arquivos csv grandes e arquivos excel, onde os leio e crio o script de criação de tabela necessário dinamicamente, dependendo dos campos e tipos que ele possui. Em seguida, insira os dados na tabela criada. eu ...
R: xmlEventParse com entrada XML grande e de nó variável e conversão para quadro de dados
Eu tenho ~ 100 arquivos XML de dados de publicação cada um> 10 GB formatados assim: <?xml version="1.0" encoding="UTF-8"?> <records xmlns="http://website”> <REC rid=“this is a test”> <UID>ABCD123</UID> <data_1> <fullrecord_metadata> <references ...