Resultados da pesquisa a pedido "bigdata"
O KMeans do Spark não consegue lidar com dados grandes?
O KMeans possui vários parâmetros para suaTreinamento [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , com o modo de inicialização padronizado para kmeans ||. O problema ...
Como exportar rapidamente dados do R para o SQL Server
O pacote RODBC padrão
Como fazer uma junção no Elasticsearch - ou no nível Lucene
Qual é a melhor maneira de fazer o equivalente a uma junção SQL no Elasticsearch?Eu tenho uma configuração do SQL com duas grandes tabelas: pessoas e itens. ...
Existe uma boa maneira de evitar a cópia profunda da memória ou reduzir o tempo gasto em multiprocessamento?
Eu estou fazendo um módulo de cálculo em tempo real baseado em memória de "Big Data" usando o módulo Pandas do ambiente Python.Então, o tempo de re...
Leia n linhas de um grande arquivo de texto
O menor arquivo que tenho possui> 850k linhas e todas as linhas são de tamanho desconhecido. O objetivo é lern linhas desse arquivo no navegador. Lê-lo completamente não vai acontecer. Aqui está o HTML<input type="file" name="file" id="file"> e ...
Hadoop 2 IOException apenas ao tentar abrir arquivos de cache supostos
Eu atualizei recentemente para o hadoop 2.2 (usando este tutorialAqui).Minha classe de trabalho principal parece com isso e lança uma IOException:
Como posso salvar um RDD no HDFS e depois lê-lo novamente?
Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?