Resultados da pesquisa a pedido "bigdata"
Iterar um RDD e atualizar uma coleção mutável retorna uma coleção vazia
Eu sou novo no Scala e no Spark e gostaria de alguma ajuda para entender por que o código abaixo não está produzindo o resultado desejado. Estou comparando duas tabelas Meu esquema de saída desejado é: case class ...
Como posso importar um arquivo de despejo MySQL grande (14 GB) para um novo banco de dados MySQL?
Como posso importar um arquivo de despejo MySQL grande (14 GB) para um novo banco de dados MySQL?
Tópico Kafka por produtor
Vamos dizer que tenho vários dispositivos. Cada dispositivo possui diferentes tipos de sensores. Agora, quero enviar os dados de cada dispositivo para cada sensor para o kafka. Mas estou confuso sobre os tópicos kafka. Para processar esses dados ...
Cluster Zookeeper na AWS
Estou tentando configurar um cluster zookeeper em três máquinas AWS ec2, mas obtendo continuamente o mesmo erro: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - Cannot open channel to 3 at ...
acelerar o processamento de conjunto de resultados grande usando o rmongodb
Eu estou usando o rmongodb para obter todos os documentos em uma coleção particular. Funciona, mas estou trabalhando com milhões de pequenos documentos, pote...
Shuffle externo: embaralhando uma grande quantidade de dados sem memória
Eu estou procurando uma maneira de embaralhar uma grande quantidade de dados que não cabe na memória (aprox. 40GB).Eu tenho cerca de 30 milhões de entradas, ...
R ff pacote ffsave 'zip' não encontrado
Exemplo reproduzível:
Inserindo um grande número de nós no Neo4J
Eu tenho uma tabela armazenada em um banco de dados MySQL típico e eu construí uma pequena ferramenta parser usando java, para analisar e construir um banco ...
Como descartar linhas duplicadas usando pandas em um arquivo de grande volume de dados?
Eu tenho um arquivo csv muito grande para carregar na memória.Eu preciso soltar linhas duplicadas do arquivo. chunker = pd.read_table(AUTHORS_PATH, names=['Author ID', 'Author name'], encoding='utf-8', chunksize=10000000) for chunk in ...