Resultados da pesquisa a pedido "bigdata"

2 a resposta

Iterar um RDD e atualizar uma coleção mutável retorna uma coleção vazia

Eu sou novo no Scala e no Spark e gostaria de alguma ajuda para entender por que o código abaixo não está produzindo o resultado desejado. Estou comparando duas tabelas Meu esquema de saída desejado é: case class ...

10 a resposta

Como posso importar um arquivo de despejo MySQL grande (14 GB) para um novo banco de dados MySQL?

Como posso importar um arquivo de despejo MySQL grande (14 GB) para um novo banco de dados MySQL?

2 a resposta

Tópico Kafka por produtor

Vamos dizer que tenho vários dispositivos. Cada dispositivo possui diferentes tipos de sensores. Agora, quero enviar os dados de cada dispositivo para cada sensor para o kafka. Mas estou confuso sobre os tópicos kafka. Para processar esses dados ...

1 a resposta

Cluster Zookeeper na AWS

Estou tentando configurar um cluster zookeeper em três máquinas AWS ec2, mas obtendo continuamente o mesmo erro: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - Cannot open channel to 3 at ...

2 a resposta

acelerar o processamento de conjunto de resultados grande usando o rmongodb

Eu estou usando o rmongodb para obter todos os documentos em uma coleção particular. Funciona, mas estou trabalhando com milhões de pequenos documentos, pote...

6 a resposta

Shuffle externo: embaralhando uma grande quantidade de dados sem memória

Eu estou procurando uma maneira de embaralhar uma grande quantidade de dados que não cabe na memória (aprox. 40GB).Eu tenho cerca de 30 milhões de entradas, ...

3 a resposta

R ff pacote ffsave 'zip' não encontrado

Exemplo reproduzível:

3 a resposta

Inserindo um grande número de nós no Neo4J

Eu tenho uma tabela armazenada em um banco de dados MySQL típico e eu construí uma pequena ferramenta parser usando java, para analisar e construir um banco ...

2 a resposta

importar dados Json complexos para a colmeia

1 a resposta

Como descartar linhas duplicadas usando pandas em um arquivo de grande volume de dados?

Eu tenho um arquivo csv muito grande para carregar na memória.Eu preciso soltar linhas duplicadas do arquivo. chunker = pd.read_table(AUTHORS_PATH, names=['Author ID', 'Author name'], encoding='utf-8', chunksize=10000000) for chunk in ...