Resultados da pesquisa a pedido "bigdata"

1 a resposta

Qual é a diferença entre hbase e hive? (Hadoop)

Pelo meu entendimento, o Hbase é o banco de dados Hadoop e o Hive é o data warehouse. O Hive permite criar tabelas e armazenar dados nele; você também pode mapear suas tabelas HBase existentes para o Hive e operar com elas. por que devemos usar ...

2 a resposta

Como posso calcular a mediana exata com o Apache Spark?

estepágina [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] contém algumas funções estatísticas (média, stdev, variância etc.), mas não contém a mediana. Como posso calcular a mediana exata? obrigado

3 a resposta

Como determino o tamanho das minhas tabelas HBase? Existe algum comando para fazer isso?

Tenho várias tabelas no meu shell Hbase que gostaria de copiar no meu sistema de arquivos. Algumas tabelas excedem 100gb. No entanto, só tenho 55 GB de espaço livre no meu sistema de arquivos local. Portanto, gostaria de saber o tamanho das ...

2 a resposta

escalabilidade de centelha: o que estou fazendo de errado?

Estou processando dados com spark e ele funciona com um dia de dados (40G), mas falha comOOMem uma semana de dados: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

7 a resposta

Erro de tempo limite de operação no console cqlsh do cassandra

Eu tenho um Cassandra Cluster de três nós e criei uma tabela com mais de 2.000.000 de linhas. Quando eu executo isso (select count(*) from userdetails) consulta no cqlsh, recebi este erro: OperationTimedOut: errors = {}, last_host = ...

2 a resposta

Spark vs Apache Drill

Tenho alguma experiência com o Apache Spark e Spark-SQL. Recentemente eu encontrei o projeto Apache Drill. Você poderia me descrever quais são as vantagens / diferenças mais significativas entre elas? Eu já liAnálise rápida do Hadoop (Cloudera ...

4 a resposta

Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?

Estou tentando executar uma regressão logística (LogisticRegressionWithLBFGS) com Spark MLlib (com Scala) em um conjunto de dados que contém variáveis categóricas. Descobri que o Spark não foi capaz de trabalhar com esse tipo de variável. Em R, ...

2 a resposta

Encontrando lacunas em grandes fluxos de eventos?

Eu tenho cerca de 1 milhão de eventos em um banco de dados PostgreSQL com este formato: id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....Existem cerca de 50.000 fluxos únicos. Preciso encontrar ...

3 a resposta

Como uso vários consumidores no Kafka?

Sou um estudante novo que estuda Kafka e já deparei com algumas questões fundamentais para entender vários consumidores de que artigos, documentações etc. não foram muito úteis até agora. Uma coisa que tentei fazer é escrever meu próprio ...

0 a resposta

Por que o desempenho do consumidor Kafka é lento?

Eu tenho um tópico simples e um consumidor e produtor Kafka simples, usando a configuração padrão. O programa é muito simples, tenho dois threads. No produtor, ele continua enviando dados de 16 bytes. E no lado do consumidor, ele continua ...