Resultados da pesquisa a pedido "bigdata"
Qual é a diferença entre hbase e hive? (Hadoop)
Pelo meu entendimento, o Hbase é o banco de dados Hadoop e o Hive é o data warehouse. O Hive permite criar tabelas e armazenar dados nele; você também pode mapear suas tabelas HBase existentes para o Hive e operar com elas. por que devemos usar ...
Como posso calcular a mediana exata com o Apache Spark?
estepágina [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] contém algumas funções estatísticas (média, stdev, variância etc.), mas não contém a mediana. Como posso calcular a mediana exata? obrigado
Como determino o tamanho das minhas tabelas HBase? Existe algum comando para fazer isso?
Tenho várias tabelas no meu shell Hbase que gostaria de copiar no meu sistema de arquivos. Algumas tabelas excedem 100gb. No entanto, só tenho 55 GB de espaço livre no meu sistema de arquivos local. Portanto, gostaria de saber o tamanho das ...
escalabilidade de centelha: o que estou fazendo de errado?
Estou processando dados com spark e ele funciona com um dia de dados (40G), mas falha comOOMem uma semana de dados: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...
Erro de tempo limite de operação no console cqlsh do cassandra
Eu tenho um Cassandra Cluster de três nós e criei uma tabela com mais de 2.000.000 de linhas. Quando eu executo isso (select count(*) from userdetails) consulta no cqlsh, recebi este erro: OperationTimedOut: errors = {}, last_host = ...
Spark vs Apache Drill
Tenho alguma experiência com o Apache Spark e Spark-SQL. Recentemente eu encontrei o projeto Apache Drill. Você poderia me descrever quais são as vantagens / diferenças mais significativas entre elas? Eu já liAnálise rápida do Hadoop (Cloudera ...
Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?
Estou tentando executar uma regressão logística (LogisticRegressionWithLBFGS) com Spark MLlib (com Scala) em um conjunto de dados que contém variáveis categóricas. Descobri que o Spark não foi capaz de trabalhar com esse tipo de variável. Em R, ...
Encontrando lacunas em grandes fluxos de eventos?
Eu tenho cerca de 1 milhão de eventos em um banco de dados PostgreSQL com este formato: id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....Existem cerca de 50.000 fluxos únicos. Preciso encontrar ...
Como uso vários consumidores no Kafka?
Sou um estudante novo que estuda Kafka e já deparei com algumas questões fundamentais para entender vários consumidores de que artigos, documentações etc. não foram muito úteis até agora. Uma coisa que tentei fazer é escrever meu próprio ...
Por que o desempenho do consumidor Kafka é lento?
Eu tenho um tópico simples e um consumidor e produtor Kafka simples, usando a configuração padrão. O programa é muito simples, tenho dois threads. No produtor, ele continua enviando dados de 16 bytes. E no lado do consumidor, ele continua ...