Resultados da pesquisa a pedido "bigdata"

Pelo meu entendimento, o Hbase é o banco de dados Hadoop e o Hive é o data warehouse. O Hive permite criar tabelas e armazenar dados nele; você também pode mapear suas tabelas HBase existentes para o Hive e operar com elas. por que devemos usar ...

hadoop scala apache-spark

2 a resposta

Como posso calcular a mediana exata com o Apache Spark?

estepágina [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] contém algumas funções estatísticas (média, stdev, variância etc.), mas não contém a mediana. Como posso calcular a mediana exata? obrigado

hadoop export hbase

3 a resposta

Como determino o tamanho das minhas tabelas HBase? Existe algum comando para fazer isso?

Tenho várias tabelas no meu shell Hbase que gostaria de copiar no meu sistema de arquivos. Algumas tabelas excedem 100gb. No entanto, só tenho 55 GB de espaço livre no meu sistema de arquivos local. Portanto, gostaria de saber o tamanho das ...

apache-spark scalability distributed-computing pyspark

2 a resposta

escalabilidade de centelha: o que estou fazendo de errado?

Estou processando dados com spark e ele funciona com um dia de dados (40G), mas falha comOOMem uma semana de dados: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

java cassandra datastax cqlsh

7 a resposta

Erro de tempo limite de operação no console cqlsh do cassandra

Eu tenho um Cassandra Cluster de três nós e criei uma tabela com mais de 2.000.000 de linhas. Quando eu executo isso (select count(*) from userdetails) consulta no cqlsh, recebi este erro: OperationTimedOut: errors = {}, last_host = ...

hadoop apache-spark apache-drill

2 a resposta

Spark vs Apache Drill

Tenho alguma experiência com o Apache Spark e Spark-SQL. Recentemente eu encontrei o projeto Apache Drill. Você poderia me descrever quais são as vantagens / diferenças mais significativas entre elas? Eu já liAnálise rápida do Hadoop (Cloudera ...

scala categorical-data apache-spark apache-spark-mllib

4 a resposta

Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?

Estou tentando executar uma regressão logística (LogisticRegressionWithLBFGS) com Spark MLlib (com Scala) em um conjunto de dados que contém variáveis categóricas. Descobri que o Spark não foi capaz de trabalhar com esse tipo de variável. Em R, ...

postgresql sql algorithm mongodb

2 a resposta

Encontrando lacunas em grandes fluxos de eventos?

Eu tenho cerca de 1 milhão de eventos em um banco de dados PostgreSQL com este formato: id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....Existem cerca de 50.000 fluxos únicos. Preciso encontrar ...

apache-kafka java

3 a resposta

Como uso vários consumidores no Kafka?

Sou um estudante novo que estuda Kafka e já deparei com algumas questões fundamentais para entender vários consumidores de que artigos, documentações etc. não foram muito úteis até agora. Uma coisa que tentei fazer é escrever meu próprio ...

java apache-kafka kafka-consumer-api network-programming

0 a resposta

Por que o desempenho do consumidor Kafka é lento?

Eu tenho um tópico simples e um consumidor e produtor Kafka simples, usando a configuração padrão. O programa é muito simples, tenho dois threads. No produtor, ele continua enviando dados de 16 bytes. E no lado do consumidor, ele continua ...

Página 9 do 13

7 8910 11

Resultados da pesquisa a pedido "bigdata"

Qual é a diferença entre hbase e hive? (Hadoop)

Como posso calcular a mediana exata com o Apache Spark?

Como determino o tamanho das minhas tabelas HBase? Existe algum comando para fazer isso?

Tags populares

escalabilidade de centelha: o que estou fazendo de errado?

Erro de tempo limite de operação no console cqlsh do cassandra

Spark vs Apache Drill

Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?

Encontrando lacunas em grandes fluxos de eventos?

Como uso vários consumidores no Kafka?

Por que o desempenho do consumidor Kafka é lento?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "bigdata"

Tags populares