Resultados da pesquisa a pedido "rdd"

1 a resposta

Spark RDD: Como calcular estatísticas com mais eficiência?

Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...

1 a resposta

Exceção ao acessar o KafkaOffset a partir do RDD

Eu tenho um consumidor Spark que transmite de Kafka. Estou tentando gerenciar deslocamentos para a semântica exatamente uma vez. No entanto, ao acessar o deslocamento, lança a seguinte exceção: "java.lang.ClassCastException: ...

1 a resposta

Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?

Eu tenho um RDD de (chave, valor) elementos. As teclas são matrizes NumPy. As matrizes NumPy não são hasháveis e isso causa um problema quando tento fazer umreduceByKey Operação. Existe uma maneira de fornecer ao contexto do Spark minha função ...

3 a resposta

Como calcular o melhor numberOfPartitions para coalescer?

Então, eu entendo que em geral deve-se usarcoalesce() quando: o número de partições diminui devido a umafilter ou alguma outra operação que possa resultar na redução do conjunto de dados original (RDD, DF).coalesce() é útil para executar ...

2 a resposta

Como posso salvar um RDD no HDFS e depois lê-lo novamente?

Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?

1 a resposta

Reutilizar um Spark RDD em cache

Existe a possibilidade do Spark reutilizar um RDD em cache em outro aplicativo (ou em outra execução do mesmo aplicativo)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...

1 a resposta

Particionamento inesperado do Spark HashPartitioner

estou usandoHashPartioner mas obtendo um resultado inesperado. Estou usando 3 String diferente como chaves e dando o parâmetro de partição como 3, então espero 3 partições. val cars = Array("Honda", "Toyota", "Kia") val carnamePrice = ...

3 a resposta

Achatando o JSON na estrutura tabular usando o Spark-Scala RDD only fucntion

Aninhei JSON e gostaria de ter saída na estrutura tabular. Sou capaz de analisar os valores JSON individualmente, mas com alguns problemas na tabulação. Sou capaz de fazê-lo via dataframe facilmente. Mas eu quero fazê-lo usando as funções "RDD ...

1 a resposta

Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark

O que acontecerá com arquivos grandes nesses casos? 1) O Spark obtém uma localização do NameNode para dados. O Spark será interrompido nesse mesmo tempo porque o tamanho dos dados é muito longo conforme as informações do NameNode? 2) O Spark ...

3 a resposta

Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession?

Qual é a diferença entreSparkContext, JavaSparkContext, SQLContext eSparkSession?Existe algum método para converter ou criar um Contexto usando umSparkSession?Posso substituir completamente todos os contextos usando uma única ...