Resultados da pesquisa a pedido "rdd"

Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...

apache-kafka apache-spark spark-streaming scala

1 a resposta

Exceção ao acessar o KafkaOffset a partir do RDD

Eu tenho um consumidor Spark que transmite de Kafka. Estou tentando gerenciar deslocamentos para a semântica exatamente uma vez. No entanto, ao acessar o deslocamento, lança a seguinte exceção: "java.lang.ClassCastException: ...

numpy pyspark python

1 a resposta

Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?

Eu tenho um RDD de (chave, valor) elementos. As teclas são matrizes NumPy. As matrizes NumPy não são hasháveis e isso causa um problema quando tento fazer umreduceByKey Operação. Existe uma maneira de fornecer ao contexto do Spark minha função ...

scala apache-spark

3 a resposta

Como calcular o melhor numberOfPartitions para coalescer?

Então, eu entendo que em geral deve-se usarcoalesce() quando: o número de partições diminui devido a umafilter ou alguma outra operação que possa resultar na redução do conjunto de dados original (RDD, DF).coalesce() é útil para executar ...

bigdata hdfs scala apache-spark

2 a resposta

Como posso salvar um RDD no HDFS e depois lê-lo novamente?

Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?

caching apache-spark

1 a resposta

Reutilizar um Spark RDD em cache

Existe a possibilidade do Spark reutilizar um RDD em cache em outro aplicativo (ou em outra execução do mesmo aplicativo)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...

apache-spark

1 a resposta

Particionamento inesperado do Spark HashPartitioner

estou usandoHashPartioner mas obtendo um resultado inesperado. Estou usando 3 String diferente como chaves e dando o parâmetro de partição como 3, então espero 3 partições. val cars = Array("Honda", "Toyota", "Kia") val carnamePrice = ...

scala apache-spark

3 a resposta

Achatando o JSON na estrutura tabular usando o Spark-Scala RDD only fucntion

Aninhei JSON e gostaria de ter saída na estrutura tabular. Sou capaz de analisar os valores JSON individualmente, mas com alguns problemas na tabulação. Sou capaz de fazê-lo via dataframe facilmente. Mas eu quero fazê-lo usando as funções "RDD ...

partition apache-spark

1 a resposta

Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark

O que acontecerá com arquivos grandes nesses casos? 1) O Spark obtém uma localização do NameNode para dados. O Spark será interrompido nesse mesmo tempo porque o tamanho dos dados é muito longo conforme as informações do NameNode? 2) O Spark ...

dataset apache-spark java apache-spark-dataset

3 a resposta

Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession?

Qual é a diferença entreSparkContext, JavaSparkContext, SQLContext eSparkSession?Existe algum método para converter ou criar um Contexto usando umSparkSession?Posso substituir completamente todos os contextos usando uma única ...

Página 2 do 12

123 4 5

Resultados da pesquisa a pedido "rdd"

Spark RDD: Como calcular estatísticas com mais eficiência?

Exceção ao acessar o KafkaOffset a partir do RDD

Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?

Tags populares

Como calcular o melhor numberOfPartitions para coalescer?

Como posso salvar um RDD no HDFS e depois lê-lo novamente?

Reutilizar um Spark RDD em cache

Particionamento inesperado do Spark HashPartitioner

Achatando o JSON na estrutura tabular usando o Spark-Scala RDD only fucntion

Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark

Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "rdd"

Tags populares