Resultados da pesquisa a pedido "rdd"
Spark RDD: Como calcular estatísticas com mais eficiência?
Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...
Exceção ao acessar o KafkaOffset a partir do RDD
Eu tenho um consumidor Spark que transmite de Kafka. Estou tentando gerenciar deslocamentos para a semântica exatamente uma vez. No entanto, ao acessar o deslocamento, lança a seguinte exceção: "java.lang.ClassCastException: ...
Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?
Eu tenho um RDD de (chave, valor) elementos. As teclas são matrizes NumPy. As matrizes NumPy não são hasháveis e isso causa um problema quando tento fazer umreduceByKey Operação. Existe uma maneira de fornecer ao contexto do Spark minha função ...
Como calcular o melhor numberOfPartitions para coalescer?
Então, eu entendo que em geral deve-se usarcoalesce() quando: o número de partições diminui devido a umafilter ou alguma outra operação que possa resultar na redução do conjunto de dados original (RDD, DF).coalesce() é útil para executar ...
Como posso salvar um RDD no HDFS e depois lê-lo novamente?
Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?
Reutilizar um Spark RDD em cache
Existe a possibilidade do Spark reutilizar um RDD em cache em outro aplicativo (ou em outra execução do mesmo aplicativo)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...
Particionamento inesperado do Spark HashPartitioner
estou usandoHashPartioner mas obtendo um resultado inesperado. Estou usando 3 String diferente como chaves e dando o parâmetro de partição como 3, então espero 3 partições. val cars = Array("Honda", "Toyota", "Kia") val carnamePrice = ...
Achatando o JSON na estrutura tabular usando o Spark-Scala RDD only fucntion
Aninhei JSON e gostaria de ter saída na estrutura tabular. Sou capaz de analisar os valores JSON individualmente, mas com alguns problemas na tabulação. Sou capaz de fazê-lo via dataframe facilmente. Mas eu quero fazê-lo usando as funções "RDD ...
Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark
O que acontecerá com arquivos grandes nesses casos? 1) O Spark obtém uma localização do NameNode para dados. O Spark será interrompido nesse mesmo tempo porque o tamanho dos dados é muito longo conforme as informações do NameNode? 2) O Spark ...
Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession?
Qual é a diferença entreSparkContext, JavaSparkContext, SQLContext eSparkSession?Existe algum método para converter ou criar um Contexto usando umSparkSession?Posso substituir completamente todos os contextos usando uma única ...