Resultados da pesquisa a pedido "rdd"

1 a resposta

Apache spark lidando com instruções de caso

Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...

1 a resposta

Spark RDD: Como calcular estatísticas com mais eficiência?

Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...

1 a resposta

Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?

Eu tenho um RDD de (chave, valor) elementos. As teclas são matrizes NumPy. As matrizes NumPy não são hasháveis e isso causa um problema quando tento fazer umreduceByKey Operação. Existe uma maneira de fornecer ao contexto do Spark minha função ...

1 a resposta

O spark mantém todos os elementos de um RDD [K, V] para uma chave específica em uma única partição após “groupByKey”, mesmo que os dados de uma chave sejam muito grandes?

Considere que eu tenho um PairedRDD, digamos 10 partições. Mas as chaves não são distribuídas uniformemente, ou seja, todas as 9 partições que possuem dados pertencem a uma única chave, digamosa e o resto das teclas dizb,c existem apenas na ...

1 a resposta

Exceção ao acessar o KafkaOffset a partir do RDD

Eu tenho um consumidor Spark que transmite de Kafka. Estou tentando gerenciar deslocamentos para a semântica exatamente uma vez. No entanto, ao acessar o deslocamento, lança a seguinte exceção: "java.lang.ClassCastException: ...

2 a resposta

Como forçar o Spark a avaliar as operações do DataFrame em linha

De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...

1 a resposta

Impacto no desempenho da API RDD vs UDFs combinada com a API DataFrame

(Pergunta específica da Scala.) Embora os documentos do Spark incentivem o uso da API do DataFrame sempre que possível, se a API do DataFrame for insuficiente, a escolha geralmente é entre voltar à API RDD ou usar UDFs. Existe diferença de ...

1 a resposta

como combinar RDDs de 3 pares

Eu tenho um tipo de requisito complexo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...

1 a resposta

Spark: Salvando RDD em um caminho já existente no HDFS

Consigo salvar a saída RDD no HDFS comsaveAsTextFilemétodo. Este método lança uma exceção se o caminho do arquivo já existir. Eu tenho um caso de uso em que preciso salvar o RDDS em um caminho de arquivo já existente no HDFS. Existe uma maneira ...

2 a resposta

Lendo vários arquivos compactados no arquivo tar.gz no Spark [duplicado]

Esta pergunta já tem uma resposta aqui: Leia arquivos de texto inteiro de uma compactação no Spark [/questions/36604145/read-whole-text-files-from-a-compression-in-spark] 2 respostasEstou tentando criar um Spark RDD a partir de vários arquivos ...