Resultados da pesquisa a pedido "rdd"

Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...

distributed-computing pyspark apache-spark-mllib apache-spark

1 a resposta

Spark RDD: Como calcular estatísticas com mais eficiência?

Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...

numpy pyspark python

1 a resposta

Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?

Eu tenho um RDD de (chave, valor) elementos. As teclas são matrizes NumPy. As matrizes NumPy não são hasháveis e isso causa um problema quando tento fazer umreduceByKey Operação. Existe uma maneira de fornecer ao contexto do Spark minha função ...

apache-spark

1 a resposta

O spark mantém todos os elementos de um RDD [K, V] para uma chave específica em uma única partição após “groupByKey”, mesmo que os dados de uma chave sejam muito grandes?

Considere que eu tenho um PairedRDD, digamos 10 partições. Mas as chaves não são distribuídas uniformemente, ou seja, todas as 9 partições que possuem dados pertencem a uma única chave, digamosa e o resto das teclas dizb,c existem apenas na ...

apache-kafka apache-spark spark-streaming scala

1 a resposta

Exceção ao acessar o KafkaOffset a partir do RDD

Eu tenho um consumidor Spark que transmite de Kafka. Estou tentando gerenciar deslocamentos para a semântica exatamente uma vez. No entanto, ao acessar o deslocamento, lança a seguinte exceção: "java.lang.ClassCastException: ...

lazy-evaluation apache-spark distributed-computing spark-dataframe

2 a resposta

Como forçar o Spark a avaliar as operações do DataFrame em linha

De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...

apache-spark apache-spark-sql performance scala

1 a resposta

Impacto no desempenho da API RDD vs UDFs combinada com a API DataFrame

(Pergunta específica da Scala.) Embora os documentos do Spark incentivem o uso da API do DataFrame sempre que possível, se a API do DataFrame for insuficiente, a escolha geralmente é entre voltar à API RDD ou usar UDFs. Existe diferença de ...

apache-spark java

1 a resposta

como combinar RDDs de 3 pares

Eu tenho um tipo de requisito complexo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...

hadoop hdfs apache-spark

1 a resposta

Spark: Salvando RDD em um caminho já existente no HDFS

Consigo salvar a saída RDD no HDFS comsaveAsTextFilemétodo. Este método lança uma exceção se o caminho do arquivo já existir. Eu tenho um caso de uso em que preciso salvar o RDDS em um caminho de arquivo já existente no HDFS. Existe uma maneira ...

apache-spark scala gzip

2 a resposta

Lendo vários arquivos compactados no arquivo tar.gz no Spark [duplicado]

Esta pergunta já tem uma resposta aqui: Leia arquivos de texto inteiro de uma compactação no Spark [/questions/36604145/read-whole-text-files-from-a-compression-in-spark] 2 respostasEstou tentando criar um Spark RDD a partir de vários arquivos ...

Página 3 do 12

1 234 5

Resultados da pesquisa a pedido "rdd"

Apache spark lidando com instruções de caso

Spark RDD: Como calcular estatísticas com mais eficiência?

Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?

Tags populares

O spark mantém todos os elementos de um RDD [K, V] para uma chave específica em uma única partição após “groupByKey”, mesmo que os dados de uma chave sejam muito grandes?

Exceção ao acessar o KafkaOffset a partir do RDD

Como forçar o Spark a avaliar as operações do DataFrame em linha

Impacto no desempenho da API RDD vs UDFs combinada com a API DataFrame

como combinar RDDs de 3 pares

Spark: Salvando RDD em um caminho já existente no HDFS

Lendo vários arquivos compactados no arquivo tar.gz no Spark [duplicado]

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "rdd"

Tags populares