Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Comparando dois RDDs

Eu tenho dois RDD [Array [String]], vamos chamá-los de rdd1 e rdd2. Eu criaria um novo RDD contendo apenas as entradas do rdd2 que não estão no rdd1 (com base em uma chave). Eu uso o Spark no Scala via Intellij. Agrupei rdd1 e rdd2 por uma chave ...

1 a resposta

Falha ao conectar-se ao spark master: InvalidClassException: org.apache.spark.rpc.RpcEndpointRef; classe local incompatível

Eu instalei o Spark na máquina Linux. a versão é spark-1.6.2-bin-hadoop2.6.tgz.e então inicio o Spark usando ./sbin/start-all.shEu tentei executar os exemplos JavaWordCount.java no Eclipse. mas sempre falhava. alguém pode me ajudar? a versão do ...

1 a resposta

O que é spark.driver.maxResultSize?

oref [http://spark.apache.org/docs/latest/configuration.html]diz: Limite do tamanho total dos resultados serializados de todas as partições para cada ação do Spark (por exemplo, coletar). Deve ter pelo menos 1 milhão ou 0 para ilimitado. Os ...

1 a resposta

Problemas ao experimentar o exemplo no Spark-shell

Queria experimentar o Spark 2.0, mas quando tentei executar o seguinte código ...

1 a resposta

Encaminhar valores ausentes no Spark / Python

Estou tentando preencher os valores ausentes no meu quadro de dados Spark com o valor não nulo anterior (se existir). Eu fiz esse tipo de coisa no Python / Pandas, mas meus dados são grandes demais para o Pandas (em um pequeno cluster) e eu sou o ...

1 a resposta

Partições de tópico Kafka no Spark streaming

Eu tenho alguns casos de uso que gostaria de ser mais esclarecido sobre o particionamento de tópicos do Kafka -> utilização de recursos de streaming de faísca. Eu uso o modo independente do spark, portanto, apenas as configurações que tenho são ...

1 a resposta

Como construir uma matriz esparsa no PySpark?

Eu sou novo no Spark. Gostaria de transformar uma matriz esparsa em uma matriz de identificação de item de identificação do usuário especificamente para um mecanismo de recomendação. Eu sei como eu faria isso em python. Como alguém faz isso no ...

2 a resposta

argmax nos Spark DataFrames: como recuperar a linha com o valor máximo

Dado um Spark DataFramedf, Quero encontrar o valor máximo em uma determinada coluna numérica'values'e obtenha as linhas em que esse valor foi atingido. Claro que posso fazer isso: # it doesn't matter if I use scala or python, # since I hope I ...

0 a resposta

OUTER JOIN em 2 DATA FRAMES: Spark Scala SqlContext

Estou recebendo erro ao fazer junções externas em 2 quadros de dados. Estou tentando obter o percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

2 a resposta

com.fasterxml.jackson.databind.JsonMappingException: a versão do Jackson é muito antiga 2.5.3

Meu sistema operacional é o OS X 10.11.6. Estou executando o Spark 2.0, Zeppelin 0.6, Scala 2.11 Quando executo esse código no Zeppelin, recebo uma exceção de Jackson. Quando executo esse código no spark-shell - sem exceção. val filestream = ...