Resultados da pesquisa a pedido "apache-spark"
Comparando dois RDDs
Eu tenho dois RDD [Array [String]], vamos chamá-los de rdd1 e rdd2. Eu criaria um novo RDD contendo apenas as entradas do rdd2 que não estão no rdd1 (com base em uma chave). Eu uso o Spark no Scala via Intellij. Agrupei rdd1 e rdd2 por uma chave ...
Falha ao conectar-se ao spark master: InvalidClassException: org.apache.spark.rpc.RpcEndpointRef; classe local incompatível
Eu instalei o Spark na máquina Linux. a versão é spark-1.6.2-bin-hadoop2.6.tgz.e então inicio o Spark usando ./sbin/start-all.shEu tentei executar os exemplos JavaWordCount.java no Eclipse. mas sempre falhava. alguém pode me ajudar? a versão do ...
O que é spark.driver.maxResultSize?
oref [http://spark.apache.org/docs/latest/configuration.html]diz: Limite do tamanho total dos resultados serializados de todas as partições para cada ação do Spark (por exemplo, coletar). Deve ter pelo menos 1 milhão ou 0 para ilimitado. Os ...
Problemas ao experimentar o exemplo no Spark-shell
Queria experimentar o Spark 2.0, mas quando tentei executar o seguinte código ...
Encaminhar valores ausentes no Spark / Python
Estou tentando preencher os valores ausentes no meu quadro de dados Spark com o valor não nulo anterior (se existir). Eu fiz esse tipo de coisa no Python / Pandas, mas meus dados são grandes demais para o Pandas (em um pequeno cluster) e eu sou o ...
Partições de tópico Kafka no Spark streaming
Eu tenho alguns casos de uso que gostaria de ser mais esclarecido sobre o particionamento de tópicos do Kafka -> utilização de recursos de streaming de faísca. Eu uso o modo independente do spark, portanto, apenas as configurações que tenho são ...
Como construir uma matriz esparsa no PySpark?
Eu sou novo no Spark. Gostaria de transformar uma matriz esparsa em uma matriz de identificação de item de identificação do usuário especificamente para um mecanismo de recomendação. Eu sei como eu faria isso em python. Como alguém faz isso no ...
argmax nos Spark DataFrames: como recuperar a linha com o valor máximo
Dado um Spark DataFramedf, Quero encontrar o valor máximo em uma determinada coluna numérica'values'e obtenha as linhas em que esse valor foi atingido. Claro que posso fazer isso: # it doesn't matter if I use scala or python, # since I hope I ...
OUTER JOIN em 2 DATA FRAMES: Spark Scala SqlContext
Estou recebendo erro ao fazer junções externas em 2 quadros de dados. Estou tentando obter o percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...
com.fasterxml.jackson.databind.JsonMappingException: a versão do Jackson é muito antiga 2.5.3
Meu sistema operacional é o OS X 10.11.6. Estou executando o Spark 2.0, Zeppelin 0.6, Scala 2.11 Quando executo esse código no Zeppelin, recebo uma exceção de Jackson. Quando executo esse código no spark-shell - sem exceção. val filestream = ...