Resultados da pesquisa a pedido "apache-spark"
Como atualizar o Spark MatrixFactorizationModel para ALS
Eu construo um sistema simples de recomendação para o MovieLens DB inspirado ...
A estrutura aninhada do Spark DataFrame é limitada para seleção?
Eu tenho um arquivo json com alguns dados, sou capaz de criar o DataFrame a partir dele e o esquema para uma parte específica da qual estou interessado parece o seguinte: val json: DataFrame = sqlc.load("entities_with_address2.json", ...
Faísca quando a união de muitos RDD gera erro de estouro de pilha
Quando eu uso "++" para combinar muitos RDDs, obtive uma pilha de erros sobre um erro de fluxo. Spark versão 1.3.1 Ambiente: cliente-fio. --driver-memory 8G O número de RDDs é superior a 4000. Cada RDD é lido a partir de um arquivo de texto com ...
É possível obter as configurações atuais do contexto de faísca no PySpark?
Estou tentando encontrar o caminho paraspark.worker.dir para o atualsparkcontext. Se eu defini-lo explicitamente comoconfig param, Eu posso ler de voltaSparkConf, mas existe alguma maneira de acessar a lista completaconfig (incluindo todos ...
Adicionando novos trabalhadores Spark no AWS EC2 - erro de acesso
Eu tenho o cluster oeprating existente do Spark que foi lançado comspark-ec2 roteiro. Estou tentando adicionar um novo escravo seguindo as instruções: Pare o clusterNo console da AWS, "lance mais como este" em um dos escravosIniciar o ...
Substitua os bigrams com base em sua frequência no Scala e Spark
Desejo substituir todos os bigrams cuja contagem de frequência é maior que um limite com esse padrão(word1.concat("-").concat(word2)), e eu tentei: import org.apache.spark.{SparkConf, SparkContext} object replace { def main(args: Array[String]): ...
toPandas () erro usando pyspark: objeto 'int' não é iterável
Eu tenho um dataframe pyspark e estou tentando convertê-lo em pandas usando toPandas (), no entanto, estou executando o erro abaixo mencionado. Tentei opções diferentes, mas obtive o mesmo erro: 1) limitar os dados a apenas alguns registros 2) ...
Qual é a classificação no algoritmo de aprendizado de máquina do ALS no Apache Spark Mllib
Eu queria experimentar um exemplo do algoritmo de aprendizado de máquina do ALS. E meu código funciona bem, no entanto eu não entendo parâmetrorank usado no algoritmo. Eu tenho o seguinte código em java // Build the recommendation model using ...
Como o Spark interopera com o CPython
Eu tenho um sistema Akka escrito emscala que precisa chamar a algunsPython código, contando comPandas eNumpy, então não posso simplesmente usar o Jython. Notei que o Spark usa o CPython em seus nós de trabalho, por isso estou curioso para saber ...
Como verificar se o Spark RDD está na memória?
Eu tenho uma instância de org.apache.spark.rdd.RDD [MyClass]. Como posso verificar programaticamente se a instância é persistente \ na memória?