Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como atualizar o Spark MatrixFactorizationModel para ALS

Eu construo um sistema simples de recomendação para o MovieLens DB inspirado ...

1 a resposta

A estrutura aninhada do Spark DataFrame é limitada para seleção?

Eu tenho um arquivo json com alguns dados, sou capaz de criar o DataFrame a partir dele e o esquema para uma parte específica da qual estou interessado parece o seguinte: val json: DataFrame = sqlc.load("entities_with_address2.json", ...

2 a resposta

Faísca quando a união de muitos RDD gera erro de estouro de pilha

Quando eu uso "++" para combinar muitos RDDs, obtive uma pilha de erros sobre um erro de fluxo. Spark versão 1.3.1 Ambiente: cliente-fio. --driver-memory 8G O número de RDDs é superior a 4000. Cada RDD é lido a partir de um arquivo de texto com ...

10 a resposta

É possível obter as configurações atuais do contexto de faísca no PySpark?

Estou tentando encontrar o caminho paraspark.worker.dir para o atualsparkcontext. Se eu defini-lo explicitamente comoconfig param, Eu posso ler de voltaSparkConf, mas existe alguma maneira de acessar a lista completaconfig (incluindo todos ...

1 a resposta

Adicionando novos trabalhadores Spark no AWS EC2 - erro de acesso

Eu tenho o cluster oeprating existente do Spark que foi lançado comspark-ec2 roteiro. Estou tentando adicionar um novo escravo seguindo as instruções: Pare o clusterNo console da AWS, "lance mais como este" em um dos escravosIniciar o ...

2 a resposta

Substitua os bigrams com base em sua frequência no Scala e Spark

Desejo substituir todos os bigrams cuja contagem de frequência é maior que um limite com esse padrão(word1.concat("-").concat(word2)), e eu tentei: import org.apache.spark.{SparkConf, SparkContext} object replace { def main(args: Array[String]): ...

1 a resposta

toPandas () erro usando pyspark: objeto 'int' não é iterável

Eu tenho um dataframe pyspark e estou tentando convertê-lo em pandas usando toPandas (), no entanto, estou executando o erro abaixo mencionado. Tentei opções diferentes, mas obtive o mesmo erro: 1) limitar os dados a apenas alguns registros 2) ...

1 a resposta

Qual é a classificação no algoritmo de aprendizado de máquina do ALS no Apache Spark Mllib

Eu queria experimentar um exemplo do algoritmo de aprendizado de máquina do ALS. E meu código funciona bem, no entanto eu não entendo parâmetrorank usado no algoritmo. Eu tenho o seguinte código em java // Build the recommendation model using ...

2 a resposta

Como o Spark interopera com o CPython

Eu tenho um sistema Akka escrito emscala que precisa chamar a algunsPython código, contando comPandas eNumpy, então não posso simplesmente usar o Jython. Notei que o Spark usa o CPython em seus nós de trabalho, por isso estou curioso para saber ...

2 a resposta

Como verificar se o Spark RDD está na memória?

Eu tenho uma instância de org.apache.spark.rdd.RDD [MyClass]. Como posso verificar programaticamente se a instância é persistente \ na memória?