Resultados da pesquisa a pedido "apache-spark-mllib"

1 a resposta

Encaminhar valores ausentes no Spark / Python

Estou tentando preencher os valores ausentes no meu quadro de dados Spark com o valor não nulo anterior (se existir). Eu fiz esse tipo de coisa no Python / Pandas, mas meus dados são grandes demais para o Pandas (em um pequeno cluster) e eu sou o ...

1 a resposta

IDs não inteiros no Spark MLlib ALS

Eu gostaria de usar val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha)No entanto, os dados do usuário que eu recebo são ...

1 a resposta

Compreendendo a representação da coluna vetorial no Spark SQL

Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

1 a resposta

Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)

Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...

1 a resposta

Spark RDD: Como calcular estatísticas com mais eficiência?

Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...

1 a resposta

PCA no Spark MLlib e Spark ML

O Spark agora tem duas bibliotecas de aprendizado de máquina - Spark MLlib e Spark ML. Eles se sobrepõem um pouco ao implementado, mas, pelo que entendi (como uma pessoa nova em todo o ecossistema Spark), o Spark ML é o caminho a percorrer e o ...

1 a resposta

Spark ML VectorAssembler retorna uma saída estranha

Estou experimentando um comportamento muito estranho deVectorAssembler e eu queria saber se mais alguém viu isso. Meu cenário é bem direto. Eu analiso dados de umCSV arquivo onde eu tenho algum padrãoInt eDouble campos e também calculo algumas ...

1 a resposta

Dividir o conteúdo da coluna String no PySpark Dataframe

Eu tenho um quadro de dados pyspark que possui uma coluna contendo seqüências de caracteres. Eu quero dividir esta coluna em palavras Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', ...

1 a resposta

Modelo ALS - as classificações full_u * v ^ t * v previstas são muito altas

Estou prevendo classificações entre processos que treinam em lote o modelo. Estou usando a abordagem descrita aqui:Modelo ALS - como gerar full_u * v ^ t * v? [https://stackoverflow.com/questions/41537470/als-model-how-to-generate-full-u-vt-v] ! ...

1 a resposta

Como fazer previsões com o Sklearn Model dentro do Spark?

Eu treinei um modelo em python usando o sklearn. Como podemos usar o mesmo modelo para carregar no Spark e gerar previsões em um RDD do spark?