Resultados de filtragem colaborativa do Apache Spark ALS. Eles não fazem sentido

Eu queria experimentar o Spark para filtragem colaborativa usando o MLlib, conforme explicado neste tutorial:https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html O algoritmo é baseado no artigo "Filtragem colaborativa para conjuntos de dados de feedback implícito", realizando a fatoração da matriz.

Tudo está funcionando com o conjunto de dados de 10 milhões de Movielens. O conjunto de dados foi dividido em 80% de treinamento, 10% de teste e 10% de validação.

Linha de base do RMSE: 1.060505464225402RMSE (trem) = 0,7697248827452756RMSE (validação) = 0,8057135933012889 para o modelo treinado com classificação = 24, lambda = 0,1 e Iterações = 10.O melhor modelo melhora a linha de base em 23,94%.

Quais são os valores semelhantes ao tutorial, embora com diferentes parâmetros de treinamento.

Tentei executar o algoritmo várias vezes e sempre recebi recomendações que não fazem nenhum sentido para mim. Mesmo classificando apenas filmes infantis, recebo os seguintes resultados:

Para classificações:

classificação pessoal: Toy Story (1995) classificação: 4.0classificação pessoal: Jungle Book, The (1994) classificação: 5.0classificação pessoal: Lion King, The (1994) classificação: 5.0classificação pessoal: Mary Poppins (1964) classificação: 4.0classificação pessoal: Alice no País das Maravilhas (1951) classificação: 5.0

Resultados:

Filmes recomendados para você:

Vida de Oharu, (Saikaku ichidai onna) (1952)Mais (1998)Quem está cantando ali? (também conhecido como Quem Canta Lá) (Ko to tamo peva) (1980)Domingos e Cibele (Dimanches de Ville d'Avray, Les) (1962)A luz azul (Das Blaue Licht) (1932)Tempos de Harvey Milk, The (1984)Por favor vote em mim (2007)O homem que plantou árvores, The (Homme qui plantait des arbres, L ') (1987)Redenção de Shawshank (1994)Ontem Ontem (Omohide poro poro) (1991)

Que, exceto Only Yesterday, não parece fazer sentido.

Se houver alguém por aí que saiba interpretar esses resultados ou obter resultados melhores, eu realmente aprecio que você compartilhe seu conhecimento.

Cumprimentos

EDITAR:

Como sugerido, eu treinei outro modelo com mais fatores:

Erro de linha de base: 1.0587417035872992RMSE (trem) = 0,7679883378412548RMSE (validação) = 0,8070339258049574 para o modelo treinado com classificação = 100, lambda = 0,1 e numIter = 10.

E diferentes classificações pessoais:

Classificação pessoal: Star Wars: Episódio VI - O Retorno dos Jedi (1983) Classificação: 5,0classificação pessoal: Missão: Impossível (1996) classificação: 4,0classificação pessoal: Die Hard: With a Vengeance (1995) classificação: 4,0classificação pessoal: Batman Forever (1995) classificação: 5.0classificação pessoal: Men in Black (1997) classificação: 4,0classificação pessoal: Terminator 2: Judgement Day (1991) classificação: 4,0classificação pessoal: Top Gun (1986) classificação: 4.0Classificação pessoal: Star Wars: Episódio V - O Império Contra-Ataca (1980) classificação: 3,0classificação pessoal: Alien (1979) classificação: 4.0

Os filmes recomendados são:

Filmes recomendados para você:

Carmen (1983)Luz Silenciosa (Stellet licht) (2007)Jesus (1979)Vida de Oharu, (Saikaku ichidai onna) (1952)Coração da América (2003)Pois a Bíblia me diz isso (2007)Mais (1998)Lenda de Leigh Bowery, The (2002)Funeral, Os (Ososhiki) (1984)Longshots, O (2008)

Não é um resultado útil.

EDIT2: Com o uso do método de feedback implícito, obtenho resultados muito melhores! Com os mesmos filmes de ação acima, as recomendações são:

Filmes recomendados para você:

Guerra nas Estrelas: Episódio IV - Uma Nova Esperança (também conhecida como Guerra nas Estrelas) (1977)O Exterminador do Futuro (1984)Os Caçadores da Arca Perdida (Indiana Jones e os Caçadores da Arca Perdida) (1981)Die Hard (1988)O Poderoso Chefão (1972)Estrangeiros (1986)Rock, O (1996)Dia da Independência (também conhecido como ID4) (1996)Jornada nas Estrelas II: A Ira de Khan (1982)GoldenEye (1995)

É mais o que eu esperava! A questão é por que a versão explícita é tão ruim

questionAnswers(4)

yourAnswerToTheQuestion