Результаты совместной фильтрации Apache Spark ALS. Они не имеют смысла

Я хотел попробовать Spark для совместной фильтрации с использованием MLlib, как объяснено в этом руководстве:https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html Алгоритм основан на статье «Совместная фильтрация для наборов данных неявной обратной связи», выполняющей матричную факторизацию.

Все в порядке, используя набор данных 10 миллионов Movielens. Набор данных разделен на 80% обучающих, 10% проверочных и 10% проверочных.

RMSE Baseline: 1.060505464225402RMSE (поезд) = 0,7697248827452756RMSE (проверка) = 0,8057135933012889 для модели, обученной с рангом = 24, лямбда = 0,1 и итерации = 10.Лучшая модель улучшает базовый уровень на 23,94%.

Какие значения аналогичны учебнику, хотя и с разными параметрами обучения.

Я пытался запустить алгоритм несколько раз и всегда получал рекомендации, которые не имеют никакого смысла для меня. Даже по рейтингу только детских фильмов я получаю следующие результаты:

Для рейтингов:

персональный рейтинг: Toy Story (1995) рейтинг: 4.0персональный рейтинг: Книга Джунглей, The (1994) рейтинг: 5.0персональный рейтинг: Lion King, The (1994) рейтинг: 5.0персональный рейтинг: Мэри Поппинс (1964) рейтинг: 4.0личный рейтинг: Алиса в Стране Чудес (1951) рейтинг: 5.0

Результаты:

Фильмы, рекомендованные для вас:

Жизнь Оару (Saikaku ichidai onna) (1952)Больше (1998)Кто там поет? (a.k.a. Кто там поет) (Ко Тамо Пева) (1980)Воскресные дни и Кибела (Dimanches de Ville d'Avray, Les) (1962)Голубой свет (The Das Blaue Licht) (1932)Времена Харви Милк, (1984)Пожалуйста, проголосуйте за меня (2007)Человек, который посадил деревья, (Homme qui plantait des arbres, L ') (1987)Побег из Шоушенка, (1994)Только вчера (Omohide poro poro) (1991)

Что, кроме «Только вчера», кажется, не имеет никакого смысла.

Если есть кто-то, кто знает, как интерпретировать эти результаты или получить лучшие, я был бы очень признателен, если бы вы поделились своими знаниями.

С наилучшими пожеланиями

РЕДАКТИРОВАТЬ:

Как и предполагалось, я обучил другую модель с большим количеством факторов:

Базовая ошибка: 1.0587417035872992RMSE (поезд) = 0,7679883378412548RMSE (валидация) = 0,8070339258049574 для модели, обученной с рангом = 100, лямбда = 0,1 и numIter = 10.

И разные личные рейтинги:

личный рейтинг: Звездные войны: Эпизод VI - Возвращение джедая (1983) рейтинг: 5.0личный рейтинг: Миссия невыполнима (1996) рейтинг: 4.0Личный рейтинг: Крепкий орешек: Мститель (1995) рейтинг: 4.0Персональный рейтинг: Batman Forever (1995) рейтинг: 5.0личный рейтинг: Men in Black (1997) рейтинг: 4.0личный рейтинг: Терминатор 2: Судный день (1991) рейтинг: 4.0персональный рейтинг: Top Gun (1986) рейтинг: 4.0личный рейтинг: Звездные войны: Эпизод V - Империя наносит ответный удар (1980) рейтинг: 3.0личный рейтинг: Alien (1979) рейтинг: 4.0

Рекомендуемые фильмы:

Фильмы, рекомендованные для вас:

Кармен (1983)Silent Light (Stellet licht) (2007)Иисус (1979)Жизнь Оару (Saikaku ichidai onna) (1952)Сердце Америки (2003)Так говорит мне Библия (2007)Больше (1998)Легенда о Ли Бауэри, (2002)Похороны (Осошики) (1984)Longshots, The (2008)

Не один полезный результат.

РЕДАКТИРОВАТЬ 2: С использованием метода неявной обратной связи, я получаю гораздо лучшие результаты! С теми же боевиками, что и выше, рекомендации:

Фильмы, рекомендованные для вас:

Звездные войны: Эпизод IV - Новая надежда (а.к. Звездные войны) (1977)Терминатор, (1984)Рейдеры Затерянного Ковчега (Индиана Джонс и Рейдеры Затерянного Ковчега) (1981)Die Hard (1988)Крестный отец, (1972)Иностранцы (1986)Скала, (1996)День независимости (a.k.a. ID4) (1996)Звездный путь II: Гнев Хана (1982)Золотой глаз (1995)

Это больше, чем я ожидал! Вопрос в том, почему явная версия так себе плохо

Ответы на вопрос(4)

Ваш ответ на вопрос