Результаты совместной фильтрации Apache Spark ALS. Они не имеют смысла

Question

Oct 06, 2014, 11:39 AM

collaborative-filtering apache-spark machine-learning matrix-factorization

Результаты совместной фильтрации Apache Spark ALS. Они не имеют смысла

Я хотел попробовать Spark для совместной фильтрации с использованием MLlib, как объяснено в этом руководстве:https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html Алгоритм основан на статье «Совместная фильтрация для наборов данных неявной обратной связи», выполняющей матричную факторизацию.

Все в порядке, используя набор данных 10 миллионов Movielens. Набор данных разделен на 80% обучающих, 10% проверочных и 10% проверочных.

RMSE Baseline: 1.060505464225402RMSE (поезд) = 0,7697248827452756RMSE (проверка) = 0,8057135933012889 для модели, обученной с рангом = 24, лямбда = 0,1 и итерации = 10.Лучшая модель улучшает базовый уровень на 23,94%.

Какие значения аналогичны учебнику, хотя и с разными параметрами обучения.

Я пытался запустить алгоритм несколько раз и всегда получал рекомендации, которые не имеют никакого смысла для меня. Даже по рейтингу только детских фильмов я получаю следующие результаты:

Для рейтингов:

персональный рейтинг: Toy Story (1995) рейтинг: 4.0персональный рейтинг: Книга Джунглей, The (1994) рейтинг: 5.0персональный рейтинг: Lion King, The (1994) рейтинг: 5.0персональный рейтинг: Мэри Поппинс (1964) рейтинг: 4.0личный рейтинг: Алиса в Стране Чудес (1951) рейтинг: 5.0

Результаты:

Фильмы, рекомендованные для вас:

Жизнь Оару (Saikaku ichidai onna) (1952)Больше (1998)Кто там поет? (a.k.a. Кто там поет) (Ко Тамо Пева) (1980)Воскресные дни и Кибела (Dimanches de Ville d'Avray, Les) (1962)Голубой свет (The Das Blaue Licht) (1932)Времена Харви Милк, (1984)Пожалуйста, проголосуйте за меня (2007)Человек, который посадил деревья, (Homme qui plantait des arbres, L ') (1987)Побег из Шоушенка, (1994)Только вчера (Omohide poro poro) (1991)

Что, кроме «Только вчера», кажется, не имеет никакого смысла.

Если есть кто-то, кто знает, как интерпретировать эти результаты или получить лучшие, я был бы очень признателен, если бы вы поделились своими знаниями.

С наилучшими пожеланиями

РЕДАКТИРОВАТЬ:

Как и предполагалось, я обучил другую модель с большим количеством факторов:

Базовая ошибка: 1.0587417035872992RMSE (поезд) = 0,7679883378412548RMSE (валидация) = 0,8070339258049574 для модели, обученной с рангом = 100, лямбда = 0,1 и numIter = 10.

И разные личные рейтинги:

личный рейтинг: Звездные войны: Эпизод VI - Возвращение джедая (1983) рейтинг: 5.0личный рейтинг: Миссия невыполнима (1996) рейтинг: 4.0Личный рейтинг: Крепкий орешек: Мститель (1995) рейтинг: 4.0Персональный рейтинг: Batman Forever (1995) рейтинг: 5.0личный рейтинг: Men in Black (1997) рейтинг: 4.0личный рейтинг: Терминатор 2: Судный день (1991) рейтинг: 4.0персональный рейтинг: Top Gun (1986) рейтинг: 4.0личный рейтинг: Звездные войны: Эпизод V - Империя наносит ответный удар (1980) рейтинг: 3.0личный рейтинг: Alien (1979) рейтинг: 4.0

Рекомендуемые фильмы:

Фильмы, рекомендованные для вас:

Кармен (1983)Silent Light (Stellet licht) (2007)Иисус (1979)Жизнь Оару (Saikaku ichidai onna) (1952)Сердце Америки (2003)Так говорит мне Библия (2007)Больше (1998)Легенда о Ли Бауэри, (2002)Похороны (Осошики) (1984)Longshots, The (2008)

Не один полезный результат.

РЕДАКТИРОВАТЬ 2: С использованием метода неявной обратной связи, я получаю гораздо лучшие результаты! С теми же боевиками, что и выше, рекомендации:

Фильмы, рекомендованные для вас:

Звездные войны: Эпизод IV - Новая надежда (а.к. Звездные войны) (1977)Терминатор, (1984)Рейдеры Затерянного Ковчега (Индиана Джонс и Рейдеры Затерянного Ковчега) (1981)Die Hard (1988)Крестный отец, (1972)Иностранцы (1986)Скала, (1996)День независимости (a.k.a. ID4) (1996)Звездный путь II: Гнев Хана (1982)Золотой глаз (1995)

Это больше, чем я ожидал! Вопрос в том, почему явная версия так себе плохо

Результаты совместной фильтрации Apache Spark ALS. Они не имеют смысла

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Результаты совместной фильтрации Apache Spark ALS. Они не имеют смысла

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы