← к модулям

Content-based (TF-IDF)

Каждый фильм описывается TF-IDF-вектором из жанров и тегов. Похожесть — косинус между векторами. Рекомендации не зависят от других пользователей.

Силён в

«Похожие фильмы» и холодный старт айтемов: новому фильму не нужны оценки — хватает его описания.

Слаб в

Точности персонального top-N: по жанрам легко найти похожее, но трудно угадать конкретный следующий фильм — отсюда низкие precision/recall@10.

    Метрики на тесте

    …

    Низкие значения — ожидаемы: это цена чистого content-based. Сравни с popularity на странице сравнения (Фаза 5).