大数据课程K18——Spark的ALS算法与显式矩阵分解

这篇具有很好参考价值的文章主要介绍了大数据课程K18——Spark的ALS算法与显式矩阵分解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 掌握Spark的ALS算法与显式矩阵分解；

⚪ 掌握Spark的ALS算法原理；

一、ALS算法与显式矩阵分解

1. 概述

我们在实现推荐系统时，当要处理的那些数据是由用户所提供的自身的偏好数据，这些数据被称作显式偏好数据，由显示偏好数据建立的矩阵称为显式矩阵。这类数据包括如物品评级、赞、喜欢等用户对物品的评价。

这些数据可以转换为以用户为行、物品为列的二维矩阵。矩阵的每一个数据表示某个用户对特定物品的偏好。大部分情况下单个用户只会和少部分物品接触，所以该矩阵只有少部分数据非零（即该矩阵很稀疏）。在生产环境下，偏好矩阵一般的是稀疏的。

举个简单的例子，假设我们有如下用户对电影的评级数据：

Tom, Star Wars, 5

Jane, Titanic, 4

Bill, Batman, 3

Jane, Star Wars, 2

Bill, Titanic, 3

它们可转为如下评级矩阵：

大数据课程K18——Spark的ALS算法与显式矩阵分解,大数据,spark,分布式

为了更好的实现推荐系统，我们需要对这个稀疏的矩阵建模。一般可以采用矩阵分解（或矩阵补全）的方式。

具体就是找出两个低维度的矩阵，使得它们的乘积是原始的矩阵。因此这也是一种降维技术。假设我们的用户和物品数目分别是U和I，那对应的“用户-物品”矩阵的维度为U×I，如下图所示：

大数据课程K18——Spark的ALS算法与显式矩阵分解,大数据,spark,分布式

要找到和“用户-物品”矩阵近似的k维（低阶）矩阵，最终要求出如下两个矩阵：一个用于表示用户的U×k维矩阵，以及一个表征物品的k×I维矩阵。这两个矩阵也称作因子矩阵。它们的乘积便是原始评级矩阵的一个近似。值得注意的是，原始评级矩阵通常很稀疏，但因子矩阵却是稠密的（满秩的），如下图所示：

大数据课程K18——Spark的ALS算法与显式矩阵分解,大数据,spark,分布式

这类模型试图发现对应“用户-物品”矩阵内在行为结构的隐含特征（这里表示为因子矩阵），所以也把它们称为隐特征模型。隐含特征或因子不能直接解释，但它可能表示了某些含义，比如对电影的某个导演、种类、风格或某些演员的偏好。

由于是对“用户-物品”矩阵直接建模，用这些模型进行预测也相对直接：要计算给定用户对某个物品的预计评级，就从用户因子矩阵和物品因子矩阵分别选取相应的行（用户因子向量）与列（物品因子向量），然后计算两者的点积即文章来源地址https://www.toymoban.com/news/detail-698771.html

到了这里，关于大数据课程K18——Spark的ALS算法与显式矩阵分解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！