矩阵分解（Matrix-Factorization）无门槛

这篇具有很好参考价值的文章主要介绍了矩阵分解（Matrix-Factorization）无门槛。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本章内容

本章主要介绍矩阵分解常用的三种方法，分别为：
$\textcircled{1}$ 特征值分解
$\textcircled{2}$ 奇异值分解
$\textcircled{3}$ Funk-SVD

$\textbf{\large 矩阵分解原理：}$
矩阵分解,矩阵,算法,机器学习
矩阵分解算法将 $m\times n$ 维的矩阵 $R$ 分解为 $\times k$ 的用户矩阵 $P$ 和 $\times n$ 维的物品矩阵 $Q$ 相乘的形式。其中 $m$ 为用户的数量， $n$ 为物品的数量， $k$ 为隐向量（Latent Factor）的维度。 $k$ 的大小决定了隐向量表达能力的强弱，实际应用中，其取值要经过多次的实验来确定。在得到了 $P$ 用户矩阵和物品矩阵 $Q$ 后，将两个矩阵相乘，就可以得到一个满秩的矩阵。那么，我们就对未被评价过的物品，有了一个预测评分。接下来，可以将评分进行排序，推荐给用户。这就是矩阵分解对于推荐系统最基本的用途。
矩阵分解的目的就是通过分解之后的两矩阵内积，来填补缺失的数据，用来做预测评分。矩阵分解的核心是将矩阵分解为两个低秩的矩阵的乘积，分别以 $k$ 维的隐因子向量表示，用户向量和物品向量的内积则是用户对物品的偏好度，即预测评分。值得注意的是 $k$ 的选取是通过实验和经验而来的，因此矩阵分解的可解释性不强。矩阵分解,矩阵,算法,机器学习
$\textbf{\large 一、特征值分解}$
$A$ 为 $n$ 阶矩阵，若数 $\lambda$ 和 $n$ 维非0列向量 $\vec{v}$ 满足 $\vec{v}$ = $\lambda$ $\vec{v}$ ，那么数 $\lambda$ 称为 $A$ 的特征值， $\vec{v}$ 称为 $A$ 的对应于特征值 $\lambda$ 的特征向量。

可以这样理解： $\lambda$ 为矩阵变换的大小， $\vec{v}$ 为矩阵变换的方向。但是特征值只能用于方阵，对推荐系统用户——物品的矩阵还不太适合。

特征值分解，就是将矩阵 $A$ 分解为如下式：
$\Sigma Q^{-1}$

$Q$ 是矩阵 $A$ 的特征向量组成的矩阵，Σ则是一个对角阵，对角线上的元素就是特征值。我们来分析一下特征值分解的式子，分解得到的Σ矩阵是一个对角矩阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变换方向（从主要的变化到次要的变化排列）。

我们通过特征值分解得到的前N个特征向量，就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵变换。也就是说：提取这个矩阵最重要的特征。
矩阵分解,矩阵,算法,机器学习

$\textbf{\large 二、奇异值分解}$
假设一个矩阵 $M$ 是一个 $\times n$ 的矩阵，则一定存在一个分解：
$U\Sigma V^T$

其中 $U$ 是 $m\times m$ 的正交矩阵， $V$ 是 $n\times n$ 的正交矩阵， $\Sigma$ 是 $m\times n$ 的对角矩阵。 $\Sigma$ 对角线上的元素就称为 $M$ 的奇异值。

例如：

假设矩阵 $A$ 如下：
矩阵分解,矩阵,算法,机器学习
矩阵 $A$ 为 $6\times 4$ 的用户评分矩阵，6个用户对4个物品一共有19个评分，0代表没评分。

使用SVD进行分解得到：矩阵分解,矩阵,算法,机器学习

分解后， $U$ 矩阵为 $6\times6$ 的正交矩阵, $V$ 为 $4\times4$ 的正交矩阵。 $S$ 为对角矩阵即公式中的 $\Sigma$ 。选取 $S$ 中较大的 $k$ 个元素作为隐含特征。删除 $S$ 的其他维度以及 $U$ 和 $V$ 对应的维度，矩阵分解就完成了。

我们可以使用最大的 $k$ 个值和对应大小的 $U$ 、 $V$ 矩阵来近似描述原始的评分矩阵。这就是SVD做降维用法的核心思想。

我们在这里选择 $k$ =2，那么 $S$ 对角矩阵就降维成：
矩阵分解,矩阵,算法,机器学习
同样， $U$ 矩阵变成了 $6\times2$ 维， $V$ 矩阵变成了 $4\times2$ 维,然后将处理过的USV三个矩阵相乘做内积，可以得到新的矩阵 $A 2$ 为：

此时， $A 2$ 和A数据很接近，同时又补充了空白部分。

$\textbf{\large 三、Basic Matrix Factorization(Funk-SVD)}$
Funk-SVD的基本思想就是：既然评价指标是均方根误差(Root Mean Squared Error, RMSE)，那么可以直接通过训练集中的观察值利用最小化RMSE学习用户特征矩阵P和物品特征矩阵Q。为方便表示，用U表示用户的集合，D表示物品的集合，R表示用户评分矩阵。通过这种方法用户和物品可以被映射到一个K维（K可以自己设置）的潜在特征空间。通过挖掘用户的潜在特征矩阵P（|U|xK维）和物品潜在特征矩阵Q(|D|xK维)来估计评分。即通过下式来得到评分矩阵：
$\approx P \times Q^T = \hat{R}$

因此利用上述公式，可以计算出用户i对物品j的估计评分 $\hat{r_{ij}}$ 为：
$\hat{r_{ij}} = p_iq_j^T = \sum_{k=1}^K p_{ik} q_{kj}$

其中 $p_i\in R^K$ 表示用户i的K维潜在特征，表达用户的内部特性; $q_j\in R^K$ 表示物品j的K维潜在特征，表达物品的内部特性。

对于每个用户评分 $r_{ij}$ ,使用FunkSVD进行矩阵分解，对应的估计评分为 $p_i^Tq_j$ ,采用均方差做损失函数为 $e_{ij} =(r_{ij} -p_iq_j^T)^2$ ,我们的期望就是使均方差误差尽可能的小，考虑到所有的用户和物品组合，我们的优化目标函数J(p,q)为：
$\mathop{min}_{p^*,q^*} \sum_{i,j\in M} (r_{ij} -p_i q_j^T)^2$