最小二乘法的矩阵表达-Toy模板网

这篇具有很好参考价值的文章主要介绍了最小二乘法的矩阵表达。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 前期准备

为了方便表述，我们先做一些很简单的定义：

假设有一多项式函数：
$x_1,x_2,\cdots ,x_m) =\sum_{i=1}^m{a_ix_i}$
我们将函数中的自变量都提取出来组成一个列向量 $x$ ：
$x=[x_1,x_2,\cdots,x_m]^T$
则称 $x$ 为一个向量变元。

如 $x_1,x_2]^T$ 就是 $f(x_1,x_2)=x_1+2x_2$ 的向量变元

此时，如果我们按照向量变元内部的变量排列顺序，依次在每个变量位置填上该变量对应的偏导函数，则就构成了对于函数 $x_1,x_2,\cdots ,x_m)$ 进行向量变元 $x$ 的向量求导的结果，即：
$\frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x}=[ \frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x_1},\frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x_2},\cdots ,\frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x_m} ] ^T$
据此，我们对向量求导做出定义：

设 $f (x)$ 是一个关于 $x$ 的函数，其中 $x$ 是向量变元，并且 $x = [x_1, x_2,...,x_n]^T$

则
$\frac{\partial f}{\partial x} = [\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n}]^T$
而该表达式也被称为向量求导的梯度向量形式。
$\nabla _xf(x) = \frac{\partial f}{\partial x} = [\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n}]^T$
接下来，我们去证明几个等式，这些等式都将再最小二乘法的矩阵形式推导中用到。

等式一：
$\frac{\partial a}{\partial x} = 0$
证明：
$\frac{\partial a}{\partial x} = [\frac{\partial a}{\partial x_1}, \frac{\partial a}{\partial x_2}, ..., \frac{\partial a}{\partial x_n}]^T = [0,0,...,0]^T$

等式二：
$\frac{\partial(x^T \cdot A)}{\partial x} = \frac{\partial(A^T \cdot x)}{\partial x} = A$
证明：

设 $A = [a_1, a_2,...,a_n]^T$ ，则有:
$\begin{aligned} \frac{\partial(x^T \cdot A)}{\partial x} & = \frac{\partial(A^T \cdot x)}{\partial x}\\ & = \frac{\partial(a_1 \cdot x_1 + a_2 \cdot x_2 +...+ a_n \cdot x_n)}{\partial x}\\ & = \left [\begin{array}{cccc} \frac{\partial(a_1 \cdot x_1 + a_2 \cdot x_2 +...+ a_n \cdot x_n)}{\partial x_1} \\ \frac{\partial(a_1 \cdot x_1 + a_2 \cdot x_2 +...+ a_n \cdot x_n)}{\partial x_2} \\ . \\ . \\ . \\ \frac{\partial(a_1 \cdot x_1 + a_2 \cdot x_2 +...+ a_n \cdot x_n)}{\partial x_n} \\ \end{array}\right] \\ & =\left [\begin{array}{cccc} a_1 \\ a_2 \\ . \\ . \\ . \\ a_n \\ \end{array}\right] = A \end{aligned}$

等式三：
$\frac{\partial (x^T \cdot x)}{\partial x} = 2x$
证明：
$\begin{aligned} \frac{\partial(x^T \cdot x)}{\partial x} & = \frac{\partial(x_1^2+x_2^2+...+x_n^2)}{\partial x}\\ & = \left [\begin{array}{cccc} \frac{\partial(x_1^2+x_2^2+...+x_n^2)}{\partial x_1} \\ \frac{\partial(x_1^2+x_2^2+...+x_n^2)}{\partial x_2} \\ . \\ . \\ . \\ \frac{\partial(x_1^2+x_2^2+...+x_n^2)}{\partial x_n} \\ \end{array}\right] \\ & =\left [\begin{array}{cccc} 2x_1 \\ 2x_2 \\ . \\ . \\ . \\ 2x_n \\ \end{array}\right] = 2x \end{aligned}$

此处 $x^Tx$ 也被称为向量的交叉乘积(crossprod)

等式四：
$\frac{\partial (x^T A x)}{x} = Ax + A^Tx$
证明：

首先：
$\begin{aligned} X^TAX &= [x_1, x_2,...,x_n] \cdot \left [\begin{array}{cccc} a_{11} &a_{12} &... &a_{1n}\\ a_{21} &a_{22} &... &a_{2n}\\ ... &... &... &... \\ a_{n1} &a_{n2} &... &a_{nn}\\ \end{array}\right] \cdot [x_1, x_2,...,x_n]^T \\ &=[x_1a_{11}+x_2a_{21}+...+x_na_{n1}, x_1a_{12}+x_2a_{22}+...+x_na_{n2},...,x_1a_{1n}+x_2a_{2n}+...+x_na_{nn}] \cdot \left [\begin{array}{cccc} x_1 \\ x_2 \\ . \\ . \\ . \\ x_n \\ \end{array}\right] \\ &=x_1(x_1a_{11}+x_2a_{21}+...+x_na_{n1})+x_2(x_1a_{12}+x_2a_{22}+...+x_na_{n2})+...+x_n(x_1a_{1n}+x_2a_{2n}+...+x_na_{nn}) \end{aligned}$
令：
$k(x) = x_1(x_1a_{11}+x_2a_{21}+...+x_na_{n1})+x_2(x_1a_{12}+x_2a_{22}+...+x_na_{n2})+...+x_n(x_1a_{1n}+x_2a_{2n}+...+x_na_{nn})$
则：
$\frac{\partial k(x)}{\partial x_1} = (x_1a_{11}+x_2a_{21}+...+x_na_{n1})+ (x_1a_{11} + x_2a_{12}+...+x_na_{1n})$
所以：

2 最小二乘法矩阵形式推导过程

假设有一多元线性方程组：
$f(x) = w_1x_1+w_2x_2+...+w_dx_d+b$
令 $w = [w_1,w_2,...w_d]^T$ ， $x = [x_1,x_2,...x_d]^T$ ，则上式可写为：
$f(x) = w^Tx+b$
但是上式还不够简洁，我们可以令：
$\hat w = [w_1,w_2,...,w_d,b]^T\\ \hat x = [x_1,x_2,...,x_d,1]^T$
假设现在总共有 $m$ 条观测值（ $m > d$ ）， $x^{(i)} = [x_1^{(i)}, x_2^{(i)},...,x_d^{(i)}]$ ，则带入 $f (x)$ 中可构成 $m$ 个方程：
最小二乘法的矩阵表达
再令：

所以方程组可写作：
$\hat X \cdot \hat w = \hat y$
该线性模型也可写作：
$f(\hat x) = \hat w^T \cdot \hat x$
我们可建立使误差平方和 $S S E$ 最小的优化模型：
$\min S(\hat w) = ||y - X\hat w||_2^2 = (y - X\hat w)^T(y - X\hat w)$
上式中， $X\hat w||_2$ 为向量的2-范数的计算表达式。向量的2-范数计算过程为各分量求平方和再进行开平方。例如 $a = [1, - 1,]$ ，则 $||a||_2= \sqrt{1^2+(-1)^2}=\sqrt{2}$ 。

我们只需要求得偏导数的零点，即可得到最优解，即最优的 $\hat w$ 值，即拟合的参数，即可得拟合的多元函数表达式

在此之前，需要补充两点矩阵转置的运算规则：
$A-B)^T=A^T-B^T\\ (AB)^T=B^TA^T$
对 $S(\hat w)$ 求导并令其为0即可：
$\begin{aligned} \frac{S(\hat w)}{\partial{\boldsymbol{\hat w}}} &= \frac{\partial{||\boldsymbol{y} - \boldsymbol{X\hat w}||_2}^2}{\partial{\boldsymbol{\hat w}}} \\ &= \frac{\partial(\boldsymbol{y} - \boldsymbol{X\hat w})^T(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}} \\ & =\frac{\partial(\boldsymbol{y}^T - \boldsymbol{\hat w^T X^T})(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\\ &=\frac{\partial(\boldsymbol{y}^T\boldsymbol{y} - \boldsymbol{\hat w^T X^Ty}-\boldsymbol{y}^T\boldsymbol{X \hat w} +\boldsymbol{\hat w^TX^T}\boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\\ & = 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty}+X^TX\hat w+(X^TX)^T\hat w \\ &= 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty} + 2\boldsymbol{X^TX\hat w}\\ &= 2(\boldsymbol{X^TX\hat w} - \boldsymbol{X^Ty}) = 0 \end{aligned}$
即：
$X^TX\hat w = X^Ty$
若 $X^TX$ 存在逆矩阵，则：
$\hat w = (X^TX)^{-1}X^Ty$
这样我们就得到了拟合的 $\hat w$ ，至此最小二乘法的推导结束！

3 代码验证

假如有这么一组数据：

$x$	$y$
1	2
3	4

我们要利用最小二乘法得到它的一次线性拟合函数，过程如下：

我们可以知道：
$\left [\begin{array}{cccc} 1 &1 \\ 3 &1 \\ \end{array}\right]\\ y = \left [\begin{array}{cccc} 2 \\ 4 \\ \end{array}\right] \\$
需要拟合的参数为：
$\hat w = [w,b]^T$
则：
最小二乘法的矩阵表达
即拟合出来的函数表达式为：
$y = x + 1$
Python代码实现：

import numpy as np # 导入numpy库用于相关计算
X = np.array([[1, 1], [3, 1]]) # 矩阵X
y = np.array([2, 4]).reshape(2, 1) # 观察值
result=np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y) # 相关矩阵运算
# 得到的结果中，最后一个值为b，其余从上到下分别为x1的系数，x2的系数......
print("拟合的参数为：",result)

因为CSDN的Markdown编辑器无法正常编译一些公式，所以用了图片，原md文件的网址：https://gitee.com/image111111/image1/raw/master/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95%E7%9A%84%E7%9F%A9%E9%98%B5%E8%A1%A8%E8%BE%BE.md文章来源地址https://www.toymoban.com/news/detail-418953.html

到了这里，关于最小二乘法的矩阵表达的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！