拟合算法之最小二乘法

这篇具有很好参考价值的文章主要介绍了拟合算法之最小二乘法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

拟合算法

与插值问题不同，在拟合问题中不需要曲线一定经过给定的点。拟合问题的目标是追求一个函数（曲线），使得该曲线在某种准测下与所有的数据点最为接近，即曲线拟合最好（最小化损失函数）。
拟合算法之最小二乘法

插值算法中，得到的多项式f(x)要经过所有的样本点。但是如果样本点太多，那么这个多项式的次数过高，会造成龙格现象。
尽管我们可以选择分段的方法避免这种现象，但是更多时候我们更要倾向于得到一个确定的曲线，尽管这条曲线不能经过每一个样本点，但只要保证误差足够小即可，这就是拟合的思想。（拟合的结果是得到一个确定的曲线）

最小二乘法

设这些样本点为(x_i,y_i),i=1,2,3,…,n
我们设置拟合的曲线为y=kx+b,求当k和b为何值时，样本点和拟合曲线最接近。
第一种定义： $\widehat{y}_i=kx_i+b$
$\widehat{k},\widehat{b}=arg_{k,b}min(\sum_{i=1}^n{|y_i-\widehat{y}_i|})$
第二种定义： $\widehat{y}_i=kx_i+b$
$\widehat{k},\widehat{b}=arg_{k,b}min(\sum_{i=1}^n{(y_i-\widehat{y}_i)^2})$
第一种定义有绝对值，不容易求导，因此计算比较复杂。所以我们往往使用第二种定义，这也是最小二乘的思想。

为什么不用四次方?
① 避免极端数据对拟合曲线的影响。
② 最小二乘法得到的结果和MLE极大似然估计一致。
③ 奇数次方误差会正负相抵。

设这些样本点为 $x_i,y_i),i=1,2,3...,n$
我们设置拟合的曲线为 $y = k x + b$ 。令拟合值为： $\widehat{y}_i=kx_i+b$
那么我们就可以得到：
$\widehat{k},\widehat{b}=arg_{k,b}min(\sum_{i=1}^n{(y_i-\widehat{y}_i)^2})=arg_{k,b}min(\sum_{i=1}^n{(y_i-kx_i-b)^2})$
令 $L=\sum{(y_i-kx_i-b)^2}$ ，要实现找到 $k, b$ 使得 $L$ 最小。（ $L$ 在机器学习中被称为损失函数，在回归中也常被称为残差平方和）
接下来使 $L$ 对 $k$ 和 $b$ 进行求导：

$\left\{ \begin{aligned} \frac{\partial L}{\partial k }=-2\sum_{i=1}^nx_i(y_i-kx_i-b)=0 \\ \frac{\partial L}{\partial k }=-2\sum_{i=1}^nx_i(y_i-kx_i-b)=0 \\ \end{aligned} \right.$
得到：
$\widehat{k}=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^ny_i\sum\limits_{i=1}^nx_i}{n\sum\limits_{i=1}^nx_i^2-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^nx_i}$
$\widehat{b}=\frac{\sum\limits_{i=1}^nx_i^2\sum\limits_{i=1}^ny_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^nx_iy_i}{n\sum\limits_{i=1}^nx_i^2-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^nx_i}$
这里我们给出一组数据，使用matlab，来用最小二乘法拟合一下
拟合算法之最小二乘法

clear;clc
load  data1
plot(x,y,'o') % 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')

得到散点图： 拟合算法之最小二乘法
接下来利用公式得到k和b的值，并利用匿名函数画出拟合后的函数图像：

clear;clc
load  data1 %事先将x和y保存到data1中，也可以直接输入
plot(x,y,'o') % 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')
n = size(x,1);
k = (n*sum(x.*y)-sum(x)*sum(y))/(n*sum(x.*x)-sum(x)*sum(x))
b = (sum(x.*x)*sum(y)-sum(x)*sum(x.*y))/(n*sum(x.*x)-sum(x)*sum(x))
hold on % 继续在之前的图形上来画图形
grid on % 显示网格线

% 匿名函数的基本用法。
% handle = @(arglist) anonymous_function
% 其中handle为调用匿名函数时使用的名字。
% arglist为匿名函数的输入参数，可以是一个，也可以是多个，用逗号分隔。
% anonymous_function为匿名函数的表达式。

f=@(x) k*x+b;
fplot(f,[2.5,7]);
legend('样本数据','拟合函数','location','SouthEast')

就可以得到我们最小二乘法拟合的图像了： 拟合算法之最小二乘法

拟合好坏的评价：拟合优度

如何来评价拟合的程度，我们使用拟合优度（可决系数） $R^2$ 。首先我们引入几个定义：
$总体平方和SST:SST=\sum\limits_{i=1}^n(y_i-\bar{y})^2$
$误差平方和SSE:SSE=\sum\limits_{i=1}^n(y_i-\widehat{y}_i)^2$
$回归平方和SSR:SSR=\sum\limits_{i=1}^n(\widehat{y}_i-\bar{y})^2$
可以证明： $S S T = S S E + S S T$ (用到我们求导得到的两个等式)
$拟合优度：0\leq R^2=\frac{SSR}{SST}=\frac{SST-SSE}{SST}=1-\frac{SSE}{SST}\leq 1$
$R^2$ 越接近1，说明误差平方和越接近0，误差越小说明拟合的越好。
（注： $R^2$ 只能用于拟合参数线性函数，拟合结果的评价）
线性函数和其他函数（例如指数函数）比较拟合的好坏，直接看 $S S E$ 即可（越小越好），未来还可能遇到 $R^2$ 是负数的情况。
使用matlab计算 $R^2$ :

y_hat = k*x+b; % y的拟合值
SSR = sum((y_hat-mean(y)).^2)  % 回归平方和
SSE = sum((y_hat-y).^2) % 误差平方和
SST = sum((y-mean(y)).^2) % 总体平方和
SST-SSE-SSR   % 5.6843e-14  =   5.6843*10^-14   matlab浮点数计算的一个误差,可以忽略不计，说明SST=SSE+SSR
R_2 = SSR / SST