机器学习——线性回归、梯度下降

这篇具有很好参考价值的文章主要介绍了机器学习——线性回归、梯度下降。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、机器学习的分类

监督学习：学习数据带有标签
无监督学习：没有任何的标签，或者有相同的标签
其他：强化学习、推荐系统等

二、线型回归Linear regression（单变量线性回归）

还是房价预测的例子，训练集如下：
机器学习——线性回归、梯度下降
定义各个变量的含义如下：

m——代表训练集中实例的数量
x——代表特征/输入变量
y——代表目标变量/输出变量
(x,y)——代表训练集中的实例
(x⁽ⁱ⁾,y⁽ⁱ⁾)——代表第 i 个观察实例：其中x(i) 代表第i个输入变量, y(i)代表第i个目标变量
h——代表学习算法的解决方案或函数，也称为假设（hypothesis）

h 根据输入的 x 值来得出 y 值， y 值对应房子的价。因此， h 是一个从x 到 y 的函数映射，h 的一种可能的表达方式如下。因为只含有一个特征/输入变量，这样的问题叫作单变量线性回归问题。
机器学习——线性回归、梯度下降

三、代价函数

线性回归算法优化的目标是：选取最有可能与数据相拟合的直线。
数据与直线的误差，称为建模误差 modeling error。
为了使建模误差最小，我们需要调整参数θ0 和 θ1，使得代价函数Cost function：J(θ0, θ1) 的值最小。

在各种代价函数中，最常用的是平方误差代价函数 Squared error cost function。

3.1 建模误差

因为 h 是一次方程，它对应两个模型参数(parameters) θ₀ 和 θ₁，选取不同的参数 θ₀ 和 θ₁，产生的 h 不同，最终的直线也不同。
参数决定了直线相对于训练集的准确程度，模型所预测值与训练集实际值之间的差距（下图中蓝线所指）就是 建模误差（modeling error）
机器学习——线性回归、梯度下降
　　调整参数 θ₀ 和 θ₁，目标：使建模误差的平方和最小

3.2 平方误差代价函数 Squared error cost function

示例一：
机器学习——线性回归、梯度下降
　　左边是假设函数（此例θ₀=0，直线过原点），不同的θ₁代表着不同的拟合情况。
　　右边是代价函数，不同的θ₁代表着不同的代价，对于平方误差代价函数，计算公式为：

　　当 θ1 取1时，J(θ1) = 0 , 此时 J(θ1) 最小，处于曲线最低点，是我们想要的结果

示例二：
　　当 θ0 和 θ1 都发生变化时，代价函数 J(θ0 , θ1) 在三维空间中图形如下：
机器学习——线性回归、梯度下降
　　因为三维图像看起来太复杂，将它投射到二维平面。引入等高线contour plot ,等高线上的点，对应的代价函数 J(θ₀ , θ₁) 取值相同

　　上图取值位于三维图形的最低点，在二维图形上位于等高线的中心。对应的假设函数 h(x) 直线如左图。虽然拟合数据有一些误差（蓝色竖线），但是已经很接近最小值了。

3.3 梯度下降

梯度下降算法对 θ赋值，使得 J(θ)按梯度下降最快方向进行，一直迭代下去，最终得到局部最小值，即收敛 convergence,如图：
机器学习——线性回归、梯度下降

梯度下降算法不只用于线性回归，可以用来最小化任何代价函数 J。公式如下：
机器学习——线性回归、梯度下降
（1）梯度下降的更新规则
　　取红点的切线，即这条红色直线。
　　由于曲线右侧斜率为正，导数为正。因此，θ₁ 减去一个正数乘以 α，值变小。
　　曲线左侧斜率为负，导数为负。因此，θ₁ 减去一个负数乘以 α，值变大。
机器学习——线性回归、梯度下降
（2）学习率 ɑ 的选择
　　如果 α 太小，只能小碎步下降，需要很多步才能到达全局最低点，很慢。
　　如果 α 太大，那么算法可能会越过最低点。一次次越过最低点，离它越来越远。会导致无法收敛，甚至发散。
　　机器学习——线性回归、梯度下降
（3）不调整学习速率 α 也能收敛
　　梯度下降一步后，新的导数会变小，移动的幅度会自动变小。直到最终移动幅度非常小时，已经收敛到局部极小值。

3.4 梯度下降与线性回归相结合

将平方误差函数 h(x)，结合梯度下降法，以及平方代价函数J(Θ)，得出第一个机器学习算法，即线性回归Linear Regression ，对之前的线性回归问题运用梯度下降法，关键在于求出代价函数的导数
机器学习——线性回归、梯度下降
　　j 分别取 0 和 1 时，其导数如下:

　　将上面两个导数带入梯度下降算法中，替代原来的。梯度下降算法变为:

虽然梯度下降一般易受局部最小值影响 susceptible to local minima，但我们在线性回归中提出的优化问题只有一个全局最优解，而没有其他局部最优解，代价函数是凸二次函数。因此，梯度下降总是收敛到全局最小值（假设学习率α不是太大）