机器学习——深度学习-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器学习——深度学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 感知机

机器学习——深度学习
$y=f(\sum\limits_{i=1}^{n}w_ix_i-b)$
其中， $f$ 常常取阶跃函数或 Sigmoid 函数。

学习规则：
$\Delta w_i=\eta(y-\hat{y})x_i\\ w_i \leftarrow w_i+\Delta w_i$
其中， $\hat{y}$ 为感知机的输出， $\eta$ 为学习率。

单层感知机只能解决线性可分问题，要解决非线性可分问题（如异或），可考虑引入多层功能神经元。

2 反向传播（BackPropagation）

机器学习——深度学习
训练集 $D={(x_1,y_1),(x_2,y_2)\cdots(x_m,y_m)},x\in\mathbb{R}^d,y\in\mathbb{R^l}$ ，隐层的阈值为 $\gamma_h$ ，输出层的阈值为 $\theta_j$ ，两个层的激活函数均为 Sigmoid 函数（ $S^{'} (x) = S (x) [1 - S (x)]$ ）。对训练例 $x_k,y_k)$ ，输出为 ${\hat y^k}=({\hat y_1^k},{\hat y_2^k},\cdots,{\hat y_l^k})$ ，其中， ${\hat y_j^k}=f(\beta_j-\theta_j)$ 。则整个网络对该训练例的均方误差为：
$E_k=\frac{1}{2}\sum\limits_{j=1}^{l}({\hat y_j^k}-y^k_j)^2$
我们需要确定的参数为：输入层到隐层的权值，共 $d\cdot q$ 个；隐层的阈值，共 $q$ 个；隐层到输出层的权值 $q\cdot l$ 个；输出层的阈值，共 $l$ 个。在每一轮迭代中，任意参数 $v$ 的更新均可以表示为：
$v\leftarrow v+\Delta v,\ 其中\Delta v = -\eta\frac{\partial E_k}{\partial v}$
例如，对隐层到输出层的权值 $w_{hj}$ ，有：
$\begin{align} \frac{\partial E_k}{\partial w_{hj}}&=\frac{\partial E_k}{\partial {\hat y^k_j}}\cdot\frac{\partial {\hat y^k_j}}{\partial \beta_j}\cdot\frac{\partial \beta_j}{\partial w_{hj}}（链式法则）\\ &=({\hat y^k_j}-y^k_j)\cdot{\hat y^k_j}\cdot(1-{\hat y^k_j})\cdot b_h \end{align}$
记 $g_j=({y^k_j}-{\hat y^k_j})\cdot{\hat y^k_j}\cdot(1-{\hat y^k_j})$ ，于是有：
$\Delta w_{hj}=\eta g_jb_h$
同理得 $\Delta\theta_j=-\eta g_j、\Delta v_{ih}=\eta e_hx_i、\Delta\gamma_h=-\eta e_h$ ，其中：
$\begin{align} e_h&=-\frac{\partial E_k}{\partial b_{h}}\cdot\frac{\partial b_h}{\partial \alpha_h}\\ &=-b_h\cdot(1-b_h)\cdot\sum\limits_{j=1}^{l}\frac{\partial E_k}{\partial \beta_{j}}\cdot\frac{\partial \beta_j}{\partial b_{h}}\\ &=b_h\cdot(1-b_h)\cdot\sum\limits_{j=1}^{l}g_jw_{hj} \end{align}$

BP 算法的流程为：
机器学习——深度学习
BP 算法的目标是最小化累积误差 $\frac{1}{m}\sum\limits_{i=1}^{k}E_k$ ；只要隐层有足够多的神经元，BP 神经网络能以任意精度逼近任意连续函数。

3 卷积神经网络

特点：

继承 BP 神经网络的优点
权值共享：卷积层、池化层的可训练参数仅与卷积窗的种类有关，每种卷积窗内部的神经元参数一致。（卷积层 or 池化层 → 卷积窗 → 神经元）
卷积层：
池化层：

以 LeNet-5 手写数字为例：
机器学习——深度学习
C1 层：

输入图片大小：32*32
卷积窗大小：5*5
卷积窗种类：6
输出特征图大小：28*28
可训练参数：(5*5+1)*6（每种卷积窗有 25 个权值和 1 个偏置常数）
神经元数量：28*28*6（每个输出特征图由 28*28 个神经元构成）
连接数：(5*5+1)*28*28*6（每个神经元需要与视野域内的 5*5 个输入连接，还要与本卷积窗的偏置常数连接）

S2 层：

输入图片大小：28*28
卷积窗大小：2*2
卷积窗种类：6（和输入的 6 个图片一一对应）
输出下采样图的大小：14*14（与卷积层不同的是，池化层的步长为 2）
可训练参数：(1+1)*6（池化层的神经元会先取其视野域内的4个输入的最大值（也可以是最小值、均值等），然后在乘以一个可训练权重 w ，再加上一个可训练偏置，故每种卷积窗的可训练参数为：1+1）
神经元数量：14*14*6
连接数：(2*2+1)*14*14*6

C3 层：

输入图片大小：14*14
卷积窗大小：5*5
卷积窗种类：16
输出特征图大小：10*10
可训练参数：(3*6+4*9+6*1)*25+16（6 种卷积窗的每个神经元与 3 个输入图片有关；9 种卷积窗的每个神经元与 4 个输入图片有关；1 种卷积窗的每个神经元与 6 个输入图片有关；每个输入图片有 25 个输入；16 种卷积窗各有 1 个偏置常数）
神经元数量：10*10*6
连接数：((3*6+4*9+6*1)*25+16)*10*10*6