CenterLoss原理详解（通透）-Toy模板网

这篇具有很好参考价值的文章主要介绍了CenterLoss原理详解（通透）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

（一）CenterLoss研究背景和意义

1.1、Research background

1.人脸识别规模大，尤其集外的样本不仅需要特征separable(可分离的),更加需要separable(可分离的)。

问题一：separable(可分离的)和separable(可分离的)这两个词怎么理解？

首先我们看一张图片（绿色框中的两个部分）：
CenterLoss原理详解（通透）
先记住这两个图形样式的区别，后面自然就懂了。（区别就是人脸识别的Loss Function 不同于CNN中图像分类的Loss Function。在作者论文的Introduction做了详细的介绍。下面我会细讲。）

2.之前的方法在训练数据处理上面相当复杂（例如FaceNet中的Triplets Loss，并且Triplets Loss显著增加了计算的复杂度，使训练过程变得不方便。）

3、之前的主要方法：

1.基于pair的contractive loss, Deepid2
2.基于facenet的Triplet loss的方法

缺陷：

1.训练数据的选取复杂度太高
2.也不能用到明确的类别信息

1.2、研究成果以及意义

1.使得训练出来的特征对于同一个类别来讲更加紧致
2.使得训练更加简单方便，尤其输入训练数据这一块
3.能用到每一个类别的信息，信息丢失很少

（二）论文精度

2.1、Abstract

摘要核心

在此之前大部分分类还是基于softmax的准则

提出center loss,以及其作用：每个类别的样本距离其中间很近

Softmax + center loss联合训练，容易优化

取得很好的性能

2.2、Introduction

很多任务都是Close-Set Identification，比如分类网络就ok，只用Separable的特征就能解决。

问题二：Close-Set Identification是什么意思？

答：Close-Set Identification：字面意思闭集合分类。比如我们的大部分图像分类就是Close-Set Identification，就是检测出的结果必须包含在训练数据集的种类中，比如ImageNet数据集，我们检测的图形中的目标类别必须包含在ImageNet数据集的1000个种类中。

人脸识别任务不是close-set identfication的，需要足够强的泛化能力去解决集外的人脸，这就需要人脸特征discriminative 。

作者论文中的原话：在人脸识别任务中，深度学习的特征不仅需要可分离，而且需要具有辨别性。由于预先收集所有可能的测试身份以进行训练是不切实际的，因此在cnn中的标签预测并不总是适用的。深度学习的特征需要具有足够的区别和普遍性，才能识别没有标签预测的新的不可见类。

构建discriminative的loss训练很难，包括之前讲的triplet loss,在数据处理很复杂.

提出center loss:

意义:
efficiently enhance the discriminative power of the deeply learned features in neural networks

（三）LossFounction

3.1、Softmax 与 CenterLoss 输出的区别

对于常见的图像分类问题，我们常常用softmax loss来求损失。如果你的损失采用softmax loss，那么最后各个类别学出来的特征分布大概如下图Fig2。这个图是以MNISTt数据集做的实验，一共10个类别，用不同的颜色表示。从Fig2可以看出不管是训练数据集还是测试数据集，都能看出比较清晰的类别界限。
Center Loss是通过将特征和特征中心的距离和softmax loss一同作为损失函数，使得类内距离更小，有点L1，L2正则化的意思。最关键是在训练时要使用2个Loss函数：Softmax Loss + lamda * Center Loss：

3.2、SoftMax Loss

这篇文章对Softmax vs. Softmax-Loss: Numerical Stability写的超好，可以进一步加深理解。

The softmax loss function ispresented as follows：
CenterLoss原理详解（通透）
$x_i\in R^d$ ：表示属于 $y_i$ 类（ $y$ 指输出， $i$ 指 $y$ 的第 $i$ 行，即第 $i$ 个类别。）的第 $i$ 层的深层特征。；
$d$ ：指特征维度；
$W_j \in R^d$ ：表示最后一个全连接层中权重 $\in R^{d \times n}$ 的第 $j$ 列；
$b$ ：偏置，不用多说了；
$m$ ：The size of mini-batch（Batch Size）；
$n$ ： The number of class；

上面的这些参数可以结合下图理解奥

CenterLoss原理详解（通透）

The resulting 2-D deep features如下图所示

这里The resulting 2-D deep features指：最后的全连接层设置为2（二分类）如下图所示。 CenterLoss原理详解（通透）

由于最后一个完全连接的层就像一个线性分类器，所以不同类的深度特征通过决策边界（就是超平面）来区分。
CenterLoss原理详解（通透）
所以我们得出结论：

（1）在softmax loss的监督下，深入学习的特征是可分离的
（2）深度特征没有足够的辨别力，因为它们仍然显示出显著的类内变化。因此，不适合直接使用这些特征进行识别。

3.3、CenterLoss

CenterLoss公式如下：该公式有效地描述表征类内变化（the intra-class variations）。
CenterLoss原理详解（通透）
$c_{y_i}\in R^d$ ：代表类别为 $y_i$ 的所有feature的中心。具体来说即在训练过程中对每个类别在minibatch尺度上统计出该类别feature的中心，希望所有feature离中心的距离都尽量小。

Center Loss不能直接使用的原因？

答：

$c_{y_i}$ 会随着深层特征的改变而更新。换句话说，我们需要考虑到整个训练集，并在每次迭代中平均每个类的特征，这是低效的，甚至是不切实际的。因此，Center Loss不能直接使用。这可能是这种Center Loss直到现在从未使用于CNN中的原因。

如何解决Center Loss不能直接使用。

答：

1、我们不是针对整个训练集更新中心，而是基于小批量进行更新。在每次迭代中，中心是通过平均相应类的特征来计算的（在这种情况下，一些中心可能不会更新）。
2、为了避免由于少数错误标记的样本而引起的大扰动，我们使用标量 $\alpha$ 来控制中心的学习率。

上图中：公式（3）是Center Loss基于 $x_i$ 计算的梯度。
公式（4）中 $δ (c o n d i t i o n)$ 非0即1，指当 $y_i$ 的类别与 $c_j$ 的类别不一样时， $c_j$ 是不进行更新的。含义是类别中心的更新距离方式，具体来说就是对于每个类别 $j$ ，将j类别中心减去每个 $j$ 类别feature中心的值取平均，以此作为类别中心更新的步进值。