progressive random convolutions for single domain generalization论文阅读过程

这篇具有很好参考价值的文章主要介绍了progressive random convolutions for single domain generalization论文阅读过程。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

采用的是吴恩达老师的论文阅读方法。

阅读过程：

Multiple passes[多次通读]

Read the title/abstract/figures

Title

Progressive

采用渐进的方式，逐步改进模型性能或逐步引入新的技术。渐进性通常表示逐步迭代和改进。

Progressively stack randconv block【重复迭代】--block（变形偏移+仿射变换）【保留语义并获得更多style】

Random convolutions

可能在卷积层中引入某种随机性或随机特征来提高性能。【猜测可能用crf】
基于randconv

Single domain generalization

主要目标是解决单一领域泛化问题。泛化指模型在未见过的数据上表现良好的能力。单一领域泛化问题是指模型在训练时只能访问一个领域的数据，但需要在其他领域的数据上进行泛化而不失去性能。【和few-shot learning有类似】
从一个源域中学到鲁棒的representation--生成多样的samples从而扩展源域的覆盖范围

Abstract

Single Domain Generalization

说明研究目标

基于随机卷积（RandConv）的图像增强技术

该方法通过为每个小批量数据随机初始化一个卷积层，扭曲局部纹理，从而帮助模型学习更具泛化能力的视觉表示

视觉表示	视觉表示是一种数值或向量表示，它捕捉了图像中或视觉数据的关键特征或信息，用于表征图像内容和结构，例如边缘、纹理、颜色、形状等，以便计算机可以更好地理解和处理图像数据。
具有泛化能力的视觉表示	在训练期间学到的表示，对于不仅仅是用于训练的图像，而且对于新的、以前未见过的图像也能够有效地表征图像内容。

RandConv 方法存在一些结构性限制

增加卷积核大小时容易失去语义信息

缺乏单一卷积操作的内在多样性

单一卷积操作的内在多样性

通过不同参数的卷积核和不同的输入数据部分，同一个卷积操作能够捕获多种不同类型的特征

逐步随机卷积（Pro-RandConv）方法

原理

递归堆叠具有小内核尺寸的随机卷积层，而不是增加卷积核尺寸。——progressive

优势

缓解语义扭曲	减少理论感受野中远离中心的像素的影响
创建更有效的虚拟域	逐渐增加样式多样性

General

将基本的随机卷积层扩展为包括可变形偏移和仿射变换的随机卷积块，以支持纹理和对比度多样化，这两者(可变形偏移和仿射变换)也是随机初始化的。

可变形偏移和仿射变换

可变形偏移

卷积核的位置和形状可以动态地适应输入数据的特征

常包括一个可变形偏移模块，该模块学习如何在每个位置对卷积核进行偏移，以适应输入的特定结构。

仿射变换

仿射变换是一种线性变换，包括平移、旋转、缩放、剪切等操作，用于对输入数据进行几何变换。

用于数据增强以及对输入数据进行空间变换,可以在不改变数据内容的情况下改变其外观，使神经网络能够更好地应对不同视角、尺度和旋转下的对象识别等任务。

纹理和对比度多样化

纹理多样化	这种多样性可以用于数据增强，以帮助深度学习模型更好地泛化到不同类型的纹理。
对比度多样化	对比度多样化是一种通过改变图像的亮度和对比度水平来增加图像多样性的技术。可以使模型更鲁棒，能够处理不同亮度和对比度条件下的图像。

数据增强

数据增强可以帮助模型在训练中接触到更多变化，从而提高其鲁棒性

Figures

1	每种情况下progressive(same)+random convolution block性能都最好最终，model包含multiple random convolution blocks consisting of deformable offsets and affine transformation.
2	RandConv and our Pro-RandConv composed of multiple convolution blocks. 对比的图像增强的例子
3	包含了可变形偏移和仿射变换的能支持纹理和对比度多样化的随机卷积块的示意图
4	卷积核的形状和数值是固定的，但相较于普通的随即卷积操作，引入了可变形偏移变换的随机卷积操作使卷积核的应用位置能够在不同位置上根据图像的局部情况进行调整，从而更灵活地适应不同的图像。
5	四种不同领域在单域泛化设置中改变 RandConv 的核大小（k）和改变 ProRandConv 的重复次数（L）的比较分析。
6	在单域泛化设置中将高斯平滑应用于 RandConv 的卷积核的分析。
7	权重初始化分析？（a）-（c）对比度多样化，（d）-（e）纹理多样化

Table

显示了在MNIST数据集上训练的单一领域泛化准确性。	每一列的标题表示目标领域，数字值表示该领域的性能。训练时使用了LeNet模型。
总体而言，Pro-RandConv方法在所有目标领域上都表现出色，是这些方法中性能最佳的。

显示了在PACS数据集上使用ResNet18进行训练的单一领域泛化准确性	每一列的标题表示源领域，数字值表示在目标领域上的平均性能。
Pro-RandConv方法在PACS数据集（目标）上也表现出色，是这些方法中性能最佳的。

源领域（Source Domain）：	源领域是模型训练的原始数据集或环境。在这个领域中，模型接收训练数据并学习特征、模式等。源领域通常是模型熟悉的领域，模型的性能在这个领域上较好。
目标领域（Target Domain）：	目标领域是模型希望泛化的新数据集或环境。当模型在源领域上训练后，其目标是在目标领域中表现良好，即使目标领域的分布可能与源领域不同。目标领域是模型在实际应用中需要适应的领域。

显示了在PACS数据集上进行多领域泛化（Multi domain generalization）训练的模型在不同目标领域上的性能。	表格的每一列表示一个目标领域
ResNet-18	ro-RandConv在所有目标领域上都表现不错，平均准确性为84.29％。
ResNet-50:	Pro-RandConv也较好

在不同数据集和模型上，使用Pro-RandConv相对于使用RandConv能够获得更好的领域泛化性能。

在RTX A5000上（每批次64个样本）评估的效率统计信息。表格中的数字表示不同方法的训练和推断效率，以及准确性。

Intro+conclusions+figures+skim rest(skim related work)

intro

现状

建立在测试数据（目标）与训练数据（源）共享相同分布的假设上的，常常无法泛化到分布外的数据。--域差异

解决方向

领域自适应DA

从源域向特定目标域转移知识【在一个或多个源域上学习到的知识、模型参数或特征表示等迁移到一个特定的目标域上。】--考虑labeld and unlabelled target domain data的可用性？

领域泛化DG

仅利用源域数据学习领域无关的特征表示【 learn a domain-agnostic feature representation】，而不使用目标域数据【在源域数据上学习出一组领域无关的特征表示，这些特征能捕捉到源域中的共同模式或结构

，而不受源域之间特定差异影响】

差别

领域自适应有一个源域和一个目标域，目标是通过利用源域数据来适应目标域；领域泛化是从多个源域学习，以获得对未见过的目标域具有泛化能力。
总之领域泛化的目标域是未知的，而领域自适应在训练时是需要用到目标域的

多源领域

先前的研究侧重于使用多源域以减轻分布差异，但由于数据收集预算的实际限制，这种方法存在一些局限。

单一领域泛化

只利用单一源域学习鲁棒表示的问题。
common solution：采用对抗数据增强方案生成多样化样本来扩展源域的覆盖范围。

局限：这些方法通常具有复杂的训练流程和多个目标函数。

Random Convolution（RandConv）

包含一个单一的卷积层，其权重在每个mini-batch中是随机初始化的。