迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》

这篇具有很好参考价值的文章主要介绍了迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文信息

论文标题:Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment
论文作者:Shuhan Tan, Xingchao Peng, Kate Saenko
论文来源:ICLR 2020
论文地址:download 
论文代码:download
视屏讲解:click

1 摘要

  提出问题:标签偏移;

  解决方法:

    原型分类器模拟类特征分布,并使用 Minimax Entropy 实现条件特征对齐;

    使用高置信度目标样本伪标签实现标签分布修正;

2 介绍

2.1 当前工作

  假设条件标签分布不变 $p(y \mid x)=q(y \mid x)$,只有特征偏移 $p(x) \neq q(x)$,忽略标签偏移 $p(y) \neq q(y)$。

  假设不成立的原因:

    • 场景不同,标签跨域转移 $p(y) \neq q(y)$ 很常见;
    • 如果存在标签偏移,则当前的 UDA 工作性能显著下降;
    • 一个合适的 UDA 方法应该能同时处理协变量偏移和标签偏移;

2.2 本文工作

  本文提出类不平衡域适应 (CDA),需要同时处理 条件特征转移标签转移

  具体来说,除了协变量偏移假设 $p(x) \neq   q(x)$, $p(y \mid x)=q(y \mid x)$,进一步假设 $p(x \mid y) \neq q(x \mid y)$ 和 $p(y) \neq q(y)$。

  CDA 的主要挑战:

    • 标签偏移阻碍了主流领域自适应方法的有效性,这些方法只能边缘对齐特征分布;
    • 在存在标签偏移的情况下,对齐条件特征分布 $p(x \mid y)$, $q(x \mid y)$ 很困难;
    • 当一个或两个域中的数据在不同类别中分布不均时,很难训练无偏分类器;

  CDA 概述:

  迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》

3 问题定义

  In Class-imbalanced Domain Adaptation, we are given a source domain  $\mathcal{D}_{\mathcal{S}}=   \left\{\left(x_{i}^{s}, y_{i}^{s}\right)_{i=1}^{N_{s}}\right\}$  with  $N_{s}$  labeled examples, and a target domain  $\mathcal{D}_{\mathcal{T}}=\left\{\left(x_{i}^{t}\right)_{i=1}^{N_{t}}\right\}$  with  $N_{t}$  unlabeled examples. We assume that  $p(y \mid x)=q(y \mid x)$  but  $p(x \mid y) \neq   q(x \mid y)$, $p(x) \neq q(x)$ , and  $p(y) \neq q(y)$ . We aim to construct an end-to-end deep neural network which is able to transfer the knowledge learned from  $\mathcal{D}_{\mathcal{S}}$  to  $\mathcal{D}_{\mathcal{T}}$ , and train a classifier  $y=\theta(x)$  which can minimize task risk in target domain  $\epsilon_{T}(\theta)=\operatorname{Pr}_{(x, y) \sim q}[\theta(x) \neq y]$. 

4 方法

4.1 整体框架

  迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》

4.2 用于特征转移的基于原型的条件对齐

  目的:对齐 $p(x \mid y)$ 和 $q(x \mid y)$

  步骤:首先使用原型分类器(基于相似度)估计 $p(x \mid y)$ ,然后使用一种 $\text{minimax entropy}$ 算法将其和 $q(x \mid y)$ 对齐;

4.2.1 原型分类器

  原因:基于原型的分类器在少样本学习设置中表现良好,因为在标签偏移的假设下中,某些类别的设置频率可能较低;

迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》
# 深层原型分类器
class Predictor_deep_latent(nn.Module):
    def __init__(self, in_dim = 1208, num_class = 2, temp = 0.05):
        super(Predictor_deep_latent, self).__init__()
        self.in_dim = in_dim
        self.hid_dim = 512
        self.num_class = num_class
        self.temp = temp  #0.05

        self.fc1 = nn.Linear(self.in_dim, self.hid_dim)
        self.fc2 = nn.Linear(self.hid_dim, num_class, bias=False)

    def forward(self, x, reverse=False, eta=0.1):
        x = self.fc1(x)
        if reverse:
            x = GradReverse.apply(x, eta)
        feat = F.normalize(x)
        logit = self.fc2(feat) / self.temp
        return feat, logit
View Code

  源域上的样本使用交叉熵做监督训练:

    $\mathcal{L}_{S C}=\mathbb{E}_{(x, y) \in \mathcal{D}_{S}} \mathcal{L}_{c e}(h(x), y)  \quad \quad \quad(1)$

  样本 $x$ 被分类为 $i$ 类的置信度越高,$x$ 的嵌入越接近 $w_i$。因此,在优化上式时,通过将每个样本 $x$ 的嵌入更接近其在 $W$ 中的相应权重向量来减少类内变化。所以,可以将 $w_i$ 视为 $p$ 的代表性数据点(原型) $p(x \mid y=i)$ 。

4.2.2 通过 Minimax Entropy 实现条件对齐

  目标域缺少数据标签,所以使用 $\text{Eq.1}$ 获得类原型是不可行的;

  解决办法:

    • 将每个源原型移动到更接近其附近的目标样本;
    • 围绕这个移动的原型聚类目标样本;

  因此,提出 熵极小极大 实现上述两个目标。

  具体来说,对于输入网络的每个样本 $x^{t} \in \mathcal{D}_{\mathcal{T}}$,可以通过下式计算分类器输出的平均熵

    $\mathcal{L}_{H}=\mathbb{E}_{x \in \mathcal{D}_{\mathcal{T}}} H(x)=-\mathbb{E}_{x \in \mathcal{D}_{\mathcal{T}}} \sum_{i=1}^{c} h_{i}(x) \log h_{i}(x)\quad \quad \quad(2)$

  通过在对抗过程中对齐源原型和目标原型来实现条件特征分布对齐:

    • 训练 $C$ 以最大化 $\mathcal{L}_{H}$ ,旨在将原型从源样本移动到邻近的目标样本;
    • 训练 $F$ 来最小化 $\mathcal{L}_{H}$,目的是使目标样本的嵌入更接近它们附近的原型;

4.3 标签转移的类平衡自训练

  由于源标签分布 $p(y)$ 与目标标签分布 $q(y)$ 不同,因此不能保证在 $\mathcal{D}_{\mathcal{S}}$ 上具有低风险的分类器 $C$ 在 $\mathcal{D}_{\mathcal{T}}$ 上具有低错误。 直观地说,如果分类器是用不平衡的源数据训练的,决策边界将由训练数据中最频繁的类别主导,导致分类器偏向源标签分布。 当分类器应用于具有不同标签分布的目标域时,其准确性会降低,因为它高度偏向源域。

  为解决这个问题,本文使用[19]中的方法进行自我训练来估计目标标签分布并细化决策边界。自训练为了细化决策边界,本文建议通过自训练来估计目标标签分布。 我们根据分类器 $C$ 的输出将伪标签 $y$ 分配给所有目标样本。由于还对齐条件特征分布 $p(x \mid y$ 和 $q(x \mid y)$,假设分布高置信度伪标签 $q(y)$ 可以用作目标域的真实标签分布 $q(y)$ 的近似值。 在近似的目标标签分布下用这些伪标记的目标样本训练 $C$,能够减少标签偏移的负面影响。

  为了获得高置信度的伪标签,对于每个类别,本文选择属于该类别的具有最高置信度分数的目标样本的前 $k%$。利用 $h(x)$ 中的最高概率作为分类器对样本 $x$ 的置信度。 具体来说,对于每个伪标记样本 $(x, y)$,如果 $h(x)$ 位于具有相同伪标签的所有目标样本的前 $k%$ 中,将其选择掩码设置为 $m = 1$,否则 $m = 0 $。将伪标记目标集表示为 $\hat{\mathcal{D}}_{T}=\left\{\left(x_{i}^{t}, \hat{y}_{i}^{t}, m_{i}\right)_{i=1}^{N_{t}}\right\}$,利用来自 $\hat{\mathcal{D}}_{T}$ 的输入和伪标签来训练分类器 $C$,旨在细化决策 与目标标签分布的边界。 分类的总损失函数为:

    $\mathcal{L}_{S T}=\mathcal{L}_{S C}+\mathbb{E}_{(x, \hat{y}, m) \in \hat{\mathcal{D}}_{T}} \mathcal{L}_{c e}(h(x), \hat{y}) \cdot m$

  通常,用 $k_{0}=5$ 初始化 $k$,并设置 $k_{\text {step }}=5$,$k_{\max }=30$。

  Note:本文还对源域数据使用了平衡采样的方法,使得分类器不会偏向于某一类。

4.4 训练目标

  总体目标:

    $\begin{array}{l}\hat{C}=\underset{C}{\arg \min } \mathcal{L}_{S T}-\alpha \mathcal{L}_{H} \\\hat{F}=\underset{F}{\arg \min } \mathcal{L}_{S T}+\alpha \mathcal{L}_{H}\end{array}$

5 总结

  略文章来源地址https://www.toymoban.com/news/detail-418463.html

到了这里,关于迁移学习(COAL)《Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment》的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读:AugGAN: Cross Domain Adaptation with GAN-based Data Augmentation

    基于GAN的图像转换方法存在两个缺陷: 保留图像目标 和 保持图像转换前后的一致性 ,这导致不能用它生成大量不同域的训练数据。 论文提出了一种 结构感知 (Structure-aware)的 图像转换网络 (image-to-image translation network)。 为了将图像正确地转换,我们需要编码信息包含:1)

    2024年02月07日
    浏览(38)
  • VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 论文阅读笔记

    写在前面   又是一周周末,在家的时间感觉过得很快呀,下周就能回学校啦~ 论文地址:Open-Set Domain Adaptation with Visual-Language Foundation Models 代码地址:当前版本暂未提供代码地址 预计提交于:CVPR 2024 Ps:2023 年每周一篇博文阅读笔记,主页 更多干货,欢迎关注呀,期待 5

    2024年02月14日
    浏览(43)
  • 论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Chang_Domain_Generalized_Stereo_Matching_via_Hierarchical_Visual_Transformation_CVPR_2023_paper.html    立体匹配模型是近年来的研究热点。但是,现有的方法过分依赖特定数据集上的简单特征,导致在新的数据集上泛化能力不强。现有的立体匹配

    2024年02月04日
    浏览(41)
  • [论文解析] Diffusion Guided Domain Adaptation of Image Generators

    project link: https://styleganfusion.github.io/ In this paper, we show that the classifier-free guidance can be leveraged as a critic and enable generators to distill knowledge from large-scale text-to-image diffusion models. Generators can be efficiently shifted into new domains indicated by text prompts without access to groundtruth samples from target dom

    2024年02月16日
    浏览(40)
  • LLMs领域适应的预训练Pre-training for domain adaptation

    到目前为止,我强调了在开发应用程序时,您通常会使用现有的LLM。这为您节省了大量时间,并可以更快地得到一个工作原型。 但是,有一种情况下,您可能会发现有必要从头开始预训练自己的模型。如果您的目标领域使用的词汇和语言结构在日常语言中并不常用,您可能需

    2024年02月11日
    浏览(45)
  • Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation论文速读

    域偏移是临床应用中的常见问题,其中训练图像(源域)和测试图像(目标域)处于不同的分布下。已经提出了无监督域适应 (UDA) 技术,以使在源域中训练的模型适应目标域。但是,这些方法需要来自目标域的大量图像进行模型训练。 本文提出了一种新的少样本无监督域

    2024年04月28日
    浏览(39)
  • Evolving with AR9582: MFC900M - A Legacy of Connectivity and Adaptation

    In the ever-evolving landscape of technology, some products stand the test of time. Today, we celebrate the MFC900M, a testament to our enduring commitment to innovation and unwavering focus on adaptability. Although its features may be considered vintage, the true star of this product is our dedication to staying at the forefront of technological advancemen

    2024年02月05日
    浏览(49)
  • curl: (51) Unable to communicate securely with peer: requested domain name does not match the server

    问题图: 问题原因: 该问题是由于无法与对等体安全通信,请求的域名与服务器的证书不匹配,可以理解为https证书加密的问题。 解决方法: 可以在curl后面加上相关参数,由于我们需要访问的是https的加密链接,需要加上:–insecure(或-k), 效果图如下: 关于curl更多的用

    2024年02月11日
    浏览(61)
  • 大模型学习笔记07——大模型之Adaptation

    使用语言模型在学习了上下文后,仅通过给出的提示就能够执行一些任务 并不是所有的下游任务都可以通过提示方法完成,如: 自然语言推理(NLI) 问答(QA) 网络表格转文本 解析电子健康记录(EHR) 等 下游任务与语言模型的训练数据之间存在的问题 可能在格式和主题上

    2024年01月21日
    浏览(54)
  • Element-UI中调用tinymce6实现本地化加载,并解决提示:This domain is not registered with TinyMCE Cloud,省去api-key

    最新的tinymce会提示”This domain is not registered with TinyMCE Cloud“,要求注册tinymce官方云才能下载所需组件类库。 既然这样,那么解决办法就简单了:要么去注册云,要么屏蔽掉提示~~,要么全部由本地加载。 如果只导入 import Editor from \\\'@tinymce/tinymce-vue\\\' ,那么会从tinymce云上调用

    2023年04月08日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包