对比学习MoCo损失函数infoNCE理解（附代码）

10月前作者：不瘦8斤的妥球球饼分类：Toy博客阅读(44) 违法举报

这篇具有很好参考价值的文章主要介绍了对比学习MoCo损失函数infoNCE理解（附代码）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

对比学习MoCo损失函数infoNCE理解（附代码）

MoCo loss计算采用的损失函数是InfoNCE：

对比学习MoCo损失函数infoNCE理解（附代码）

下面是MoCo的伪代码，MoCo这个loss的实现就是基于cross entropy loss。

对比学习MoCo损失函数infoNCE理解（附代码）

将k作为q的正样本，因为k与q是来自同一张图像的不同视图；将queue作为q的负样本，因为queue中含有大量不同图像的视图。

在具体python代码中（在/moco/builder.py和/main_moco.py）的实现如下：

对比学习MoCo损失函数infoNCE理解（附代码）

对比学习MoCo损失函数infoNCE理解（附代码）

（1）首先计算正样本损失l_pos，大小为(N, 1)。

l_pos = torch.einsum('nc,nc->n', [q, k]).unsqueeze(-1)

再计算负样本损失l_neg，大小为(N, K)。

l_neg = torch.einsum('nc,ck->nk', [q, self.queue.clone().detach()])

（2）将l_pos和l_neg进行cat操作，并除以温度参数temperature（控制concentration level of distribution），得到logits，大小为(N, 1+K)。

# logits: Nx(1+K)
logits = torch.cat([l_pos, l_neg], dim=1)

# apply temperature
logits /= self.T

目标是正样本都为1，负样本都为0。

（3）那么可以把logits看做分类，分成1+K个类别，期望都是第一个类别，则可以把labels设为0（为什么呢？）。

# labels: positive key indicators
labels = torch.zeros(logits.shape[0], dtype=torch.long).cuda()

（4）最后函数返回，再使用nn.CrossEntropyLoss计算损失函数。

criterion = nn.CrossEntropyLoss().cuda(args.gpu)
# ...
loss = criterion(output, target)

前面提到的可以把labels设为0（为什么呢？）

我们可以结合nn.CrossEntropyLoss详解_Lucinda6的博客-CSDN博客_nn.crossentropyloss()和https://www.cnblogs.com/marsggbo/p/10401215.html 理解一下。

交叉熵的计算公式为：

对比学习MoCo损失函数infoNCE理解（附代码）

其中p表示真实值，在这个公式中是one-hot形式；q是预测值，在这里假设已经是经过softmax后的结果了。

下面详细分析一下nn.CrossEntropyLoss。

仔细观察上面的交叉熵的计算公式可以知道，因为p的元素不是0就是1，而且又是乘法，所以很自然地我们如果知道1所对应的index，那么就不用做其他无意义的运算了。所以在pytorch代码中target不是以one-hot形式表示的，而是直接用scalar表示。所以交叉熵的公式(m表示真实类别)可变形为：

对比学习MoCo损失函数infoNCE理解（附代码）

仔细看看，是不是就是等同于log_softmax和nll_loss两个步骤。

对比学习MoCo损失函数infoNCE理解（附代码）

所以Pytorch中的F.cross_entropy会自动调用上面介绍的log_softmax和nll_loss来计算交叉熵,其计算方式如下:

对比学习MoCo损失函数infoNCE理解（附代码）

参考文章：

自监督学习MOCO算法解析 - 知乎

对比学习损失（InfoNCE loss）与交叉熵损失的联系，以及温度系数的作用 - 知乎

nn.CrossEntropyLoss详解_Lucinda6的博客-CSDN博客_nn.crossentropyloss()

https://www.cnblogs.com/marsggbo/p/10401215.html

nn.Softmax_harry_tea的博客-CSDN博客_nn.softmax

torch.einsum详解 - 知乎文章来源地址https://www.toymoban.com/news/detail-449375.html

到了这里，关于对比学习MoCo损失函数infoNCE理解（附代码）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【Pytorch】从MoCo看无监督对比学习；从SupCon看有监督对比学习

以下内容全部来自于：自监督学习-MoCo-论文笔记. 侵删论文：Momentum Contrast for Unsupervised Visual Representation Learning CVPR 2020 最佳论文提名用动量对比学习的方法做无监督的表征学习任务。动量的理解即是指数移动平均（EMA），公式理解： moco中利用动量来缓慢的更新编码器，这

2024年02月21日
浏览(50)
论文代码学习—HiFi-GAN（3）——模型损失函数loss解析

这里翻译了HiFi-GAN这篇论文的具体内容，具体链接。这篇文章还是学到了很多东西，从整体上说，学到了生成对抗网络的构建思路，包括生成器和鉴定器。细化到具体实现的细节，如何实现对于特定周期的数据处理？在细化，膨胀卷积是如何实现的？这些通过文章，仅仅是了

2024年02月14日
浏览(91)
【计算机视觉】对比学习综述（自己的一些理解）

对比loss 对比学习的 loss（InfoNCE）即以最大化互信息为目标推导而来。其核心是通过计算样本表示间的距离，拉近正样本，拉远负样本，因而训练得到的模型能够区分正负例。具体做法为：对一个 batch 输入的图片，随机用不同的数据增强方法生成两个 view，对他们用相同的

2024年02月12日
浏览(48)
深度学习与计算机视觉教程(3) | 损失函数与最优化（CV通关指南·完结）

在上一篇深度学习与计算机视觉教程(2) - 图像分类与机器学习基础内容中，我们对线性分类器做了一些介绍，我们希望线性分类器能够准确地对图像进行分类，要有一套优化其权重参数的方法，这就是本篇ShowMeAI要给大家介绍到的损失函数与最优化相关的知识。损失函数数

2024年02月20日
浏览(42)
Python 华为面试手撕代码 + 八股文，机器学习参数调节，损失函数，激活函数，线程、进程和协程

一、手撕代码：力扣原题905 二、八股文部分：有点紧张，忘了好多东西 1.深度学习模型优化的方法有哪些？深度学习模型的优化策略包括以下几个方面：（1）选择合适的激活函数：激活函数对模型的表达能力和收敛速度有很大影响，常用的激活函数包括ReLU、Sigmoid、Tanh等。

2024年02月09日
浏览(44)
损失函数的理解

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档如果有人问你现在有多幸福，你会如何回答呢?一般的人可能会给出诸如“还可以吧”或者“不是那么幸福”等笼统的回答。如果有人回答“我现在的幸福指数是10.23”的话，可能会把人吓一跳吧。因为他

2024年02月06日
浏览(31)
李沐论文精读系列三：MoCo、对比学习综述（MoCov1/v2/v3、SimCLR v1/v2、DINO等）

传送门：李沐论文精读系列一： ResNet、Transformer、GAN、BERT 李沐论文精读系列二：Vision Transformer、MAE、Swin-Transformer 李沐论文精读系列四：CLIP和改进工作串讲（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso） 1.1 导言参考：论文：Momentum Contrast for Unsupervised Visual Representation Learni

2024年02月04日
浏览(54)
【自监督学习合集】一：moco代码精读

本人刚入门自监督学习，对自监督学习的了解还停留在理论阶段，现在想为自己开一个坑，即这个自监督学习代码阅读合集，一方面可以加深自己的理解，另一方面也希望能帮助到与我一样的初学者，有什么不对的地方还希望大家不吝指教。在说moco之前，要知道何为对比学

2023年04月08日
浏览(46)
人工智能基础_机器学习007_高斯分布_概率计算_最小二乘法推导_得出损失函数---人工智能工作笔记0047

这个不分也是挺难的,但是之前有详细的,解释了,之前的文章中有, 那么这里会简单提一下,然后,继续向下学习首先我们要知道高斯分布,也就是,正太分布, 这个可以预测x在多少的时候,概率最大要知道在概率分布这个,高斯分布公式中,u代表平均值,然后西格玛代表标准差,知道了

2024年02月07日
浏览(74)
人工智能_机器学习065_SVM支持向量机KKT条件_深度理解KKT条件下的损失函数求解过程_公式详细推导_---人工智能工作笔记0105

之前我们已经说了KKT条件,其实就是用来解决如何实现对,不等式条件下的,目标函数的求解问题,之前我们说的拉格朗日乘数法,是用来对等式条件下的目标函数进行求解. KKT条件是这样做的,添加了一个阿尔法平方对吧,这个阿尔法平方肯定是大于0的,那么可以结合下面的文章去

2024年02月04日
浏览(43)