论文阅读笔记2:NetVLAD

这篇具有很好参考价值的文章主要介绍了论文阅读笔记2:NetVLAD。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

题目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、

团队:PSL Research University/Tokyo Institute of Technology

解决的问题:我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置

创新点:这篇文章主要有3个创新点: 1. 为场景识别任务构造出了一个可以直接端到端训练的CNN模型结构,NetVLAD就是该模型的一个layer;2. 构造一个弱监督排序损失(weakly supervised ranking loss)来指导模型的参数更新;3. 效果很好。在两个具有挑战性的数据集上超过了非学习性的和现成的CNN描述子,等等。总的来说,就是把传统的VLAD算法融合到了CNN模型结构里,然后针对特定的谷歌街景数据集(Google Street View Time Machine)用了弱监督排序损失来训练。

新概念:1.架构参数端到端的学习:从原始数据到输出不经过人工的干预;

2.反向传播主要是传播误差方便对参数进行更新;

3.weakly supervised ranking loss弱监督排序损失;

4.弱监督:分为三种类型:不完全监督、不确切监督、不准确监督;

5.对图像比较相似:将图像训练成一个向量,与数据集比对,向量之间的相似性由欧氏距离表示;

6. aggregation:聚合

7.conv5(第五层网络)描述符号以及L2归一层

作者主页:https://www.relja.info/

效果:达到了较好的mAP,图像检索:image retrieval,本文的训练网络:VGG-16 NetVLAD + whitening

对比的网络:RootSIFT + VLAD + whitening 召回率:ImageNet。 Places205。召回率recall@1 recall@10 Recall@K召回率是指前排在前K的结果中检索出的相关结果数和库中所有的相关结果数的比率。数据集Pitts250k 和Tokyo 24/7。 Alex-Net 与 VGG-16文章来源地址https://www.toymoban.com/news/detail-500242.html

到了这里,关于论文阅读笔记2:NetVLAD的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations

    SMLP4Rec:用于顺序推荐的高效全 MLP 架构 自注意力模型通过捕获用户-项目交互之间的顺序依赖关系,在顺序推荐系统中实现了最先进的性能。然而,它们依赖于向项目序列添加位置嵌入来保留顺序信息,由于这两种类型的嵌入之间的异质性,这可能会破坏项目嵌入的语义。此

    2024年04月26日
    浏览(40)
  • [论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE

    这是论文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的阅读笔记。本篇论文提出了通过Pre-LN的方式可以省掉Warm-up环节,并且可以加快Transformer的训练速度。 通常训练Transformer需要一个仔细设计的学习率warm-up(预热)阶段:在训练开始阶段学习率需要设成一个极小的值,然后在一些

    2024年02月12日
    浏览(41)
  • 论文阅读:Vary论文阅读笔记

    论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models Paper | Github | Demo 许久不精读论文了,内心一直想找个专门的时间来细细品读自己感兴趣的论文。现在想来,无异于是自己骗自己了,因为根本就不存在那个专门的时间。所以改变最好的时候就是现在。 因为自己一

    2024年01月19日
    浏览(46)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(论文笔记)

    (发现问题): 在基于RRAM的加速器中,自注意力层在收集输入序列信息的过程中,需要所有输入序列词的前一层结果,由于输入实例在不同的时间步上被串行处理。 因此,自注意层一直保持停滞,直到上一层计算的结束。这就是数据危险,增加了在基于RRAM加速器上处理基于

    2024年03月25日
    浏览(59)
  • 论文阅读:Vary-toy论文阅读笔记

    论文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧,之前在写论文阅读:Vary论文阅读笔记文章时,正好看到了Vary-toy刚刚发布。 这次,咱也是站在了时代的前沿,这不赶紧先睹为快。让我看看相比于Vary,Vary-toy做了哪些改进? 从整体结构来看,仍

    2024年01月25日
    浏览(60)
  • [论文阅读笔记18] DiffusionDet论文笔记与代码解读

    扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记. 论文地址: 论文 代码: 代码 首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的

    2023年04月08日
    浏览(67)
  • 论文阅读:Segment Anything之阅读笔记

    引言 论文:Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳,这不抽空拿来学习了一下。 该算法的代码写得很清楚、简洁和规范,读来让人赏心悦目。推荐去看源码,很有意思。 本篇文章,将以问答形式来解读阅读过程中遇到的困

    2024年02月13日
    浏览(37)
  • Retinexformer 论文阅读笔记

    清华大学、维尔兹堡大学和苏黎世联邦理工学院在ICCV2023的一篇transformer做暗图增强的工作,开源。 文章认为,Retinex的 I = R ⊙ L I=Rodot L I = R ⊙ L 假设干净的R和L,但实际上由于噪声,并不干净,所以分别为L和R添加干扰项,把公式改成如下: 本文采用先预测 L ‾ overline L

    2024年01月21日
    浏览(46)
  • 论文阅读笔记整理(持续更新)

    FAST 2021 Paper 泛读笔记 针对LSM树同时优化读写性能的问题,现有方法通过压缩提升读性能,但会导致读放大或写放大。作者利用新存储硬件的性能,随机读和顺序读性能相近,因此提出构建逻辑排序视图优化范围查询,因为减少了真正的压缩操作,同时减少了写放大。 ATC 2

    2024年01月23日
    浏览(47)
  • PointMixer论文阅读笔记

    MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set

    2024年02月19日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包