题目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、
团队:PSL Research University/Tokyo Institute of Technology
解决的问题:我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置
创新点:这篇文章主要有3个创新点: 1. 为场景识别任务构造出了一个可以直接端到端训练的CNN模型结构,NetVLAD就是该模型的一个layer;2. 构造一个弱监督排序损失(weakly supervised ranking loss)来指导模型的参数更新;3. 效果很好。在两个具有挑战性的数据集上超过了非学习性的和现成的CNN描述子,等等。总的来说,就是把传统的VLAD算法融合到了CNN模型结构里,然后针对特定的谷歌街景数据集(Google Street View Time Machine)用了弱监督排序损失来训练。
新概念:1.架构参数端到端的学习:从原始数据到输出不经过人工的干预;
2.反向传播主要是传播误差方便对参数进行更新;
3.weakly supervised ranking loss弱监督排序损失;
4.弱监督:分为三种类型:不完全监督、不确切监督、不准确监督;
5.对图像比较相似:将图像训练成一个向量,与数据集比对,向量之间的相似性由欧氏距离表示;
6. aggregation:聚合
7.conv5(第五层网络)描述符号以及L2归一层
作者主页:https://www.relja.info/
效果:达到了较好的mAP,图像检索:image retrieval,本文的训练网络:VGG-16 NetVLAD + whitening文章来源:https://www.toymoban.com/news/detail-500242.html
对比的网络:RootSIFT + VLAD + whitening 召回率:ImageNet。 Places205。召回率recall@1 recall@10 Recall@K召回率是指前排在前K的结果中检索出的相关结果数和库中所有的相关结果数的比率。数据集Pitts250k 和Tokyo 24/7。 Alex-Net 与 VGG-16文章来源地址https://www.toymoban.com/news/detail-500242.html
到了这里,关于论文阅读笔记2:NetVLAD的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!