CVPR 2023 | 美团技术团队精选论文解读

这篇具有很好参考价值的文章主要介绍了CVPR 2023 | 美团技术团队精选论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文精选了美团技术团队被CVPR 2023收录的8篇论文进行解读。这些论文既有自监督学习、领域自适应、联邦学习等通用学习范式方面的技术迭代,也涉及目标检测、跟踪、分割、Low-level Vision等典型视觉任务的性能,体现了美团在基础通用技术和垂直领域技术上的全方位创新。这些论文也是美团技术团队与国内多所高校、科研机构合作的成果。希望给从事相关研究工作的同学带来一些启发或者帮助。

CVPR 2023 | 美团技术团队精选论文解读

CVPR 全称为 IEEE Conference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别会议。该会议始于1983年,与ICCV和ECCV并称计算机视觉方向的三大顶级会议。根据谷歌学术公布的2022年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature、NEJM和Science。2023年,CVPR共收到全球9155篇论文投稿,最终2360篇被接收,接收率约为25.78%。​​​​​​​

| 01 Divide and Adapt: Active Domain Adaptation via Customized Learning

论文作者:黄铎峻(中山大学,美团实习生),李继昌(香港大学),陈伟凯(腾讯-美国),黄君实(美团),柴振华(美团),李冠彬(中山大学)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:该论文入选焦点论文(Highlight Paper)。近年来,主动领域自适应被提出用于在领域自适应问题中,设计主动学习算法在未标注的目标域数据中选择最有信息量的一小批样本进行标注,来最大化的提升深度学习模型在目标域数据上的性能,达到高效的标注效率。在实际的开放场景中,目标域样本相对于源域数据的可区分度各异,即对于源域上初始化的而言具有不同层次的可迁移性。目前,鲜有工作对可迁移性各异的目标域样本分类讨论,设计高价值样本的采样策略和定制化的领域自适应训练策略。

我们提出了一种分而治之的策略,综合考虑目标域样本与源域数据的差异性,和模型预测的不确定性,来设计主动学习的采样策略,并提出定制化的目标函数来约束具有不同可迁移性的样本子集,进一步实现采样的鲁棒性。实验表明,我们实现了在多种领域自适应场景下的最优性能,包括无监督领域自适应(UDA)、半监督领域自适应(SSDA)和无源域领域自适应(SFDA)等等。

| 02 Efficient Second-Order Plane  Adjustment

论文作者:周力普(美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:该论文入选焦点论文(Hightlight Paper),推导出了平面优化问题Hessian矩阵的闭式解,由此提出了高效的平面优化问题的二阶优化算法。该算法可以广泛应用于深度传感器的三维高精度重建。

平面通常用于深度传感器的3D重建,例如RGB-D相机和LiDAR。本文研究估计最佳平面和传感器位姿的问题。这由此产生的最小二乘问题在文献中被称为平面调整(PA)。迭代方法常被用来解决这些最小二乘问题。通常,牛顿法很少用于大规模最小二乘问题,因为Hessian矩阵的计算时间复杂度很高。相反,迭代算法通常采用使用Hessian矩阵的近似值,例如Levenberg Marquardt(LM)方法。本文采用牛顿法有效地解决了PA问题。

具体来说,给定姿势,最佳平面有一个闭式解。因此,我们可以从中消除平面参数,它显著减少了变量的数量。此外,由于最佳平面是姿势的函数,这种方法实际上确保了每次迭代都能产生最佳平面,这有利于收敛。其难点在于如何高效计算Hessian矩阵以及由此产生的梯度向量。本文提供一个高效的解决方案。实证结果表明,我们的算法优于目前的SOTA算法。

| 03 AeDet: Azimuth-invariant Multi-view 3D Object Detection

论文作者:冯承健(美团),揭泽群(美团),钟毓杰(美团),初祥祥(美团),马林 (美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:近年来,基于鸟瞰图的多视图3D目标检测技术在Brid-Eye-View(BEV)空间通过卷积网络检测物体,取得了巨大的进展。然而,传统的卷积忽略了BEV特征的径向对称性,增加了检测器优化的难度。为了保持BEV特征的固有性质并便于模型优化,我们提出了方位角等变卷积(AeConv)和方位角等变锚。方位角等变卷积的采样网格始终是径向的,因此可以学习到方位不变的BEV特征。而方位角等变锚使得检测头能够学习预测与方位无关的目标。

此外,我们还引入了一种相机解耦的虚拟深度,以统一具有不同相机内参的图像的深度预测。由此产生的目标检测器被称为方位等变检测器(AeDet)。我们在nuScenes数据集上进行了多视图3D目标检测实验:方位等变检测器取得62.0% NDS,显著超越了现有的多视图3D目标检测方法。

| 04 Masked Auto-Encoders Meet Generative Adversarial Networks and Beyond

论文作者:费政聪(美团),范铭源(美团),朱理(美团),黄君实(美团),魏晓明(美团),魏晓林(美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:掩码自动编码器(Mask autoencoder,MAE)预训练方法通过随机掩码图像块(patch),然后训练视觉模型基于未掩码的图像块来重建原始图像的像素。尽管它们在下游视觉任务中表现出很好的性能,但它们通常需要大量的计算才能生效。在本文中,我们介绍了一种基于生成对抗网络(Generative Adversarial Networks,GAN)的预训练框架。

具体来说,将生成器预测的图像和原始掩盖的图像进行拼接,并使用判别器来预测每一个拼接的图像块是否被替换。实验表明,由于对完整图像进行输入建模和反馈,我们提出的MAE-GAN框架比原始的MAE像素重建效果更好。同时,通过共享主网络参数,在相同的模型大小、数据和计算量下,我们的方法学习的视觉表征能力显著优于MAE方法。特别地,我们在ImageNet-1k上预训练了200 epoch的ViT-B模型在下游图像分类结果上优于训练了1600 epoch的ViT-B MAE基准。

| 05 Elastic Aggregation for Federated Optimization

论文作者:陈登盛(美团),胡杰(美团),Vince Junkai Tan,魏晓明(美团),吴恩华(中科院软件所)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:在人工智能安全性上,联邦学习旨在保证数据隐私不遭到泄漏的前提下完成模型的协同训练。由于在不同终端设备的数据分布存在较大差异,导致全局共享模型在使用本地数据进行优化以后会偏向本地的数据分布状态。我们称这种现象为「客户端漂移(Client Drift)」。客户端漂移现象的存在,会导致全局共享模型在优化前期收敛缓慢,在优化后期无法达到更优解。

我们提出了弹性聚合( Elastic Aggregation),一种新的参数更新方法用于缓解上述现象。弹性聚合首先利用每个终端设备上的无标签数据计算出对应模型参数对结果产生影响的敏感程度(Parameter Sensitivity),然后这个参数敏感程度来对全局共享模型进行加权聚合更新。弹性聚合是首个在联邦学习中充分利用无标签数据来提升模型性能的方法,并且能够非常容易地嵌入到现有的其它联邦学习优化算法中。实验表明,在联邦学习场景下弹性聚合方法可以显著提升视觉和文本理解任务的性能。

| 06 Bridging Search Region Interaction with Template for RGB-T Tracking

论文作者:惠天瑞(中国科学院信息工程研究所,美团实习生),荀子政(北京航空航天大学),彭风光(北京航空航天大学),黄君实(美团),魏晓明(美团),魏晓林(美团),戴娇(中科院信工所),韩冀中(中科院信工所),刘偲(北京航空航天大学)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:RGB-T跟踪旨在利用可见光(RGB)和热红外(TIR)模态的互补增强能力来改进不同场景下的单目标跟踪效果,其中有效的跨模态交互是方法设计的关键一环。先前的工作直接拼接RGB和TIR的搜索区域特征,或对孤立的RGB和TIR候选框对进行模态融合,导致冗余背景噪声的引入或局部区域内的上下文建模不足。

为了缓解上述局限性,我们提出了模板桥接搜索区域交互(TBSI)模块,该模块利用模板作为媒介,通过收集和分发目标相关的对象和环境上下文来桥接RGB和TIR搜索区域之间的跨模态交互。原始模板也会使用来自模板中介的丰富多模态上下文进行更新。我们将TBSI模块插入到ViT主干网络中,实现统一的特征提取、搜索区域-模板匹配和跨模态交互,在三个主流RGB-T跟踪数据集上取得了超越现有方法的优异性能。

| 07 Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation

论文作者:高晨(北京航空航天大学,美团实习生),彭兴宇(北京航空航天大学),严汨(北京大学),王鹤(北京大学),杨立荣(美团),任海兵(美团),李鸿升(香港中文大学),刘偲(北京航空航天大学)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:本工作聚焦Vision-Language Navigation(VLN) 任务。在agent导航过程中,需要自适应地设置并实现一系列子目标。然而,先前的方法采用单步规划方案,即在每一步直接执行导航动作。在本工作中,我们提出了一种Adaptive Zone-aware Hierarchical Planner(AZHP),明确地将导航过程分为两个异构的阶段,即通过分区/选区(High-Level Action)和子目标执行(Low-Level Action)以进行分层规划。

具体而言,AZHP通过状态切换模块(SSM)异步地执行两级操作。对于High-Level Action,我们提出了一种Scene-Aware Adaptive Zone Partition(SZP)方法,以自适应地将整个导航区域划分为不同的子区域。通过目标区域选择(GZS)方法,为当前子目标选择合适的区域。对于Low-Level Action,Agent在所选区域执行多步骤导航决策。此外,我们提出HRL策略和辅助监督,以训练AZHP框架。实验证明了我们提出方法的优越性,在多个VLN数据集(REVERIE、SOON、R2R)上均达到了最优的性能。

| 08 PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout 

论文作者:徐筱媛(北京大学,美团实习生),何相腾(北京大学),彭宇新(北京大学),孔浩(美团),张庆(美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:图文展示的布局生成旨在给定的图像画布上自动安排元素(例如:广告文本、图标、衬底)的空间位置,用于广告设计中能够取代呆板的预定义模板。现有的布局生成工作忽略了图像画布与布局的交叉关系,导致两者难兼容。

为此,该论文首先从源域多样性、主题多样性以及布局复杂度三个方面切入,建立图文展示布局数据集和评测基准PosterLayout,并提出设计序列生成网络(Design Sequence GAN),通过引入人类经验的设计序列形成(Design Sequence Formation)算法,将布局自动重组为隐含时间信息的设计序列,并以画布图像的视觉特征作为初始状态,模拟人的设计行为,自动生成与画布内容兼容的布局。实验结果验证了新基准和新方法的有效性,达到超越现有方法的性能。该算法在论文接收前已应用上线,目前已在美团App的外投首页广告制图等场景落地。

----------  END  ----------文章来源地址https://www.toymoban.com/news/detail-493683.html

 美团科研合作 

美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,依托美团丰富的业务场景、数据资源和真实的产业问题,开放创新,汇聚向上的力量,围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等领域,共同探索前沿科技和产业焦点宏观问题,促进产学研合作交流和成果转化,推动优秀人才培养。面向未来,我们期待能与更多高校和科研院所的老师和同学们进行合作。欢迎老师和同学们发送邮件至:meituan.oi@meituan.com。

 推荐阅读 

  | KDD 2022 | 美团技术团队精选论文解读

  | ACM SIGIR 2022 | 美团技术团队精选论文解读

  | CVPR 2022 | 美团技术团队精选论文解读

----------  END  ----------

到了这里,关于CVPR 2023 | 美团技术团队精选论文解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ELasticSearch-实践-性能优化-外卖搜索-美团技术团队

    最近十年,Elasticsearch 已经成为了最受欢迎的开源检索引擎,其作为离线数仓、近线检索、B端检索的经典基建,已沉淀了大量的实践案例及优化总结。然而在高并发、高可用、大数据量的 C 端场景,目前可参考的资料并不多。因此,我们希望通过分享在外卖搜索场景下的优化

    2024年01月23日
    浏览(42)
  • TPS Motion(CVPR2022)视频生成论文解读

    论文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 问题: 尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。 方法: 本文提出无监督TPS Motio

    2023年04月11日
    浏览(71)
  • CVPR 2023 | 主干网络FasterNet 核心解读 代码分析

    本文分享来自CVPR 2023的论文,提出了一种 快速的主干网络,名为FasterNet 。 论文提出了 一种新的卷积算子,partial convolution,部分卷积(PConv) ,通过 减少冗余计算 和 内存访问 来更有效地提取空间特征。 创新在于部分卷积(PConv), 它选择一部分通道的特性进行常规卷积 , 剩余

    2024年02月06日
    浏览(39)
  • 【论文合集】CVPR2023年 部分论文

    参考: CVPR 2023 最全整理:论文分方向汇总 / 代码 / 解读 / 直播 / 项目(更新中)【计算机视觉】-极市开发者社区 (cvmart.net) amusi/CVPR2023-Papers-with-Code: CVPR 2023 论文和开源项目合集 (github.com)   [7]Fine-Grained Face Swapping via Regional GAN Inversion paper [6]Cross-GAN Auditing: Unsupervised Identifica

    2024年02月12日
    浏览(56)
  • CVPR2023(论文笔记)

    基于抽象的鲁棒图像分类模型高效训练与验证方法: 针对问题: 深度神经网络在面对对抗性攻击时的鲁棒性问题 提出了一种基于抽象的、经过认证的训练方法,用于提高深度神经网络对抗性攻击的鲁棒性;提出黑盒验证方法,该方法与神经网络的大小和架构无关,可扩展到

    2024年02月09日
    浏览(60)
  • CVPR2023对抗攻击相关论文

    Feature Separation and Recalibration for Adversarial Robustness 论文链接:http://arxiv.org/abs/2303.13846v1 代码地址:GitHub - wkim97/FSR: Feature Separation and Recalibration (CVPR 2023) 摘要:由于特征层面的扰动积累,深度神经网络容易受到对抗性攻击,许多研究通过停用导致模型错误预测的非鲁棒特征激活

    2024年02月09日
    浏览(46)
  • 【CVPR 2023】FasterNet论文详解

    论文名称:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks 论文地址:https://arxiv.org/abs/2303.03667 作者发现由于效率低下的每秒浮点运算,每秒浮点运算的减少并不一定会导致类似水平的延迟减少。提出通过同时减少冗余计算和内存访问有效地提取空间特征。然后基于PConv进

    2023年04月14日
    浏览(48)
  • CVPR 2023 | 达摩院REALY头部重建榜单冠军模型HRN解读

              高保真 3D 头部重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。 本文中,我们将介绍来

    2024年02月05日
    浏览(58)
  • CVPR 2023 论文和开源项目合集

    向AI转型的程序员都关注了这个号👇👇👇 Backbone CLIP MAE GAN GNN MLP NAS OCR NeRF DETR Diffusion Models(扩散模型) Avatars ReID(重识别) 长尾分布(Long-Tail) Vision Transformer 视觉和语言(Vision-Language) 自监督学习(Self-supervised Learning) 数据增强(Data Augmentation) 目标检测(Object Detection) 目标跟踪(Visual

    2024年02月07日
    浏览(35)
  • CVPR 2023 医学图像分割论文大盘点

    点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入— 【医学图像分割】微信交流群 被催了很久,CVer 正式开启 CVPR 2023 论文大盘点系列 ! Amusi 一共搜集了13篇医学图像分割论文 ,这应该是目前各平台上 最新最全面的CVPR 2023 医学图像分割盘点资料

    2024年02月14日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包