【计算机视觉】ICCV2023放榜!一起看看CV最新热门研究方向!

这篇具有很好参考价值的文章主要介绍了【计算机视觉】ICCV2023放榜!一起看看CV最新热门研究方向!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、导读

最近吃过晚饭看到新闻的时候,属实有点惊讶:

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习
ICCV 2023 近日也开奖了!看了一下,总共收录了2160篇论文,创了历史新高。作为计算机视觉三大顶级会议之一,ICCV 收录的论文自然也都具有非常高的研究价值,建议有需求的同学多关注多关注,说不定下一篇中稿的论文ideal就在这里。

整理了一部分论文,分享如下:

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

二、图像分割

2.1 Segment Anything

大名鼎鼎的分割一切,不再过多介绍!

2.2 A Simple Framework for Open-Vocabulary Segmentation and Detection

一个用于开放词汇分割和检测的简单框架

作者提出了OpenSeeD,一个简单的开放词汇分割和检测联合框架,可以同时从不同的分割和检测数据集中学习。

为桥接词汇和注释粒度的鸿沟,作者首先引入了一个预训练的文本编码器来编码两个任务中的所有视觉概念,并为它们学习一个共同的语义空间。为进一步协调它们,作者定位了两个差异:分割需要提取前景目标和背景区域的遮挡,而检测仅关注前者;框和遮挡注释具有不同的空间粒度,因此不能直接互换。为解决这些问题,作者提出了解耦解码和条件遮挡解码。最终,作者开发了一个简单的编码器-解码器模型,在两个数据集上联合训练。预训练后,作者的模型在分割和检测上展现出更好的零样本迁移能力。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

三、扩散模型

3.1 SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

SVDiff:隐变量微调的紧凑参数空间

隐变量模型在文本到图像生成中取得了显著成功,使得从文本提示或其他模式生成高质量图像成为可能。但是,现有的自定义这些模型的方法受限于处理多个个性化主体和过拟合风险。此外,它们的大量参数对模型存储效率不高。本文提出了一个新方法来解决现有文本到图像隐变量模型个性化中的这些限制。作者的方法涉及到微调权重矩阵的奇异值,导致一个紧凑高效的参数空间,减少过拟合和语言漂移风险。作者还提出了Cut-Mix-Unmix数据增强技术来提高多主体图像生成质量,以及一个简单的基于文本的图像编辑框架。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习
Pix2Video: Video Editing using Image Diffusion

Zero-1-to-3: Zero-shot One Image to 3D Object

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

四、多模态(达摩院mPLUG)

4.1 HiTeA:HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

HiTeA:分层时序感知视频语言预训练

本文提出了一个分层时序感知视频语言预训练框架HiTeA,带有两个用于建模时刻与文本跨模态对齐以及视频文本对时间关系的新颖预训练任务。具体而言,作者提出了一个跨模态时刻探索任务来探索视频中的时刻,得到详细的视频时刻表示。此外,通过不同时间分辨率下的整体视频文本对齐,内在的时序关系被多模态时序关系探索任务捕获。此外,作者引入了洗牌测试来评估数据集和视频语言预训练模型的时序依赖性,在15个视频语言理解和生成任务上达到了最先进的结果。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

  • TW-BERT:Learning Trajectory-Word Alignments for Video-Language Tasks
  • BUS:BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization

五、VIT

5.1 ElasticViT: Confict-aware Supernet Training for Deploying Fast VisionTransformer on Diverse Mobile Devices

ElasticViT:冲突感知超网络训练,在各种移动设备上部署快速视觉转换器

在本工作中,作者提出了ElasticViT,这是一种两阶段的NAS方法,它在一个非常大的搜索空间上训练高质量的ViT超网络,该搜索空间支持广泛的移动设备,然后为直接部署搜索优化子网络。但是,依赖统一采样的先前超网络训练方法遭受梯度冲突问题:采样的子网络可以有非常不同的模型大小(例如50M与2G FLOPs),导致不同的优化方向和较差的性能。

为解决这个挑战,作者提出了两种新的采样技术:复杂性感知采样和性能感知采样。复杂性感知采样限制相邻训练步骤中采样的子网络之间的FLOPs差异,同时覆盖搜索空间中的不同大小的子网络。性能感知采样进一步选择具有良好准确率的子网络,这可以减少梯度冲突并提高超网络质量。作者发现的模型ElasticViT模型在ImageNet上的top-1准确率从60M到800M FLOPs在67.2%到80.0%之间,没有额外的重新训练,超过了所有先前的CNN和ViT的准确率和延迟。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

六、GAN

6.1 3DHumanGAN: Towards Photo-Realistic 3D-Aware Human Image Generation

3DHumanGAN:面向照片级逼真的3D感知人体图像生成

作者提出了3DHumanGAN,这是一个3D感知的生成对抗网络(GAN),可以在不同的视角和姿态下合成具有一致外观的全身人体图像。为了解决合成人体关节结构的表示和计算挑战,作者提出了一种新的生成器架构,其中一个2D卷积主干被一个3D姿态映射网络调制。3D姿态映射网络被表述为一个可渲染的隐函数,条件化一个具姿态的3D人体网格。这种设计具有几个优点:i)它允许我们利用2D GAN的能力生成照片级真实的图像;ii)它可以在不同的视角下生成一致的图像,并指定姿态:iii)该模型可以从3D人体先验中获益。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

七、3D目标检测

7.1 PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

PETRv2:从多相机图像进行3D感知的统一框架

本文提出了PETRv2,一个从多视图图像进行3D感知的统一框架。基于PETR [24],PETRv2探索了时序建模的有效性,它利用前帧的时序信息来增强3D目标检测。具体而言,作者扩展了PETR中的3D位置嵌入(3D PE)进行时序建模。3D PE实现了不同帧上的目标位置的时序对齐。一个特征引导的位置编码器进一步被引入来提高3D PE的数据适应性。为支持多任务学习(例如BEV分割和3D车道检测),PETRv2通过引入任务特定的查询提供了一个简单有效的解决方案,这些查询在不同的空间下初始化。PETRv2在3D目标检测、BEV分割和3D车道检测上都取得了最先进的性能。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

7.2 DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection

DQS3D:密匹配的量化感知半监督3D检测

本文研究了半监督3D目标检测问题,考虑到杂乱的室内3D场景的高标注成本,这是一个非常重要的问题。虽然这一范式对图像级或像素级预测很自然,但将其应用到检测问题面临提案匹配的问题。之前的方法基于两阶段管道,匹配在第一阶段中生成的经验选择的提案,导致训练信号空间稀疏。相比之下,作者提出了第一个以单阶段方式工作的半监督3D检测算法,允许空间密集的训练信号。这个新设计的一个基本问题是点到体素量化引起的量化误差,这不可避免地导致体素域中两个变换视图之间的失配。为此,作者推导和实现了在线补偿这种失配的封闭形式规则。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

八、视频理解

8.1 Unmasked Teacher: Towards Training-Efficient Video Foundation Models

Unmasked Teacher:面向训练高效的视频基础模型

本文提出了一个时间敏感 VFMs 的训练高效方法,整合了现有方法的优点。为增加数据效率,作者屏蔽了大多数低语义视频标记,但选择性地将未屏蔽标记与 IFM 对齐,IFM 充当未屏蔽教师(UMT)。通过提供语义指导,作者的方法实现更快收敛和多模态友好。随着渐进式预训练框架,该模型可以处理各种任务,包括场景相关、时间相关和复杂视频语言理解。仅用公开源在6天内在32个A100 GPU上预训练,作者从零构建的ViT-L/16取得了视频理解领域的最先进性能。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

九、低光照图像增强

9.1 Implicit Neural Representation for Cooperative Low-light Image Enhancement

用于合作低光图像增强的隐式神经表示

作者提出了一种用于合作低光图像增强的隐式神经表征方法:NeRCo。它以非监督的方式稳健地恢复感知友好的结果。具体而言,NeRCo使用可控配函数统一真实场景的各种退化因素,从而实现更好的鲁棒性。此外,对于输出结果,作者引入了来自预训练的视觉语言模型的先验的语义导向的监督。它不仅仅遵循参考图像,还鼓励结果满足主观预期,找到更多视觉友好的解决方案。此外,为了减少对成对数据的依赖和减少解空间,作者开发了一个双闭环约束增强模块。它以自监督的方式与其他附属模块合作训练。大量实验证明了NeRCo的鲁棒性和卓越有效性。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

9.2 UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer

UniFormerV2:通过在图像ViTs上配备视频UniFormer进行时空学习

论文提出了一种通用范式来构建强大的视频网络家族,通过在预训练的ViTs上加装高效的UniFormer设计。作者将这个家族称为UniFormerV2,因为它继承了UniFormer块的简洁风格。但它包含全新的局部和全局关系聚合器,通过无缝集成ViTs和UniFormer的优势,允许更好的准确度计算平衡。在没有任何修饰的情况下,作者的UniFormerV2在8个流行的视频基准测试中获得了最先进的识别性能,包括与场景相关的Kinetics-400/600/700和Moments in Time,与时间相关的Something Something V1/V2,未修剪的ActivityNet和HACS。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习

十、视频语义定位

10.1 Scanning Only Once: An End-to-end Framework for FastTemporal Grounding in Long Videos

仅扫描一次: 长视频中快速时序定位的端到端框架

本论文针对长视频时序定位任务提出了一个端到端的快速框架。

主要做法:

  1. 首先对非重叠的视频片段进行粗粒度建模,提取上下文信息。
  2. 然后只对与查询高度相关的少数anchor片段进行细粒度建模,获取详细的内容信息。
  3. 通过整体对完整视频建模,可以捕获长距离的时序关联信息,从而进行更准确的时序定位。
  4. 在长视频时序定位数据集上,该方法明显优于当前state-of-the-art。

计算机视觉最新方向,计算机视觉,计算机视觉,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-722385.html

到了这里,关于【计算机视觉】ICCV2023放榜!一起看看CV最新热门研究方向!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉领域经典模型汇总(2023.09.08

    一、RCNN系列 1、RCNN RCNN是用于目标检测的经典方法,其核心思想是将目标检测任务分解为两个主要步骤:候选区域生成和目标分类。 候选区域生成:RCNN的第一步是生成可能包含目标的候选区域,RCNN使用传统的计算机视觉技术,特别是 选择性搜索(Selective Search)算法 ,这是一

    2024年02月09日
    浏览(40)
  • CVPR 2023 | 计算机视觉顶会亮点前瞻

    在知识和技术都迅速更新迭代的计算机领域中,国际计算机视觉与模式识别会议(CVPR)是计算机视觉方向的“顶级流量”,引领着学科及相关领域的研究潮流。今天我们为大家带来5篇微软亚洲研究院被 CVPR 2023 收录的论文,主题涵盖手语识别与检索、多模态生成、图像编辑、

    2024年02月16日
    浏览(32)
  • 〖2023·新星计划·第四季〗开启,计算机视觉方向火爆预热中~

    ⭐️ \\\"新星计划\\\"第四季来了!“新星计划”是 CSDN官方发起的一个旨在 发掘潜力新人、培养优质博主 为目标的创作活动,活动为期4周 ,本次很荣幸担任计算机视觉方向导师,希望大家多多参与交流,定期更新博客,报名更有机会获得在线答疑、经验分享与神秘奖品哦,参与

    2023年04月15日
    浏览(32)
  • [当前就业]2023年8月25日-计算机视觉就业现状分析

    前言:超越YOLO:计算机视觉市场蓬勃发展 如今,YOLO(You Only Look Once)新版本的发布周期很快,每次迭代的性能都优于其前身。每 3 到 4 个月就会推出一个升级版 YOLO 变体,在目标检测任务的准确性、速度和鲁棒性方面展示出改进的性能。 然而,需要我们注意的关键问题是:

    2024年02月11日
    浏览(41)
  • 2023年MathorCup大数据竞赛:基于计算机视觉的坑洼道路检测和识别

    国外相关论文,持续更新 由认证检查员执行的手动目视检查仍然是主要的 道路坑洼检测的形式。然而,这个过程不仅乏味, 耗时且昂贵,但对检查员来说也很危险。此外 道路坑洼检测结果总是主观的,因为它们取决于 完全基于个人经验。我们最近引入的差异(或 反深度)变

    2024年02月06日
    浏览(49)
  • 计算机视觉重磅会议VAlSE2023召开,合合信息分享智能文档处理技术前沿进展

    近期, 2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技

    2024年02月09日
    浏览(55)
  • 【EI/SCOPUS检索】第三届计算机视觉、应用与算法国际学术会议(CVAA 2023)

    第三届计算机视觉、应用与算法国际学术会议(CVAA 2023) The 3rd International Conference on Computer Vision, Application and Algorithm   2023年第三届计算机视觉、应用与算法国际学术会议(CVAA 2023) 主要围绕计算机视觉、计算机应用、计算机算法等研究领域展开讨论。会议旨在为从事相关科

    2024年02月13日
    浏览(35)
  • 【AI视野·今日CV 计算机视觉论文速览 第258期】Mon, 2 Oct 2023

    AI视野 ·今日CS.CV 计算机视觉论文速览 Mon, 2 Oct 2023 (showing first 100 of 112 entries) Totally 100 papers 👉 上期速览 ✈更多精彩请移步主页 Interesting: 📚 *****The Dawn of LMMs, GPT4-V视觉大语言模型综述。(from Microsoft Corporation) 📚 生物外科组织数据集, Surgical Tattoos in Infrared (from ) website:htt

    2024年02月06日
    浏览(61)
  • 【AI视野·今日CV 计算机视觉论文速览 第271期】Thu, 19 Oct 2023

    AI视野 ·今日CS.CV 计算机视觉论文速览 Thu, 19 Oct 2023 Totally 63 papers 👉 上期速览 ✈更多精彩请移步主页 Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection Authors Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Yi Ling Chen, Zuxuan Wu, Lu Yuan, Yu Gang Jiang 长尾

    2024年02月08日
    浏览(35)
  • 【AI视野·今日CV 计算机视觉论文速览 第262期】Fri, 6 Oct 2023

    AI视野 ·今日CS.CV 计算机视觉论文速览 Fri, 6 Oct 2023 Totally 73 papers 👉 上期速览 ✈更多精彩请移步主页 Improved Baselines with Visual Instruction Tuning Authors Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee 大型多模态模型 LMM 最近在视觉指令调整方面取得了令人鼓舞的进展。在这篇文章中,我们展

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包