小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?

这篇具有很好参考价值的文章主要介绍了小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶 小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶
你能找出哪个物体是假的么?

项目demo效果非常惊艳,仔细看了之后又发现工作量很大,Pipeline很复杂,即使Supplementary Material中补充了很多信息,但具体细节估计需要详细看代码才能清楚了。看文章的排版和挂到arxiv的时间,应该是投CVPR2024了,可以期待一下完整代码。

摘要:实际视频模拟在从虚拟现实到电影制作的多样化应用中显示出巨大的潜力,特别是在现实世界环境中拍摄视频不切实际或成本过高的情况下。现有的视频模拟方法常常无法准确地模拟光照环境、表现物体几何形状或达到高水平的照片级真实感。在这篇论文中,提出了一个名为“任何物体在任何场景”(Anything in Any Scene)的新型通用视频模拟框架,它能够无缝地将任何物体插入到现有的动态视频中,强调物理真实性。文章提出的通用框架包括三个关键过程:1) 将逼真的物体整合到给定场景视频中,并进行适当放置以确保几何真实性;2) 评估天空和环境光分布,并模拟逼真的阴影以增强光照真实性;3) 使用风格转换网络优化最终视频输出,以最大化照片级真实感。我们通过实验证明,“任何物体在任何场景”框架能够生成具有极高几何真实性、光照真实性和照片级真实感的模拟视频。通过显著减轻与视频数据生成相关的挑战,该方法为获取高质量视频提供了一个高效且成本效益的解决方案。此外,它的应用远不止于视频数据增强,还在虚拟现实、视频编辑以及其他许多以视频为中心的应用中显示出了有希望的潜力。

CODE(未完全开源):https://anythinginanyscene.github.io/

Pipeline:

小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

1. Assets Bank

根据video的场景和内容检索匹配的object,并获取带mesh的模型。

2. object placement & stabilization

a. Placement

这一步的目标是确定object放置的坐标,使其处于合理位置并且不遮挡当前帧内已经存在的object。
首先,对场景进行3D重建,这样做一方面是3D场景中进行选取坐标可以更不容易被视角限制,另一方面为了后续在不同帧内对同一object不同视角更好的保持一致性。将世界坐标系 O w = [ 0 , 0 , 0 , 1 ] O_w=[0,0,0,1] Ow=[0,0,0,1]的点转换到像素坐标系的一点 o ~ n \widetilde{o}_n o n, 并且只选取mask内的区域(使用训好分割模型,分割出不会遮挡其他物体的合理区域 M ^ 1 \hat{M}_1 M^1)。即下述公式:
o ~ n = K [ R n ∣ t n ] O w \tilde{o}_n = K[R_n | t_n]O_w o~n=K[Rntn]Ow
小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶
b. Stabilization
考虑同一object在不同帧内的坐标(frame间的时域信息),使object在不同帧之间的位置更稳定。

优化像素坐标系到世界坐标系的两个变换矩阵-旋转矩阵 R n R_n Rn和 转换向量 t n t_n tn,使通过变换得到的坐标 p ^ n \hat{p}_n p^n(利用物体的世界坐标得到的估计量) 与利用光流进行tracking(使用下一帧计算光流) 得到 p ^ n \hat{p}_n p^n 之间的error:
( R n , t n ) = arg ⁡ min ⁡ ( R n , t n ) ∑ i = 1 M ( p ^ i − p n ) 2 = arg ⁡ min ⁡ ( R n , t n ) ∑ i = 1 M ( p ^ i − K [ R n ∣ t n ] P w ) 2 (R_n, t_n) = \arg\min_{(R_n, t_n)} \sum_{i=1}^{M} (\hat{p}_i - p_n)^2 = \arg\min_{(R_n, t_n)} \sum_{i=1}^{M} (\hat{p}_i - K[R_n | t_n]P_w)^2 (Rn,tn)=arg(Rn,tn)mini=1M(p^ipn)2=arg(Rn,tn)mini=1M(p^iK[Rntn]Pw)2

3. Lighting Estimation and Shadow Generation

小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

为了得到更真实的光照效果与阴影效果,需要对场景内的光源进行估计,分为太阳光源与环境光源两部分,并基于光源分布对阴影进行渲染。

a. 光源分布估计

第一步,由于input的可视范围较小,可能会忽略掉周围一些光源信息从而影响渲染的结果,所以首先使用Inpainting(使用了image-to-image的diffusion model)得到包含更多的光源信息的全景图片.

第二步,Luminance Distribution Estimation太阳光源分布估计,输入全景LDR(Low Dynamic Dange)图片,输出HDR map L L L。采用GAN训练的U-net,HDR map由sky region luminance distribution与sun region luminance distribution组成,前者采用Resnet做backbone,后者采用VGG16。
小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

第三步,Environmental HDR Image Reconstruction环境光源分布估计,使用视频连续帧作为场景不同视角,得到HDR全景多视角图片,能够为渲染提供全方位的光照信息。
小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

b. 阴影渲染

HDR天空和环境图像被集成在一起,以便在渲染过程中对插入的对象实现逼真的光照效果。此外,我们利用估算出的HDR天空图像为插入的对象渲染阴影,为此使用了3D图形应用程序Vulkan。

4. 真实风格转换

小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

采用coarse-to-fine的模式,用类似inpainting的方式进行实现(只需要对插入的foreground object进行 style transfer, background不用改变)。输入包括三部分:Background、mask、foreground,首先将这三部分输入送入coarse network得到coarse output,再将三部分输入与coarse output一起输入Refine network得到最终结果。

这里有一个疑问,输入object应该是和当前background风格不一致的,再使用object的真实风格作为gt进行训练,那么输入的object风格是如何得到的,文中并没有提到。

实验

实验部分,除了大量的可视化结果展示以外,除了常用的FID指标以外,作者还进行A/B test,从人类的主观判断准确性来评价方法的效果。
Human score定义为:
t i m e s   o f   r e s u l t s   b y   m e t h o d   A   s e l e c t e d t o t a l   t i m e s   o f   r e s u l t s   b y   m e t h o d   A   a n d   B   s e l e c t e d \frac{times\ of\ results\ by\ method\ A\ selected}{total\ times\ of\ results\ by\ method\ A\ and\ B\ selected} total times of results by method A and B selectedtimes of results by method A selected
主要体现method A 对比baseline method B 在人类判断下有多大提升。

小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

同时,也验证了方法作为数据增强对下游感知任务性能的提升。

小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?,音视频,计算机视觉,深度学习,AIGC,自动驾驶

总结

文章的工作非常扎实,效果又很不错,作为自动驾驶大厂的工作确实非常有水平。观察demo可以发现,位置和阴影确实感觉很不错了,但由于没引入帧间style的稳定机制,可以发现object在不同帧的style(颜色纹理)感觉略有变化,感觉对于人类观察者这是最容易发现插入object的特点。

于没引入帧间style的稳定机制,可以发现object在不同帧的style(颜色纹理)感觉略有变化,感觉对于人类观察者这是最容易发现插入object的特点。

视频任务的潜力确实很大,利用视频提供的丰富场景信息进行object插入,作为数据增强来说,相比图片级Copy Paste确实感觉效果好很多,但若考虑消耗的资源不知道会怎样?另一方面,感觉这种真实的3D物体插入方法可能在AR/MR会有很大潜力?文章来源地址https://www.toymoban.com/news/detail-829507.html

到了这里,关于小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Dynamic Routing Between Capsules——黄海波团队的论文,提出了一个胶囊网络的改进

    作者:禅与计算机程序设计艺术 在深度学习领域,神经网络(NN)已经成为一个非常有效、普遍且广泛应用的机器学习技术。而最近,随着大数据、计算能力的提升以及深度学习模型的性能指标的提高,神经网络已逐渐成为解决各种各样的问题的利器。近年来,胶囊网络(CapsNe

    2024年02月08日
    浏览(32)
  • 斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断

    原文链接:https://www.techbeat.net/article-info?id=4583 作者:seven_ 随着以ChatGPT等大型语言模型(large language models,LLMs)的爆火, 学界和工业界目前已经开始重视这些模型的安全性 ,由于ChatGPT强大的 知识存储和推理能力 ,其目前可以针对各种各样的用户输入来产生非常流畅和完整

    2024年02月09日
    浏览(37)
  • 上海交大 AI4S 团队提出「智能化科学设施」构想,建立跨学科 AI 科研助手

    作者:李宝珠 编辑:三羊 上海交大人工智能研究院 AI for Science 团队杨小康教授等人,提出一种智能化科学设施的建设构想,形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能。 近年来,人工智能在科研中的应用持续向纵深发展,

    2024年02月22日
    浏览(35)
  • 《论文阅读07》Segment Anything in 3D with NeRFs

    研究领域:图像分割(3D) 论文:Segment Anything in 3D with NeRFs Submitted on 24 Apr 2023 (v1), last revised 1 Jun 2023 (this version, v3) Computer Vision and Pattern Recognition (cs.CV) nvos数据集 论文链接 使用NeRFs在3D中分割任何内容 摘要 最近,Segment Anything Model(SAM)作为一种强大的视觉基础模型出现,它能

    2024年02月16日
    浏览(32)
  • 【视觉SLAM】An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation

    Cite: H. Qian and P. Ding.An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation[C].2019 Workshop on Research, Education and Development of Unmanned Aerial Systems (RED UAS).Cranfield, UK. 2019:185-191. Keyword: 特征提取,图像运动分析,图像分割,移动机器人,姿势估计,机器人视觉,SLAM (机器人) 为了提高动态

    2024年02月01日
    浏览(26)
  • SQL 单行子查询 、多行子查询、单行函数、聚合函数 IN 、ANY 、SOME 、ALL

    单行子查询 子查询结果是 一个列一行记录 select a,b,c from table where a (select avg(xx) from table ) 还支持这种写法,这种比较少见 select a,b,c from table where (a ,b)=(select xx,xxx from table where col=‘000’ ) 多行子查询 子查询结果是 一个列多行记录 select a,b,c from table where a [ some | any |

    2024年02月14日
    浏览(37)
  • Mental Illness Care in an AI World: Are There any Thera

    作者:禅与计算机程序设计艺术 ​ 在这个信息时代,许多人都把注意力集中在了技术革命上,以及相关的商业模式上。然而,“技术革命”带来的成就并不是每个人都可以享受的。正如马云所说:“社会的变化和环境的变化要求我们必须改变自己的方式、观念和行为”。 ​

    2024年02月06日
    浏览(30)
  • 【论文阅读笔记】Sam3d: Segment anything model in volumetric medical images[

    Bui N T, Hoang D H, Tran M T, et al. Sam3d: Segment anything model in volumetric medical images[J]. arXiv preprint arXiv:2309.03493, 2023.【开源】 本文提出的SAM3D模型是针对三维体积医学图像分割的一种新方法。其核心在于将“分割任何事物”(SAM)模型的预训练编码器与一个轻量级的3D解码器相结合。与

    2024年01月20日
    浏览(36)
  • Plugin xxx was was not found in any of the following sources:

            最近打开AndroidStudio,经常出现如下异常:     尝试调整gradle版本,发现仍然不能解决,最后 通过降低app目录下build.gradle的  \\\"compileSdk\\\"和\\\"targetSdk\\\"版本,以及去掉buildToolsVersion解决。

    2024年02月12日
    浏览(48)
  • Inpaint Anything: 自动化抹除视频元素

    自动化抹除视频元素 不用逐帧抠图,直接SAM + Tracking + Video Inpainting就能实现自动化抹除奔跑吧idol。 https://github.com/geekyutao/Inpaint-Anything https://huggingface.co/spaces/InpaintAI/Inpaint-Anything 原理就是,只要在视频的第一帧点击下要抹除的目标,tracking模型随即开始跟踪目标并输出对应的

    2024年02月15日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包