AtomoVideo:阿里推出高保真图像到视频生成开源模型,具有更好的运动强度和一致性

这篇具有很好参考价值的文章主要介绍了AtomoVideo:阿里推出高保真图像到视频生成开源模型,具有更好的运动强度和一致性。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

AtomoVideo是一种新型的高保真图像到视频(I2V)生成框架,可以从输入图像生成高保真视频,实现比现有工作更好的运动强度和一致性,并且兼容各种个性化的T2I模型,无需特定调整。

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

相关链接

项目:atomo-video.github.io

论文:arxiv.org/abs/2403.01800

论文阅读

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

高保真图像到视频生成

摘要

近年来,基于先进的文本到图像生成技术,视频生成取得了长足的发展。在这项工作中,我们提出了一个用于图像到视频生成的高保真框架,名为AtomoVideo。基于多粒度图像注入,实现了生成的视频对给定图像的高保真度。此外,由于高质量的数据集和训练策略,我们实现了更大的运动强度,同时保持了优越的时间一致性和稳定性。我们的架构可以灵活地扩展到视频帧预测任务,通过迭代生成实现长序列预测。此外,由于适配器训练的设计,我们的方法可以很好地与现有的个性化模型和可控模块相结合。通过定量和定性评价,AtomoVideo与常用方法相比取得了更好的效果。

方法

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

图像到视频方法的框架:我们使用预训练好的T2I模型,在每个空间卷积和注意层之后新增1D时间卷积和时间注意模块,固定T2I模型参数,只训练新增的时间层。同时,为了注入图像信息,我们将输入通道修改为9通道,增加图像条件隐码和二值掩码。由于输入的拼接图像信息仅由VAE编码,因此它代表低级信息,这有助于增强视频相对于给定图像的保真度。同时,我们还以交叉注意的形式注入高级图像语义,以实现更多的语义图像可控性。

实验

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成


        感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~文章来源地址https://www.toymoban.com/news/detail-842373.html

到了这里,关于AtomoVideo:阿里推出高保真图像到视频生成开源模型,具有更好的运动强度和一致性的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【三维生成】Make-it-3D:diffusion+NeRF从单张图像生成高保真三维物体(上交&微软)

    题目 : Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior Paper : https://arxiv.org/pdf/2303.14184.pdf Code : https://make-it-3d.github.io/ 在本文中,研究者的目标是: 从一个真实或人工生成的单张图像中创建高保真度的3D内容 。这将为艺术表达和创意开辟新的途径,例如为像Stable

    2024年02月13日
    浏览(46)
  • 高保真度与流畅度MagicVideo-V2视频生成模型;3D人形虚拟角色;微调量化的扩散模型;自动给视频配音;非自回归音频生成

    本文首发于公众号:机器感知 高保真度与流畅度MagicVideo-V2视频生成模型;3D人形虚拟角色;微调量化的扩散模型;自动给视频配音;非自回归音频生成 MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation 本文提出了MagicVideo-V2视频生成模型,该模型将文生图模型、视频运动生成器、

    2024年01月22日
    浏览(59)
  • 【论文阅读】Neuralangelo:高保真神经表面重建

    paper project 神经表面重建已被证明对于通过基于图像的神经渲染恢复密集的 3D 表面非常有效。然而,当前的方法难以恢复真实场景的详细结构。为了解决这个问题,我们提出了 Neuralangelo,它将多分辨率 3D 哈希网格的表示能力与神经表面渲染相结合。两个关键因素使我们的方

    2024年02月11日
    浏览(49)
  • 【Axure高保真原型】日期时间选择器

    今天和大家分享日期时间下拉列表选择器的原型模板,该模板用中继器结合时间函数制作,所以可以获取真实的日历效果,具体包括哪一年二月份有29天,几号对应星期几,都是真实的。这个原型用Axure原生元件组成,所以样式以及后续的交互都可以根据需要修改 【原型预览

    2024年02月12日
    浏览(61)
  • 【Axure高保真原型】日历日期原型模板

    今天和大家分享日历日期的原型模板,包括月计划、周计划、日计划的原型案例,以及日期、时间、月份、区间选择器……具体效果可以点击下方视频观看 【原型预览及下载地址】 Axure 原型 备用地址:Untitled Document 【原型效果】 【原型效果】 【Axure高保真原型】日期日历原

    2024年02月09日
    浏览(56)
  • 【Axure高保真原型】物理架构图模板

    今天和粉丝们免费分享物理架构图模板的原型模板~~~ 物理架构图是指在计算机系统、网络、软件应用等领域中,用于表示物理组件、设备、连接方式以及它们之间关系的图示。它以图形化的方式展示了系统的实际物理结构,常见的物理架构图元素包括: 1、服务器:表示物理

    2024年02月13日
    浏览(45)
  • 【Axure高保真原型】树控制内联框架

    今天和大家分享树控制内联框架的原型模板,点击树的箭头可以打开或者收起子节点,点击最后一级人物节点,可以切换右侧内联框到对应的页面,左侧的树是通过中继器制作的,使用简单,只需要按要求填写中继器表格即可,案例中最高6级树,具体效果可以观看下方视频或

    2024年02月01日
    浏览(52)
  • 【Axure高保真原型】多图表动态切换

    今天和大家分享多图表动态切换的原型模板,点击不同的图标可以动态切换对应的表,包括柱状图、条形图、饼图、环形图、折线图、曲线图、面积图、阶梯图、雷达图;而且图表数据可以在左侧表格中动态维护,包括增加修改和删除,维护表格信息后对应图表也会动态更新

    2024年02月10日
    浏览(46)
  • 【Axure高保真原型】卡片_拖动摆放换位效果

    今天和大家分享卡片_拖动摆放换位效果的原型模板,可以通过鼠标拖动任意卡片,对应卡片可以跟随鼠标移动,其他卡片会自动让出位置,松开鼠标后全部卡片自动对齐摆放。那这个原型模板是用中继器制作的,所以使用也很简单,只需要维护中继器表格的内容即可,具体效

    2024年01月24日
    浏览(49)
  • 【Axure高保真原型】中继器网格图片拖动摆放

    今天和大家分享中继器网格图片拖动摆放的原型模板,我们可以通过鼠标拖动来移动图片,拖动过程其他图标会根据图片拖动自动排列,松开鼠标是图片停放在指定位置,其他图标自动排列。那这个模板是用中继器制作的,所以使用也很方便,我们只需维护中继器表格的信息

    2024年02月10日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包