【精华】AIGC之文生视频及实践应用

这篇具有很好参考价值的文章主要介绍了【精华】AIGC之文生视频及实践应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

AIGC之文生视频及实践应用

(一)序言

从 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生图模型已经变得非常流行,并被更广泛的受众使用。随着对多模态模型的不断拓展以及生成式 AI 的研究,业内近期的工作试图通过在视频领域重用文本到图像的扩散模型,将其成功扩展到文本到视频的生成和编辑任务中,使得用户能够仅仅给出提示便能得到想要的完整视频。

早期的文生图方法依赖于基于模板的生成和特征匹配等方法。然而,这些方法生成逼真和多样化图像的能力有限。在 GAN 获得成功之后,还提出了其他几种基于深度学习的文生图方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它们通过引入新的架构和增强机制进一步提高了图像质量和多样性。

后来,随着 Transformer 的进步,出现了新的文生图方法。例如,DALL·E-2 是一个 120 亿参数的变换器模型:首先,它生成图像令牌,然后将其与文本令牌组合,用于自回归模型的联合训练。之后,Parti 提出了一种生成具有多个对象的内容丰富的图像的方法。Make-a-Scene 则通过文生图生成的分割掩码实现控制机制。现在的方法建立在扩散模型的基础上,从而将文生图的合成质量提升到一个新的水平。GLIDE 通过添加无分类器引导改进了 DALL·E。后来,DALL·E-2 利用了对比模型 CLIP:通过扩散过程,从 CLIP 文本编码到图像编码的映射,以及获得 CLIP 解码器……

这些模型能够生成具有高质量的图像,因此研究者将目光对准了开发能够生成视频的文生图模型。然而,文生视频现在还是一个相对较新的研究方向。现有方法尝试利用自回归变换器和扩散过程进行生成

例如,NUWA 引入了一个 3D 变换器编码器-解码器框架,支持文本到图像和文本到视频的生成。Phenaki 引入了一个双向掩蔽变换器和因果关注机制,允许从文本提示序列生成任意长度的视频;CogVideo 则通过使用多帧速率分层训练策略来调整 CogView 2 文生图模型,以更好地对齐文本和视频剪辑;VDM 则联合训练图像和视频数据自然地扩展了文生图扩散模型。

前面展示的 Imagen Video 构建了一系列视频扩散模型,并利用空间和时间超分辨率模型生成高分辨率时间一致性视频。Make-A-Video 在文本到图像合成模型的基础上,以无监督的方式利用了视频数据。Gen-1 则是扩展了 Stable Diffusion 并提出了一种基于所需输出的视觉或文本描述的结构和内容引导的视频编辑方法。

​ 如今,越来越多的文生视频模型不断迭代,我们可以看到,2023 年似乎将要成为 “文生视频” 的一年。

(二)常见算法框架
(1)文本特征提取 + 文本特征到视频隐空间扩散模型 + 视频隐空间到视频视觉空间网络
  • 整体模型参数约17亿。支持英文输入。
  • 扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
(三)研究里程碑
时间 所属机构 描述 体验地址
2022年9月29日 Meta 公布文生视频工具Make-A-Video,这个工具可以把文字生成视频,也可以将静态图片生成连续图片,然后将这些图片连接成一段视频。
2022年10月 Google 发布了两个文生视频工具——Imagen Video 与 Phenaki,前者主打视频品质,后者主要挑战视频长度。目前,Imagen Video 可以生成1280x768分辨率、每秒24帧的高清晰片段,而Phenaki可以实现“有故事、有长度”,它生成任意时间长度的视频能力来源于其新编解码器C-ViViT。
2023年2月6日 Runway 发布 Gen-1 模型,这个模型可以通过应用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频。今年的奥斯卡将7项大奖颁给了《瞬息全宇宙》,在影片的制作过程中,就采用了这家公司的技术。 https://runwayml.com/
2023年3月21日 Runway 发布了Gen-2,更专注于从零开始生成视频。
2023年3月22日 阿里达摩院 在AI模型社区“魔搭”(ModelScope)悄悄放出 “文本生成视频大模型”,在开源模型平台低调对外测试;
2023年3月16日 百度 发布文心一言也提供文字生成视频功能。
(四)当前挑战
(1)要解决AI生成的图像没有闪烁感、更连贯;
(2)要解决时间效率与算力资源问题。
(3)可能被用来生成虚假、仇恨、露骨或有害的内容,信任与安全等问题也逐渐涌现。

目前将文本生成图像,在高端GPU上,每张图像渲染的时间大约为几秒到十几秒,视频如果按照每秒30帧计算,那么一秒钟的视频就需要几分钟的渲染时间,大大限制其适用场景。这需要硬件技术和算法共同进化解决。

美国麻省理工学院人工智能教授菲利普·伊索拉就表示,如果看到高分辨率的视频,人们很可能会相信它。 也有专家指出,随着人工智能语音匹配的出现,以及逐渐拥有改变和创建几乎触手可及的逼真视频的能力,伪造公众人物和社会大众的言行可能会造成不可估量的伤害。但是,“潘多拉的魔盒已经打开”,作为生成式 AI 的下一站,文生视频的技术需要不断改进,与此同时,依然需要警惕安全与伦理风险。文章来源地址https://www.toymoban.com/news/detail-530847.html

(五)最新研究进展
  • AI作画玩腻了?国产AI文生视频又来了,就是画风有点辣眼睛|封面天天见
  • AI大模型下一站:“文生视频”还有多远?|图像|AI|Meta
  • AIGC下一站:期待、警惕充斥着AI剪辑师的世界-钛媒体官方网站
  • 视频版Stable Diffusion来了!!
  • Stable Diffusion能生成视频了!动画版上线!支持文本图像视频多种输入方式

到了这里,关于【精华】AIGC之文生视频及实践应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 从文本、图像到音视频,AIGC技术将如何重构我们的数字世界?

    1950 年,艾伦·图灵提出著名的「图灵测试」,给出判定机器是否具有智能的试验方法。16 年后,世界上第一款可人机对话的机器人“Eliza”问世,这是 AI 技术最早期的萌芽阶段。但由于当时的科技水平限制,AIGC 仅限于小范围实验。 Eliza 的出现代表了人们对人工智能和自然语

    2024年02月15日
    浏览(35)
  • 从原理到实践:音视频编码与解码技术解析

    1.1 引言 音视频编码与解码技术在现代数字媒体领域中扮演着至关重要的角色。随着互联网和移动设备的快速发展,音视频数据的传输和处理变得越来越普遍和重要。理解音视频编码与解码的原理与实践对于开发高质量、高效率的音视频应用程序至关重要。 1.2 音视频编码与解

    2024年02月03日
    浏览(45)
  • python moviepy 自动化音视频处理实践

    MoviePy是一个用于视频编辑的Python库。它提供了一种简单且直观的方式来处理视频文件,包括剪辑、合并、裁剪、添加文本、添加音频等操作。使用MoviePy,你可以通过编写Python代码来创建和编辑视频,而无需使用复杂的视频编辑软件。 MoviePy建立在另一个库Pygame和软件MoviePy

    2024年02月14日
    浏览(30)
  • 音视频解决方案(二):直播电商场景最佳实践

    本文介绍使用ZEGO SDK 开发电商场景的小程序,具备音视频直播、IM互动、商品列表推送、美颜等功能,可满足商家多种直播卖货需求,可参考该组件实现自己的需求。 若小程序具备符合live-pusher、live-player的类目,则可以使用live-pusher和live-player,live-room 的isNative属性传入true。

    2024年02月20日
    浏览(45)
  • 技术分享| 音视频与微信小程序互通实践

    随着网络架构的变迁、媒体技术发展、音视频场景迭代,基于流媒体的技术也是推陈出新。WebRTC渐渐的成为了音视频互动场景的主流,而微信在6.5.21版本通过小程序开放了实时音视频能力,开发者们可以使用组件 live-pusher 实现基于 RTMP 的直播推流(录制),用于实时音视频通

    2024年02月14日
    浏览(39)
  • Android 音视频开发实践系列-06-初步了解H.264视频编解码技术标准

    本文来自笔者本人的语雀博客,由于语雀升级后不再满足笔者的需求,因此之后笔者会陆续将一些之前已经发布但尚有价值的文章搬家到CSDN。 作为音视频行业从业者,怎么能不理解H.264视频编解码技术标准?本篇文章主要记录笔者学习过程中对众多优秀博客内容的摘抄整理,

    2023年04月09日
    浏览(43)
  • AI浪潮下,大模型如何在音视频领域运用与实践?

    视频云大模型算法「方法论」。 刘国栋| 演讲者 在AI技术发展如火如荼的当下,大模型的运用与实践在各行各业以千姿百态的形式展开。音视频技术在多场景、多行业的应用中,对于智能化和效果性能的体验优化有较为极致的要求。如何运用好人工智能提升算法能力,解决

    2024年01月25日
    浏览(38)
  • 元矿山下的音视频应用

      //   近年来,矿业的技术和管理模式随着元宇宙的火爆和自动驾驶技术的发展逐渐变化、升级,进而衍生出元矿山的概念,音视频技术也在其中成为了关键一环。LiveVideoStackCon 2023 上海站邀请了来自希迪智驾的任思亮,为大家分享希迪智驾的元矿山建设历程以及音视频技术

    2024年02月11日
    浏览(30)
  • 画质提升+带宽优化,小红书音视频团队端云结合超分落地实践

    随着视频业务和短视频播放规模不断增长,小红书一直致力于研究:如何在保证提升用户体验质量的同时降低视频带宽成本? 在近日结束的音视频技术大会「LiveVideoStackCon 2023」上海站中,小红书音视频架构视频图像处理算法负责人 剑寒 向大家分享了一项创新技术—— 基于

    2024年02月12日
    浏览(50)
  • FFmpeg音视频处理工具介绍及应用

    FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止,FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg(FastForward Mpeg)是一款遵循GPL的开源软件,在音视频处理方面表现十分优秀,几乎囊括了现存所有的视音频格式的编码,解码、转码、混合

    2024年02月08日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包