文生视频综述

这篇具有很好参考价值的文章主要介绍了文生视频综述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文字生成视频当前挑战 和发展现状_哔哩哔哩_bilibili今天我们聊了什么是 text to video,它的原理和目前的研究进展。text to video 是一种将文本转换为视频的技术,它可以通过图像处理、语音识别和自然语言处理等技术来实现。目前,text to video 的研究主要集中在以下几个方面:文本到视频的编码和解码、文本识别和语音合成、视频的生成和播放等。虽然 text to video 技术已经取得了一些进展,但是仍然存在一些挑战,如高, 视频播放量 518、弹幕量 0、点赞数 12、投硬币枚数 3、收藏人数 7、转发人数 2, 视频作者 小工蚁创始人, 作者简介 小工蚁创始人 张文斌原土豆网第九个员工,土豆网技术总监;担任过3家上市公司CTO,服务肯德基、星巴克、全家、松下电器、晖致、顾家家居、今世缘,相关视频:Video Retalking数字人开源项目 10秒视频驱动声音生成逼真视频,比Stable Diffusion更强AI画画Deep Floyd IF开源模型来了,深度学习如何选购GPU?2023年选择什么型号?为什么?,ChatGPT开源平替来了 开箱即用OpenChatKit,【NovelAI】解放双手GPT4+TTS+SD+Python一键成片批量操作,演示ChatGLM-6B加载本地知识库精确回答财税问题,ChatGPT和Midjourney的完美融合,中文界面,ChatGPT在国内外各行业的应用场景,企业如何构建自己的ChatGPT 中文LLM大模型和微调方法推荐,Claude已经没法在slack上打开了https://www.bilibili.com/video/BV1Dz4y187z2/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22文生视频: 任务、挑战及现状 - 知乎示例视频由 ModelScope 生成。最近生成模型方向的进展如排山倒海,令人目不暇接,而文生视频将是这一连串进展的下一波。尽管大家很容易从字面上理解文生视频的意思,但它其实是一项相当新的计算机视觉任务,其要求…https://zhuanlan.zhihu.com/p/629698361文生视频其要求是根据文本生成一系列时间和空间上都一致的图像。

一、文生视频与文生图

        第一波文生图,采用了GAN架构,VQGAN-CLIP、XMC-GAN和GauGAN2,主要是clip的产生,第二波,openai在2021年初发布的dalle,2022年4月发布的dalle2,以及stable diffusion和Imagen等,第三波,stable diffusion的成功催生了大量产品化的扩散模型,比如dreamstudio/runwayml gen-1,webui以及midjourney。

        但是文生视频不管是扩散模型还是非扩散模型上,生成能力都很受限,文生视频通常在非常短的视频片段上训练,意味着他们需要使用计算量大且速度慢的滑动窗口来生成长视频,部署困难且保证上下文一致性和视频长度上受到限制。目前文生视频的挑战包括:

1.计算挑战:确保帧间空间和时间一致性会产生长期依赖关系,从而带来高计算成本。

2.缺乏高质量数据集:用于文生视频的多模态数据集很少,通常数据集的标注很少,这使得学习复杂的运动语义很困难。

3.视频字幕的模型性:如何描述视频从而让模型学习的更容易,需要一个完整的视频描述,近视用一个简短的文本描述是不够的,一系列prompt以及随时间移动的故事才能更好的生成视频。

二、如何实现文生视频?

早期研究主要使用基于GAN和VAE的方法,在给定文本描述的情况下自回归的生成视频帧(参见 Text2Filter 及 TGANs-C)),这些方法仅限于低分辨率、短距以及视频中目标的运动比较单一、孤立的情况。

文生视频综述

最初的文生视频模型在分辨率、上下文和长度方面极为有限,上图取自TGANs-C。

        受文本GPT3和图像DALLE中大规模预训练transformer模型的成功启发,文生视频研究的第二波浪潮采用了transformer架构。PhenakiMake-A-VideNUWAVideoGPT 和 CogVideo 都提出了基于 transformer 的框架,而 TATS 提出了一种混合方法,从而将用于生成图像的 VQGAN 和用于顺序地生成帧的时间敏感 transformer 模块结合起来。在第二波浪潮的诸多框架中,Phenaki 尤其有意思,因为它能够根据一系列提示 (即一个故事情节) 生成任意长视频。同样,NUWA-Infinity 提出了一种双重自回归 (autoregressive over autoregressive) 生成机制,可以基于文本输入合成无限长度的图像和视频,从而使得生成高清的长视频成为可能。但是,Phenaki 或 NUWA 模型均无法从公开渠道获取。

文生视频综述

Phenaki 的模型架构基于 transformer,图片来自 此处

        第三波也就是当前这一波文生视频模型浪潮主要以基于扩散的架构为特征。扩散模型在生成多样化、超现实和上下文丰富的图像方面取得了显著成功,这引起了人们对将扩散模型推广到其他领域 (如音频、3D ,最近又拓展到了视频) 的兴趣。这一波模型是由 Video Diffusion Models (VDM) 开创的,它首次将扩散模型推广至视频领域。然后是 MagicVideo 提出了一个在低维隐空间中生成视频剪辑的框架,据其报告,新框架与 VDM 相比在效率上有巨大的提升。另一个值得一提的是 Tune-a-Video,它使用单文本-视频对微调预训练的文生图模型,并允许在保留运动的同时改变视频内容。随后涌现出了越来越多的文生视频扩散模型,包括 Video LDMText2Video-ZeroRunway Gen1、Runway Gen2 以及 NUWA-XL

        Text2Video-Zero是一个文本引导的视频生成和处理框架,其工作方式类似于controlnet,可以基于输入的文本数据或文本+姿态混合数据或者文本+边缘混合数据直接生成视频。Text2Video-Zero是一种零样本模型,通过将运动信息和预训练的sd结合,无需任何文本-视频对数据,与Text2video-Zero类似,runway gen-1和runway gen-2模型可以合成由文本或图像描述的内容引导的视频,这些工作大多数都是在短视频片段上训练,并且依靠带有滑动窗口的自回归机制来生成更长的视频,这不可避免地导致了上下文差异 (context gap)。 NUWA-XL 解决了这个问题,并提出了一种“双重扩散 (diffusion over diffusion)”方法,并在 3376 帧视频数据上训练模型。还有阿里巴巴达摩院的videoFusion 和 Tencel 的 VideoCrafter。

三、数据集    

与其他视觉语言模型一样,文生视频模型通常在大型 文本 - 视频对 数据集上进行训练。这些数据集中的视频通常被分成短的、固定长度的块,并且通常仅限于少数几个目标的孤立动作。出现这种情况的一部分原因是计算限制,另一部分原因是以有意义的方式描述视频内容这件事本身就很难。而我们看到多模态视频文本数据集和文生视频模型的发展往往是交织在一起的,因此有不少工作侧重于开发更易于训练的更好、更通用的数据集。同时也有一些工作另辟蹊径,对替代解决方案进行了探索,例如 Phenaki 将 文本 - 图像对 与 文本 - 视频对 相结合用于文生视频任务; Make-a-Video 则更进一步,提议仅使用 文本 - 图像对 来学习世界表象信息,并使用单模态视频数据以无监督的方式学习时空依赖性。

这些大型数据集面临与文本图像数据集类似的问题。最常用的文本 - 视频数据集 WebVid 由 1070 万个 文本 - 视频对 (视频时长 5.2 万小时) 组成,并包含一定量的噪声样本,这些样本中的视频文本描述与视频内容是非相干的。其他数据集试图通过聚焦特定任务或领域来解决这个问题。例如,Howto100M 数据集包含 13600 万个视频剪辑,其中文本部分描述了如何一步一步地执行复杂的任务,例如烹饪、手工制作、园艺、和健身。而 QuerYD 数据集则聚焦于事件定位任务,视频的字幕详细描述了目标和动作的相对位置。CelebV-Text 是一个包含超过 7 万个视频的大规模人脸文本 - 视频数据集,用于生成具有逼真的人脸、情绪和手势的视频。

四、Hugging Face 上的文生视频

        使用 Hugging Face Diffusers,你可以轻松下载、运行和微调各种预训练的文生视频模型,包括 Text2Video-Zero 和 阿里巴巴达摩院 的 VideoFusion。我们目前正在努力将更多优秀的工作集成到 Diffusers 和 Transformers 中。

        在 Hugging Face,我们的目标是使 Hugging Face 库更易于使用并包含最先进的研究。你可以前往 Hub 查看和体验由 团队、无数社区贡献者和研究者贡献的 Spaces 演示。目前,上面有 VideoGPTCogVideoModelScope 文生视频 以及 Text2Video-Zero 的应用演示,后面还会越来越多,敬请期待。要了解这些模型能用来做什么,我们可以看一下 Text2Video-Zero 的应用演示。该演示不仅展示了文生视频应用,而且还包含多种其他生成模式,如文本引导的视频编辑,以及基于姿势、深度、边缘输入结合文本提示进行联合条件下的视频生成。

文生视频综述

除了使用应用演示来尝试预训练文生视频模型外,你还可以使用 Tune-a-Video 训练演示 使用你自己的 文本 - 视频对微调现有的文生图模型。仅需上传视频并输入描述该视频的文本提示即就可以了。你可以将训得的模型上传到公开的 Tune-a-Video 社区的 Hub 或你私人用户名下的 Hub。训练完成后,只需转到演示的 Run 选项卡即可根据任何文本提示生成视频。

文生视频综述

Hub 上的所有 Space 其实都是 Git 存储库,你可以在本地或部署环境中克隆和运行它们。下面克隆一下 ModelScope 演示,安装环境,并在本地运行它。

git clone https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis
cd modelscope-text-to-video-synthesis
pip install -r requirements.txt
python app.py

这就好了! Modelscope 演示现在已经在你的本地计算机上运行起来了。请注意,Diffusers 支持 ModelScope 文生视频模型,你只需几行代码即可直接加载并使用该模型生成新视频。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

其他的社区开源文生视频项目

最后,还有各种不在 Hub 上的开源项目和模型。一些值得关注的有 Phil Wang (即 lucidrains) 的 Imagen 非官方实现、PhenakiNUWAMake-a-Video 以及 Video Diffusion 模型。还有一个有意思的项目 ExponentialML,它是基于 Diffusers 的,用于微调 ModelScope 文生视频模型。

总结

文生视频的研究正在呈指数级发展,但现有工作在上下文一致性上仍有限制,同时还面临其他诸多挑战。在这篇博文中,我们介绍了文生视频模型的限制、独特挑战和当前状态。我们还看到了最初为其他任务设计的架构范例如何赋能文生视频任务的巨大飞跃,以及这对未来研究意味着什么。虽然进展令人印象深刻,但与文生图模型相比,文生视频模型还有很长的路要走。最后,我们还展示了如何通过 Hub 上的应用演示来使用这些模型,以及如何将这些模型作为 Diffusers 流水线的一部分来完成各种任务。 文章来源地址https://www.toymoban.com/news/detail-492840.html

到了这里,关于文生视频综述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 短视频生成背景&文字工具(前端工具)

    过年这两天有些无聊就刷刷抖音,刷着刷着自己也蠢蠢欲动,想发上几个,可是却找不到合适自己的模板。由于个人喜欢一些古诗文之类的,所以自己简单的编写了一个小工具,如下图: 当设置好了之后,将浏览器设置成最窄,就可以截图发送至抖音啦~ 如果文章能够对您有

    2024年04月28日
    浏览(34)
  • Midjourney生成视频 | 一句咒语成大片 |【附教程】&【完整过程录制】| AI绘画工具图片一键生成视频|文字一键生成视频|图片生成视频工具

    midjourney又有妙用了,那就是一句咒语生成视频大片,前面我们给大家分享过midjourney终极教程见《AI绘画工具保姆级指南手册--以Midjourney为例【含国内中文版】》,从安装到使用都有,这里不再赘述。对了,今天在这里要特别感谢一位读者(微信昵称:老郑),我就冒昧的称您

    2024年02月11日
    浏览(192)
  • 从文字到视频:借助ChatGPT与剪映轻松生成高质量视频

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 一、AI生成视频的优势 二、chatgpt+剪映快速生成优质视频  2.1生成优质内容  2.2AI生成视

    2024年02月08日
    浏览(48)
  • OpenAI发布Sora模型,可根据文字生成逼真AI视频

    早在2022年11月30日,OpenAI第一次发布人工智能聊天机器人ChatGPT,随后在全世界掀起了人工智能狂潮,颠覆了一个又一个行业。在过去的一年多的时间里,chatGPT的强大功能改变了越来越多人的工作和生活方式,成为了世界上用户增长最快的应用程序。 昨天,OpenAI发布了一款新

    2024年02月19日
    浏览(53)
  • ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频,小说转视频,自媒体神器!(二)

    最近大模型频出,但是对于我们普通人来说,如何使用这些AI工具来辅助我们的工作呢,或者参与进入我们的生活,就着现在比较热门的几个AI,写个一个提高生产力工具,现在在逻辑上已经走通了,后面会针对web页面、后台进行优化。 github链接 B站教程视频 https://www.bilibil

    2024年02月14日
    浏览(47)
  • ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频,小说转视频,自媒体神器!(一)

    最近大模型频出,但是对于我们普通人来说,如何使用这些AI工具来辅助我们的工作呢,或者参与进入我们的生活,就着现在比较热门的几个AI,写个一个提高生产力工具,现在在逻辑上已经走通了,后面会针对web页面、后台进行优化。 github链接 https://github.com/Anning01/TextCrea

    2024年02月14日
    浏览(48)
  • 联邦学习综述:挑战、方法和未来方向

    IEEE SIGNAL PROCESSING MAGAZINE, 2020 本文可能在基础上拓展了很多新的应用场景和思路,值得参考,联邦学习中可以考虑的点其实有很多。 一、简介 随着移动设备等算力增强,信息传输的隐私问题日渐让人担忧。可以考虑在本地存储和使用模型但是集中训练机器学习模型的方式,

    2023年04月22日
    浏览(82)
  • Sora是什么?Sora怎么使用?OpenAI最新文字转视频AI模型Sora,一句子生成60秒超逼画面

    Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成 长达 60 秒 、1080P 高质量视频,其中包含 精细复杂的场景、生动的角色表情以及复杂的镜头运动 。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的

    2024年02月20日
    浏览(52)
  • 【论文阅读】异构联邦学习综述:最新进展与研究挑战

    这是关于一篇异构联邦学习的综述,希望能从这篇文章对联邦学习有一个大致的了解。作者从一开始就呈现了文章总体的思维导图,非常具有指引效果。 这是论文地址: Heterogeneous Federated Learning: State-of-the-art and Research Challenges 通俗的来说就是: 允许多个设备或数据源在不共

    2024年02月04日
    浏览(46)
  • 一篇综述洞悉医学大型语言模型的原理,应用和挑战

    在过去的一年中,随着 GPT-4、LLaMA、Mistral,PaLM 等先进技术的突飞猛进,大型语言模型(Large Language Models)已经引领全球人工智能进入了一个全新的基础模型时代,这一时代不仅开启了技术创新的新篇章,也彻底重塑了各行各业的运作模式。特别是在医疗领域,这些变革显得

    2024年01月18日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包