零样本从文本直接生成视频:Text2video-zero的试用和启发

这篇具有很好参考价值的文章主要介绍了零样本从文本直接生成视频:Text2video-zero的试用和启发。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

前段时间,一款AI视频应用及其创始人刷爆了科技圈,顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司,他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了,甚至已经用的非常熟练,其中不乏常见的Stable Diffusion以及Midjourney等各种模型和产品。反观文生视频模型及其衍生产品却进展迟缓,尽管几家当红的公司宣传自己的产品非常厉害,但实际上都面临或多或少的问题。

文生视频的难点

  • 可供训练的有效数据少:对于任何深度学习模型来说,数据质量和数量决定了它的性能上限。不同于语言模型或者视觉模型,这些模型训练的数据很容易就能在开源社区找到,并且质量和数量都较为可观。而文生视频模型训练需要的文本-视频对就没那么容易找到了。
  • 计算难度大: 视频数据比图片数据多了时间上的维度。假设已经有一批文本-视频对数据,文生视频模型的训练也只能用非常短的视频片段进行训练,因为越长的视频越难保证帧与帧之间的一致性和连贯性。

实现文生视频的方法

早期的生成对抗网络

文生视频是个非常新的研究方向,早期研究主要使用基于 Gan 和 Vae 来实现。如VideoGan,是一个双通道模型,把视频抽象分成前景和背景,分别通过这两个通道把噪声转视频帧再合并到一块,是最早将GAN用于视频生成的框架。
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能

虽然这些工作为文生视频奠定了基础,但它们的应用范围非常有限,仅限于低分辨率(大多都是128*128像素)以及视频中目标单一的情况。

近期的扩散模型

而近两年来,随着扩散模型的发展以及在图像领域取得的成就,一些研究者也逐渐把研究重心转移到扩散模型上来。因为之前调研使用过Text2Video-Zero这个模型,接下来就简要介绍一下这个模型及其效果。
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能

顾名思义,Text2Video-Zero 是一种零样本模型,即无需使用任何 文本 - 视频对 数据,就能把文生图迁移到文生视频,因此可以直接使用stable diffusion相关的模型,如sd-1.5或sdxl等 。
整体思路可以概述如下:

  1. 从第二帧开始每一帧都不进行随机噪声采样,而是从前一帧变化来,通过一个运动向量叠加而成
  2. Unet的注意力机制修改为帧与帧之间的注意力机制

从论文中给出的例子来看,能够生成一些简单的视频
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
我也尝试生成一段简单的视频,效果还是有限的。细看会发现草的细节不够好,存在畸变,而且河流是简单的左右对称。虽然调整了采样率,但效果还是不太理想。
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能
零样本从文本直接生成视频:Text2video-zero的试用和启发,AIGC,音视频,人工智能

结论

从实际效果来看,目前的文生视频效果尚未达到生成电影级视频的能力。猜测接下来开源的一些模型可能聚焦用更好的方法捕捉视频帧之间的关联,从图像零样本迁移到视频,毕竟这才是真正的多模型大模型。而一批商业化的公司可能还会花费大量的人力财力去构建私有的高质量文本-视频数据,以提升视频在细节方面的效果,从而拉开与别人的差距。文章来源地址https://www.toymoban.com/news/detail-808742.html

到了这里,关于零样本从文本直接生成视频:Text2video-zero的试用和启发的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 本地AI text2img生成工具【类似midjourney】

    大家好,今天我要向大家推荐一款无需翻墙即可在本地生成图片的软件。这个软件可以在GitHub上找到。 我们可以点击code下载zip或者通过desktop进行下载。 下载完成后,它会生成一个目录 我们需要在电脑上配置两个环境才能运行这个脚本。 首先,我们需要下载Python 3.10.6,并配

    2024年02月16日
    浏览(50)
  • ChatGPT新增超强插件:文本直接生成视频、海报,支持自定义修改!

    全球著名在线设计平台Canva,在ChatGPT Plus(GPT-4)上推出了插件功能,用户通过文本提示,几秒钟就能生成演示文稿、PPT插图、电子书封面、宴会邀请函等各种精美设计海报,同时支持生成视频。 该插件最强大的功能在于,用户如果对自动生成的海报、视频不满意,可以点击

    2024年02月09日
    浏览(41)
  • 【AIGC】阿里达摩院:文本生成视频大模型-通用领域 (Text-to-video-synthesis Model in Open Domain)

    说实话,这篇破文章没什么营养,就是记录一下 阿里达摩院的文章水平。 :多模态 text2video generation diffusion model 文到视频 文生视频 文本生成视频  目录 文本生成视频大模型-通用领域 (Text-to-video-synthesis Model in Open Domain) 模型描述 (Model Description)

    2023年04月09日
    浏览(50)
  • 免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)

    免费使用支持离线部署使用的 txt2video 文本生成视频大模型(Text-to-Video-Synthesis Model)。 文本生成视频大模型(Text-to-Video-Synthesis Model)是一种基于深度学习技术的人工智能模型,它可以将自然语言文本描述转换为相应的视频。即通过输入文本描述,自动生成符合描述内容的视频。

    2024年02月22日
    浏览(50)
  • 【100个 Unity实用技能】☀️ | UGUI Text中加入超链接文本,可直接点击跳转

    老规矩,先介绍一下 Unity 的科普小知识: Unity 是 实时3D互动内容创作和运营平台 。 包括 游戏开发 、 美术 、 建筑 、 汽车设计 、 影视 在内的所有创作者,借助 Unity 将创意变成现实。 Unity 平台提供一整套完善的软件解决方案,可用于创作、运营和变现任何实时互动的2D和

    2024年02月08日
    浏览(52)
  • stableDiffusionWebui text2imgapi并发作画

    AI绘画火了两年,自己也摸索了一段时间。分享一个知识点,基于开源框架实现并发作画。 基于stableDiffusionWebui 1.0版本,修改以下代码后可以达到并发效果。 在\\\"stable-diffusion-webuimodulesapiapi.py\\\" 文件中找到\\\"text2imgapi\\\"方法,将\\\"# with self.queue_lock:\\\"代码注释掉,即可让text2imgapi实现

    2024年02月11日
    浏览(37)
  • Text to image论文精读GigaGAN: 生成对抗网络仍然是文本生成图像的可行选择

    GigaGAN是Adobe和卡内基梅隆大学学者们提出的一种新的GAN架构,作者设计了一种新的GAN架构,推理速度、合成高分辨率、扩展性都极其有优势,其证明GAN仍然是文本生成图像的可行选择之一。 文章链接:https://arxiv.org/abs/2303.05511 项目地址:https://mingukkang.github.io/GigaGAN/ 最近,文

    2023年04月09日
    浏览(57)
  • LLM在text2sql上的应用

    目前,大模型的一个热门应用方向text2sql它可以帮助用户快速生成想要查询的SQL语句。那对于用户来说,大部分简单的sql都是正确的,但对于一些复杂逻辑来说,需要用户在产出SQL的基础上进行简单修改,Text2SQL应用主要还是帮助用户去解决开发时间,减少开发成本。 Text to

    2024年02月08日
    浏览(42)
  • TEXT2SQL-顶峰:Vanna部署及介绍

    Vanna 是一款采用 MIT 许可的开源 Python RAG (检索增强生成)框架,用于生成 SQL 语句和相关功能。 如何使用 Vanna Vanna 的使用分为两个简单步骤 - 在你的数据上训练一个 RAG \\\"模型\\\",然后提出问题,该问题将返回可设置为自动在你的数据库上运行的 SQL 查询。 1. 在你的数据上训练一

    2024年02月22日
    浏览(41)
  • 大模型LLM在 Text2SQL 上的应用实践

    一、前言 目前,大模型的一个热门应用方向Text2SQL,它可以帮助用户快速生成想要查询的SQL语句,再结合可视化技术可以降低使用数据的门槛,更便捷的支持决策。本文将从以下四个方面介绍LLM在Text2SQL应用上的基础实践。 · Text2SQL概述 · LangChain基础知识 · 基于SQLDatabaseCha

    2024年01月16日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包