视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

这篇具有很好参考价值的文章主要介绍了视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。

2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。

本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。

VideoPoet 既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

消息一出,有很多人表示欢迎:看看目前的几个成品效果不错,大模型技术发展的速度也太快了。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

有人对于这个大模型生成视频的长度表示惊讶:

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

来源:https://twitter.com/cybersphere_ai/status/1737257729167966353

还有人表示这是一个革命性的大语言模型。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

也有人呼吁,谷歌需要赶紧把 VideoPoet 开源了,大趋势不等人。

随着生成式 AI 的发展,最近出现了一波新的视频生成模型,这些模型展示了令人惊叹的画面质量。当前视频生成的瓶颈之一是产生连贯的大动作。但在许多情况下,即使是领先的模型也只能产生较小的运动,或者当产生较大的运动时,会表现出明显的伪影。

为了探索语言模型在视频生成中的应用,来自谷歌的研究者引入了一种大语言模型(LLM)VideoPoet,能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、 视频修复和扩展,以及视频转音频。

VideoPoet 效果展示

文本生成视频

提示:一只狗戴着耳机听音乐,细节丰富,8k。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

提示(从左到右):一条从嘴里射出激光束的鲨鱼;泰迪熊手牵着手走在雨天的第五大道上;举铁的小鸡。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

提示(从左到右):黄色蒲公英花瓣制成的狮子在咆哮;地球表面发生大规模爆炸;一匹马在梵高的星夜中驰骋;穿着盔甲的松鼠骑着鹅;熊猫在自拍。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

图像生成视频

对于图像到视频,VideoPoet 可以获取输入图像并通过提示将其动画化。

蒙娜丽莎开始打哈欠,只要输入一张图片,外加一句提示:一个女人打哈欠。就会得到下面的效果。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

提示(从左到右):一艘船在波涛汹涌的大海上航行,有雷暴和闪电,油画风格;飞过有许多闪烁星星的星云;大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下面浮动的云海。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

将视频风格化

VideoPoet 还能够根据文本提示对输入视频进行风格化。

提示(从左到右):泰迪熊在干净的冰湖上滑冰;一只金属色的狮子在熔炉的光芒下咆哮。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

生成音频

VideoPoet 还能够生成音频。首先让模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测画面的音频。这样一来,VideoPoet 能够从单个模型生成视频和音频。

长视频

VideoPoet 还能生成长视频,默认是 2 秒。通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频。下面是 VideoPoet 从文本输入生成长视频的示例展示。提示:FPV 镜头展示了丛林中一座非常锋利的精灵石城,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

扩展视频

用户可以改变提示,从而扩展视频。原始视频是两只浣熊骑着摩托车在松树环绕的山路上行驶,8k。扩展后的视频是两只浣熊骑着摩托车,浣熊身后落下流星,流星撞击地球并爆炸。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

交互式视频编辑

对于提供的输入视频(最左边),用户可以改变物体的运动来执行不同的动作。如下所示,中间三个没有文本提示,最后一个文本提示为:烟雾背景下启动。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

视频修复

VideoPoet 可以在视频被遮住的部分添加细节,也可以选择通过文本引导进行修复。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

为了展示 VideoPoet 的功能,谷歌还制作了一部由 VideoPoet 生成的多个短片组成的小短片。剧本是 Bard 编写的,是关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提示列表。然后,谷歌为每个提示生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下面的最终视频。

方法简介

如下图所示,VideoPoet 可以将输入图像动画化以生成一段视频,并且可以编辑视频或扩展视频。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

在风格化方面,该模型接收表征深度和光流的视频,以文本指导的风格绘制内容。

视频生成器

使用 LLM 进行训练的一个关键优势是,可以重复使用现有 LLM 训练基础设施中引入的许多可扩展的效率改进。然而,LLM 是在离散 token 上运行的,这使得视频生成具有挑战性。而视频和音频 tokenizer 可以用来将视频和音频剪辑编码为离散 token 序列,并且也可以转换回原始表征形式。

通过使用多个 tokenizer(用于视频和图像的 MAGVIT V2 和用于音频的 SoundStream),VideoPoet 训练自回归语言模型来学习跨视频、图像、音频和文本的多个模态。一旦模型生成以某些上下文为条件的 token,就可以使用 tokenizer 解码器将它们转换回可视化的表征形式。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

评估结果

研究团队使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,该研究在各种不同的 prompt 下运行了所有模型,没有挑选示例,并要求人类评估者进行偏好评分。

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

能生成视频的大模型,云计算 / 大数据 / 安全 / 数据库,物联网 / 互联网 / 人工智能 / 其他,音视频

平均而言,在遵循 prompt 方面,人们认为 VideoPoet 中 24-35% 的示例比竞争模型更好,而竞争模型的这一比例为 8-11%。评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为生成视频的动作更有趣,而其他模型的这一比例为 11-21%。 文章来源地址https://www.toymoban.com/news/detail-785166.html

到了这里,关于视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • SadTalker AI模型使用一张图片与一段音频便可以自动生成视频

    SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。 SadTalker,它从音频中生成 3DMM 的 3D 运动系数(头部姿势、表

    2024年02月17日
    浏览(43)
  • Stable Diffusion的结构要被淘汰了吗?详细解读谷歌最新大杀器VideoPoet

    Diffusion Models视频生成-博客汇总 前言: 视频生成领域长期被Stable Diffusion统治,大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层,学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限,但是都没有对业

    2024年02月04日
    浏览(42)
  • 只需3步,使用Stable Diffusion无限生成AI数字人视频

    搞一张照片,搞一段语音,合成照片和语音,同时让照片中的人物动起来,特别是头、眼睛和嘴。 语音合成的方法很多,也比较成熟了,大家可以选择自己方便的,直接录音也可以,只要能生成一个语音文件就行了。 如下图所示 :输入你的文字,选择播音员,填写验证码,

    2024年04月08日
    浏览(83)
  • 【AI生成视频工具】阿里推出图片生成视频Ai工具,免费无限制国内可用,比GEN2香多了

    大家好,我是龙一,专注AI轻创副业项目分享,今天给大家分享一款阿里近日推出的开源的图片生成视频的Ai工具,目前可免费使用,没有使用次数的限制,效果非常好,不得不说比RunwayGen2香多了。 可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频,生成的

    2024年02月08日
    浏览(84)
  • Sora:探索AI视频模型的无限可能

    随着人工智能技术的不断突破,AI视频模型已经成为科技界的新宠。作为OpenAI推出的首个AI视频模型,Sora凭借其卓越的性能和前瞻性的技术,正引领着AI视频领域的创新发展。本文将深入探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。 Sora的技术架构融合了深度

    2024年03月14日
    浏览(46)
  • AI作画升级!一键帮你用Stable Diffusion 生成无限缩放效果视频

    在这一篇文章中,我们介绍了利用OpenVINO™优化和加速Stable Diffusion模型的推理,在英特尔®独立显卡上能够根据我们输入的指令(prompt),快速生成我们喜爱的AI画作。今天,我们对这一应用场景再次升级,除了能够作画,利用OpenVINO对Stable Diffusion v2模型的支持及优化,我们还

    2024年02月10日
    浏览(58)
  • 快讯 | 微软开源 Deep Speed Chat;商汤回应自研大模型图片生产质疑;谷歌 Bard 聊天机器人实验更新页面上线

    一分钟速览新闻点 商汤回应自研大模型图片生产质疑 昆仑万维与阿里云达成战略合作,将新建智算中心支撑大模型创新 中科院自动化研究所针对康复机器人提出新的驾驶空间概念 百度Apollo将在上海车展发布智能汽车开放方案 谷歌 Bard 聊天机器人实验更新页面上线,数学和

    2024年02月11日
    浏览(51)
  • 新出炉!谷歌AI #DreamFusion 从文本生成3D模型

    文本生成图像已有了大量模型工具,文本生成3D模型的工具到是很少见。 # 我记得有一期推文介绍了文本生成数字人模型吧,现在有能生成通用3D模型的工具了? 近期谷歌AI 发布了文本生成3D模型— Dreamfusion # 赶紧去体验下有多神奇~ DreamFusion Dreamfusion  是 Google 的大型AI图像

    2023年04月08日
    浏览(72)
  • 各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)

    AIGC ,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、视频等。 本文主要描述 文字生成图片 的模型。而且目前 扩散模型 (Diffusion Models)流行,所以下面列的大部分是基于扩散模型的,而基于GAN(GenerativeAdversarialNetwork

    2024年02月09日
    浏览(47)
  • AI漫画生成,可用于小说漫画推文视频,也可以单独生成

    AI生成漫画图片的应用获取方式在最下面! 应用首页截图: AI语句转化页面截图:  绘图设置页面截图:  配音页面截图:  视频合成页面截图: ​​​​​​​ AI生成漫画图片在许多领域都具有广泛的应用前景: 创意设计与艺术创作: 设计师和艺术家可以利用AI生成的漫

    2024年02月01日
    浏览(190)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包