一句话生成长视频

10月前作者：洛克-李分类：Toy博客阅读(42) 违法举报

这篇具有很好参考价值的文章主要介绍了一句话生成长视频。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前段时间，我曾经介绍过Imagen Video模型。它能够在输入一句话中，生成5~6秒的视频。而且由于采用了“空间高分辨率模型”和“时域高分辨率模型”的级联模型，它能够清晰度在1280×768的高清视频。具体的介绍可以回看我之前写的文章：

短视频模型Imagen Video：艺术和3D建模大师

虽然Imagen Video模型，能够生成高清晰度的短视频，但是仅仅只有5秒左右的时间，因此实际的用处并不到。为了克服这个缺点，谷歌也进一步发布了Phenaki模型。

Phenaki

这个模型不同点在于，它能够根据200个词语，生成2分钟以上的视频。

比如输入文字：

一只逼真的泰迪熊正在旧金山的海里游泳
泰迪熊下水了
泰迪熊和五颜六色的鱼在水下游泳
一只熊猫在水下游泳

一句话生成长视频

或者输入“泰迪熊在海洋中潜水”、“宇航员在火星上跳舞”等词语，可以生成下面的短视频：
一句话生成长视频

同时该模型在修改prompt提示词语的时候，也能够生成不一样的短视频：
一句话生成长视频

1.技术细节

谷歌新提出的Phenaki，主要是引入了一个新的causal model。这个模型从离散的tokens去压缩视频，使得模型能够克服视频长度的问题。

如下图所示，它能够根据超长的prompt去生成每一秒的视频：
一句话生成长视频

同时分词器使用了causal attention，这使得它能够处理可变长度的视频。为了从文本生成视频tokens，论文中使用了一个基于预先计算的文本标记的双向掩码transformer。

生成的视频tokens随后被去标记化以创建实际视频。同时为了解决数据问题，论文中使用了大量图像-文本对语料库以及少量视频-文本示例上进行联合训练，从而实现超出视频数据集可用范围的泛化。

先来看一下具体的模型结构
一句话生成长视频

C-ViViT Encoder：把输入的视频构造成离散的embedding进行输出
Traning Transformer：使用了预训练模型T5X，把embedding翻译成视频tokens
Video Generation：把视频tokens转换成视频

1.1 Encoder-Decoder架构：C-VIVIT

在Phenaki中，由于目标是生成可变长度的视频，同时将视频tokerns的数量保持在最小，以便在当前的计算限制范围内使用transformer对其进行建模。

因此引入了C-ViViT，这是ViViT的一种casual结构，它可以在时间和空间维度上压缩视频，同时保持时间上的自回归。这种能力允许任意长度生成视频
一句话生成长视频

casual attention如上所示。本质上就是，每个时间步的tokens仅以自回归方式观察来自先前帧的空间标记。这样做的效果是第一帧可以完全独立地编码。这为文本到图像训练自然嵌入到视频模型中提供了可能性。第二个优点是，我们可以根据起始帧的数量来调节视频生成过程。

1.2 双向Transformer

在这个任务里面，可以把文本到视频当作是一个seq-to-seq的任务。即可以从文本预测视频tokerns。

同时对长视频进行随机采样，这样可以有效减少预测的时间步，提高计算效率。
一句话生成长视频

对于训练来说，从0~1之间随机选择一个mask比率，把一定的时间步用[MASK]替换掉，然后在训练的时候则可以预测这些标签。

从实验效果上看，可以生成不同风格的视频。
一句话生成长视频

文本生成视频所带来的问题

视频生成模型可以用来对社会产生积极影响，例如通过放大和增强人类的创造力。然而，这些生成模式也可能被滥用，例如生成虚假、仇恨、明确或有害的内容。

同时，新的AI技术带来的行业革新也在悄悄的发生。比如未来可以利用这些模型合成短视频，发布的短视频平台上。到时候你看到的视频，有可能已经不是真人视频了。

好了，本期就到这里了，我是leo，欢迎关注我的知乎/公众号“算法一只狗”，我们下期再见~文章来源地址https://www.toymoban.com/news/detail-405488.html

到了这里，关于一句话生成长视频的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

你真的了解一句话木马吗？

目录一、前言：二、什么是一句话木马：三、常见的一句话木马：木马讲解： 1、$_POST[cmd] 2、eval() 3、\\\"@\\\" 4、脉络梳理四、可用于条件竞争的一句话木马：木马讲解： 1、fopen() 2、fputs() 3、脉络梳理五、图片马 1、什么是图片马： 2、.htaccess 3、木马图片 4. .user.ini扩展

2024年02月04日
浏览(51)
一句话画出动漫效果

链接： AI Comic Factory - a Hugging Face Space by jbilcke-hf Discover amazing ML apps made by the community https://huggingface.co/spaces/jbilcke-hf/ai-comic-factory 选择类型： Japanese 输入提示词：效果如下：

2024年02月10日
浏览(57)
蚁剑连接一句话木马演示

需要准备一台虚拟机作为服务器，一台作为攻击机（可用主机），将虚拟机的网络都设置为桥接。我这里服务器用win2008R2系统攻击机用win10 接下来我会演示 php 的一句话木马其他脚本语言的一句话木马使用过程和这个差别不大在服务器上安装phpstudy 快速搭建服务器安装成

2024年02月14日
浏览(49)
文件上传漏洞—一句话图片马制作

提要：在文件上传漏洞中，通常需要上传脚本类型的文件至服务端执行，获取WebShell，但是网站会严格过滤脚本类型的文件，这个时候便可以通过图片马来尝试突破。简介：在图片格式文件（JPG，PNG和GIF等）中添加隐藏一句话木马，利用文件包含漏洞，Web容器解析漏洞和.

2024年02月07日
浏览(52)
解封ChatGPT我只用了一句话

文章前言 ChatGPT作为一个AI语言模型可以帮助使用者生成各种各样的文字内容，目前已被广泛应用于各种语言任务中，例如:文本生成、机器翻译、问答系统等，基于保障使用者权益和维护良好的价值观，官方限制ChatGPT不能回答不当言论(攻击或侮辱性)、敏感内容和带有偏见的

2024年02月16日
浏览(39)
渗透干货｜史上最全一句话木马

PHP //可执行命令一句话普通一句话 PHP系列过狗一句话【----帮助网安学习，以下所有学习资料文末免费领！----】几个变性的php–过防火墙过狗效果都不错：密码-7 phpv9 高版本拿shell ASP asp 一句话 ASP过安全狗一句话 ASPX系列 ASPX一句话的过安全狗效果不怎么样不过我认为能

2024年04月25日
浏览(45)
一句话解释什么是出口IP

出口 IP 是指从本地网络连接到公共互联网时所使用的 IP 地址。这个 IP 地址是由 Internet 服务提供商（ISP）分配给你的，它可以用来标识你的网络流量的来源。如果你使用的是 NAT（网络地址转换）技术，则在 NAT 设备内部会进行地址转换，使得多个设备可以共享同一个公共 I

2024年02月08日
浏览(42)
java安全——jsp一句话木马

提示：以下是本篇文章正文内容，下面案例可供参考 http://localhost:8003/index.jsp?cmd=whoami 不会回显执行的结果只能在后台打印一个地址，常用来反弹shell 代码如下（示例）：

2024年02月11日
浏览(48)
【AI绘画】给我一句话，送你一幅画。

什么是AI绘画通俗的说，AI绘画就是AI通过学习训练出自己的思考模型，然后绘画。 AI绘画优劣势你可以把AI理解为一个天赋非凡的外国绘画神童优势（效率高）天赋非凡：绘画的速度非常快，效率非常高，图片也很精美不足（理解局限）外国：相对国内而言，训练模型

2024年02月09日
浏览(52)
一句话木马攻击复现：揭示黑客入侵的实战过程

这篇文章旨在用于网络安全学习，请勿进行任何非法行为，否则后果自负。准备环境 OWASP虚拟机 xfp 7与xshell 7 DVWA系统默认的账号密码均为：admin/admin 攻击payload 这个命令的目的是在服务器上创建一个名为 shell.php 的文件，其中包含 PHP 代码。让我们逐步分析该命令：

2024年02月11日
浏览(54)