视频生成: 基于Stable Diffusion的微调方法

这篇具有很好参考价值的文章主要介绍了视频生成: 基于Stable Diffusion的微调方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

    chatGPT带来了几个月的AIGC热度,文本图像生成模型大行其道,但AI在视频生成任务上尚没有较好的开源仓库,并受限于“缺那么几百块A100"的资源问题,大多数人无法展开视频生成的研究。好在目前有不少针对视频生成的相关paper,也有不少开源实现,事实上缺的是一个完整的训练+推理+Pretrained模型,本文要解决的就是这个问题。

    1. Stable Diffusion以及其中Unet结构,下图摘自论文: High-Resolution Image Synthesis with Latent Diffusion Models

视频生成: 基于Stable Diffusion的微调方法

    为了支持视频生成,需要对Unet结构中的部分模块进行改造,包括2d卷积以及Self-Attention和Cross-Attention。在许多的Stable Diffusion开源实现中,Tune A Video这篇论文的代码较为干净简洁,在利用Stable Diffusion V1-4权重作为pretrained,参考Make A Video利用3d伪引入空间信息,并且保留Tune A Video中关于Sparse Cross Attention的修改。

    2. 3d伪卷积引入时空相关信息,图片摘自Make A Video

    视频生成: 基于Stable Diffusion的微调方法

    代码实现引用lucidrains的make-a-video-pytorch,并且加入关于时空的Position Embedding部分。

    3. Sparse Casual Attention 

视频生成: 基于Stable Diffusion的微调方法

    出于节省运算量的目的,当前帧跟第一帧和当前帧的前一帧做Cross Attention,这个只是运算上的调整,Cross Attention结构并无修改。

    4. 3090如何训练

    大多数论文,训练视频生成都是采用8张A100做微调,或者利用成百上千的GPU进行大规模训练。对于咱穷人来说,只有两块3090,训练方法分步骤进行:

    a. 128x128

    b. 256x256,batch size单卡为4,grad accumulation设置为100

  5. 数据集

  视频数据集webvid, hdvila100m

  图片数据集laion400m

  我简单实验下来,加上图片数据集混合训练文本生成效果会更好一些。

  代码开源于: https://github.com/xuduo35/MakeLongVideo文章来源地址https://www.toymoban.com/news/detail-496658.html

到了这里,关于视频生成: 基于Stable Diffusion的微调方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于LoRA进行Stable Diffusion的微调

    本次微调使用的数据集为: LambdaLabs的Pokemon数据集 使用git clone命令下载数据集 数据集一共883条样本,包含两个部分:image(图)和 text(文),如下图所示。 微调时只需要使用以下命令运行 train_text_to_image_lora.py 文件即可。需要根据下载的路径文件地址对相应的参数进行修改

    2024年02月15日
    浏览(51)
  • CVPR 2023 | 用户可控的条件图像到视频生成方法(基于Diffusion)

    注1:本文系“计算机视觉/三维重建论文速递”系列之一,致力于简洁清晰完整地介绍、解读计算机视觉,特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介绍的论文是: CVPR 2023 | 用户可控的条件图

    2024年02月13日
    浏览(40)
  • 基于LoRA微调部署Stable Diffusion【免费试用阿里云】

    Stable Diffusion 是一种文本到图像的潜在扩散模型,由 Runway 和慕尼黑大学合作构建,第一个版本于 2021 年发布。目前主流版本包含 v1.5、v2和v2.1。它主要用于生成以文本描述为条件的详细图像,也应用于其他任务,如修复图像、生成受文本提示引导的图像到图像的转换等。 体验

    2024年02月13日
    浏览(96)
  • AI创作教程之从 Youtube平台视频剪辑生成新闻文章 基于OpenAI Whisper、OpenAI GPT3 和 Stable Diffusion

    在这篇文章中,我想展示如何借助不同的软件工具从 Youtube 上发布的新闻剪辑中全自动生成包含文本和图像的新闻文章。使用当前用于处理媒体数据的 AI 模型,例如 OpenAI Whisper、OpenAI GPT3 和 Stable Diffusion。 OpenAI Whisper 是最近发布的模型,用于将音频数据转换为具有前所未有质

    2024年02月11日
    浏览(165)
  • chatGPT生成stable diffusion 提示词

    # Stable Diffusion prompt 助理 你来充当一位有艺术气息的Stable Diffusion prompt 助理。 ## 任务 我用自然语言告诉你要生成的prompt的主题,你的任务是根据这个主题想象一幅完整的画面,然后转化成一份详细的、高质量的prompt,让Stable Diffusion可以生成高质量的图像。 ## 背景介绍 Stab

    2024年02月03日
    浏览(40)
  • stable diffusion扩展Deforum生成视频

    先要搭建sd webui环境, 然后进入界面 搜索Deforum,点击install等待安装即可,安装成功后重启webui,就能看到Deforum选项 此时,你可能会看到这个提示 ControlNet not found. Please install it :) 这是因为还需要另一个扩展 sd-webui-controlnet,方法同上 安装完重启webui红色提示就消失了 后面

    2024年02月11日
    浏览(43)
  • 〔022〕Stable Diffusion 之 生成视频 篇

    如果想将视频换成另一种风格,或者想将视频中的人物替换掉,可以使用 mov2mov 插件 插件地址: https://github.com/Scholar01/sd-webui-mov2mov 由于该插件未收录在扩展列表中,所以需要从网址安装

    2024年02月09日
    浏览(32)
  • 如何使用 ChatGPT 生成 Stable diffusion 提示词

    http://chat.xutongbao.top StableDiffusion是一款利用深度学习的文生图模型,支持通过使用提示词来产生新的图像,描述要包含或省略的元素。 我在这里引入StableDiffusion算法中的Prompt概念,又被称为提示符。 下面的prompt是用来指导AI绘画模型创作图像的。它们包含了图像的各种细节,

    2024年02月03日
    浏览(49)
  • AI 绘画 | Stable Diffusion 视频生成重绘

    本篇文章教会你如何使用Stable Diffusion WEB UI,实现视频的人物,或是动物重绘,可以更换人物或者动物,也可以有真实变为二次元。 视频展示 左边是原视频,右边是重绘视频 原视频和Ai视频画面合并 这里需要用到Stable Diffusion WEB UI的扩展插件ebsynth_utility。此扩展插件需要搭配

    2024年02月04日
    浏览(167)
  • Stable Diffusion + EbSynth + ControlNet 解决生成视频闪烁

    下载地址: 解压,配置环境变量 E:AIffmpegbin 检查是否安装成功 插件地址 https://github.com/s9roll7/ebsynth_utility 报错:ModuleNotFoundError: No module named \\\'extensions.ebsyynth_utility 将 目录 ebsyynth_utility-main 改为 ebsyynth_utility. 从官网下载,解压即可 Pip install transparent-background 该代码执行还需

    2024年02月16日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包