如何使用LLM实现文本自动生成视频

这篇具有很好参考价值的文章主要介绍了如何使用LLM实现文本自动生成视频。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

推荐:使用 NSDT场景编辑器 助你快速搭建可二次编辑的3D应用场景

 

如何使用LLM实现文本自动生成视频,音视频,人工智能,深度学习

 

介绍

基于扩散的图像生成模型代表了计算机视觉领域的革命性突破。这些进步由Imagen,DallE和MidJourney等模型开创,展示了文本条件图像生成的卓越功能。有关这些模型内部工作的介绍,您可以阅读本文。

然而,Text-2-Video模型的开发提出了更艰巨的挑战。目标是在每个生成的帧之间实现连贯性和一致性,并保持从视频开始到结束的生成上下文。

然而,基于扩散的模型的最新进展也为文本2视频任务提供了广阔的前景。现在,大多数文本 2-视频模型在预先训练的文本 2-图像模型上采用微调技术,集成动态图像运动模块,并利用各种文本 2-视频数据集,如 WebVid 或 HowTo100M。

在本文中,我们的方法涉及利用HuggingFace提供的微调模型,该模型被证明有助于生成视频。

实现

先决条件

我们使用HuggingFace提供的Diffusers库,以及一个名为Accelerate的实用程序库,它允许PyTorch代码在并行线程中运行。这加快了我们的生成过程。

首先,我们必须安装依赖项并为代码导入相关模块。

pip install diffusers transformers accelerate torch

然后,从每个库中导入相关模块。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

创建管道

我们将ModelScope提供的Text-2-Video模型加载到HuggingFace中,在扩散管道中。该模型具有 1 亿个参数,基于 UNet7D 架构,该架构通过迭代去噪过程从纯噪声生成视频。它分为三部分。模型首先从简单的英语提示符中执行文本特征提取。然后将文本特征编码到视频潜在空间并进行去噪。最后,将视频潜在空间解码回视觉空间并生成短视频。

pipe = DiffusionPipeline.from_pretrained(
"damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")


pipe.scheduler = DPMSolverMultistepScheduler.from_config(
pipe.scheduler.config)


pipe.enable_model_cpu_offload()

此外,我们使用 16 位浮点精度来降低 GPU 利用率。此外,还启用了 CPU 卸载,可在运行时从 GPU 中删除不必要的部分。

生成视频

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

然后,我们将提示传递给视频生成管道,该管道提供一系列生成的帧。我们使用 25 个推理步骤,以便模型将执行 25 次去噪迭代。更多的推理步骤可以提高视频质量,但需要更多的计算资源和时间。

然后使用扩散器的实用程序功能组合单独的图像帧,并将视频保存在磁盘上。

然后,我们将提示传递给视频生成管道,该管道提供一系列生成的帧。然后使用扩散器的实用程序功能组合单独的图像帧,并将视频保存在磁盘上。

结论

足够简单!我们得到了蜘蛛侠冲浪的视频。虽然这是一个质量不高的短视频,但它仍然象征着这个过程的前景,它很快就会达到与Image-2-Text模型类似的结果。尽管如此,测试你的创造力和使用模型仍然足够好。

原文链接:如何使用LLM实现文本自动生成视频 (mvrlink.com)文章来源地址https://www.toymoban.com/news/detail-664361.html

到了这里,关于如何使用LLM实现文本自动生成视频的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自动生成文本内容怎么弄?推荐三个ai写作生成器

    随着人工智能技术的不断发展,ai写作生成器已经成为一种越来越受欢迎的文本创作工具。这些ai写作生成器可以快速生成高质量的文章、新闻报道、产品描述等文本内容,帮助我们提高工作效率和文本创作质量。那么,ai写作生成器有哪些呢?在本文中,我将为大家介绍几款

    2024年02月16日
    浏览(65)
  • 基于BERT-PGN模型的中文新闻文本自动摘要生成——文本摘要生成(论文研读)

    基于BERT-PGN模型的中文新闻文本自动摘要生成(2020.07.08) 针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT 和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERTPGN)。首先,

    2024年02月01日
    浏览(54)
  • SadTalker AI模型使用一张图片与一段音频便可以自动生成视频

    SadTalker模型是一个使用图片与音频文件自动合成人物说话动画的开源模型,我们自己给模型一张图片以及一段音频文件,模型会根据音频文件把传递的图片进行人脸的相应动作,比如张嘴,眨眼,移动头部等动作。 SadTalker,它从音频中生成 3DMM 的 3D 运动系数(头部姿势、表

    2024年02月17日
    浏览(46)
  • IDEA实现序列化时如何自动生成serialVersionUID

    实现步骤: 1.安装GenerateSerialVersionUID插件 2.点击idea左上角File - Settings - Editor - Inspections - 搜索 Serialization issues ,找到 Serializable class without ‘serialVersionUID’ -打上勾,再点击Apply-OK 3.重启idea 4.新建Class类,实现Serializable,选中对应的类名,按 alt+enter   出现添加serialVersionUID选项

    2024年02月19日
    浏览(44)
  • 帝国cms如何自动生成缩略图的实现方法

    最近苦于每次都要点击生成缩略图,无论你手工发布,还是采集而来,免不了要进行手工操作弄缩略图,不然标题图片没有,挺烦人的,那么有没有只需一次设定,就可以在文章编辑框里自动勾选生成缩略图,免除你次次进行操作的麻烦,今天春哥技术博客就来分享一下设置

    2024年02月03日
    浏览(72)
  • 教你如何使用pr语音自动生成字幕,pr自动识别声音添加字幕

    说到pr语音自动生成字幕,还是需要的用到Speech to Text for Premiere Pro 2022插件,这是一个pr语音自动生成字幕插件,可以自动生成序列的脚本并为视频创建可自定义的字幕,而且支持13种语言,需要的可以试试。 1、下载好Speech to Text for Premiere Pro 2022插件解压包,然后安装 2、安装

    2024年02月04日
    浏览(55)
  • 自动驾驶采集多视角图像处理(python实现不同文件夹下同名图片批量拼接并生成视频)

    目录 1.图像拼接 2.合成视频 2.1 cv2.videowriter_fourcc功能介绍 2.2读取图片合成视频 实现目标:将自动驾驶车6个摄像头采集到的图片,按照正确顺序拼接显示,nuScenes数据集测试如下: 图像存放文件夹目录如下: 每个目录下有相同名称,不同视角采集到的图像 。 先显示图片,代

    2024年01月18日
    浏览(66)
  • 基于GPT2_Chinese文本自动生成

    基于 GPT2-Chinese 模型的中文文本生成项目,可用于中文生成任务。 当下市面上很多文本自动生成业务都是基于该模型二次开发的,可以很少有那种特定垂直领域的模型用于该领域的创作,也就导致大家在使用类似产品的时候会发现很多的问题,这种问题多数会导致写出来的文

    2024年02月03日
    浏览(41)
  • 20221125使用PR2023自动识别obs-studio录屏生成的MKV视频的字幕

    20221125使用PR2023自动识别obs-studio录屏生成的MKV视频的字幕 2022/11/25 19:07 01 obs.png obs studio (64bit)   02 obs 设置.png   03 obs 输出.png   04 obs默认为MKV.png   05 obs改mkv为MP4.png 警告:如果文件无法完成(例如,由于蓝屏BSOD,掉电等),保存到MP4/MOV的记录将无法恢复。如果要录制多个

    2023年04月21日
    浏览(50)
  • 抖音自动生成视频、字幕、自动上传发布

    点击进入https://github.com/Richard0403/dy-auto https://github.com/Richard0403/dy-auto/assets/14147304/21400a42-9296-4956-9517-ced8d8bf4737 名称 功能 ffmpeg 处理视频的生成,语音添加,字幕的添加等 微软SpeechStudio 文字合成语音 whisper 语音生成字幕 jieba3k 用于文案的提取 playwright 用于自动化操作 环

    2024年02月08日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包