基于SadTalker的AI主播,Stable Diffusion也可用

这篇具有很好参考价值的文章主要介绍了基于SadTalker的AI主播,Stable Diffusion也可用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基于之前的AI主播的的学习基础 基于Wav2Lip的AI主播 和 基于Wav2Lip+GFPGAN的高清版AI主播,这次尝试一下VideoRetalking生成效果。

总体来说,面部处理效果要好于Wav2Lip,而且速度相对于Wav2Lip+GFPGAN也提升很多,也支持自由旋转角度,但是如果不修改源码的情况下,视频的部分截取稍微有点问题。

这个训练图片还好,如果是做视频的话还是比较吃GPU资源的 16G显存是个起步配置。

准备工作

从github上下载源码,下载完毕之后下载模型 SadTalker v0.0.1 Release Note。

模型分这么多种类,如果使用哪个模型将该文件夹下的内容复制到 checkpoints 中。
基于SadTalker的AI主播,Stable Diffusion也可用

环境配置

首先要自己配置好 GPU 的 Pytorch 环境。如果不会的话看这里。

Win10+Python3.9+GPU版pytorch环境搭建最简流程

配置环境之后需要基于 Anaconda 环境,环境不会安装看这里。

Python初学者在不同系统上安装Python的保姆级指引

创建虚拟环境

为了不必要的麻烦,在你的虚拟环境下创建 python3.7.1 其他版本多少都有些问题,不好解决,必须保持网络畅通否则安装不成功。

conda create -n Wav2Lip python=3.6

激活虚拟环境

这里是我的路径,修改成你自己的。

conda create -n SadTalker python=3.8
conda activate SadTalker

pip安装匹配版本

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install ffmpy Cmake boost dlib-bin # [dlib-bin is much faster than dlib installation] conda install dlib 
pip install -r requirements.txt

这里需要安装 gfpgan,一般安装方法有点难受可能不会成功,直接自己在python的包的文件夹下克隆好了进行安装吧。

git clone https://github.com/TencentARC/GFPGAN.git

python setup.py install 

关于 pytorch 如果你不会配置的话看这里。

Win10+Python3.9+GPU版pytorch环境搭建最简流程

模型预测对口型

这里测试了几次之后才发现 Wav2Lip 是根据声音的波形对齐口型的,并不是我开始认为的按照表达的文字模式。

必要的数据准备

事先还要准备好背景图片和音频文件,这里分别放置原始的图片,音频以及视频文件。

基于SadTalker的AI主播,Stable Diffusion也可用
基于SadTalker的AI主播,Stable Diffusion也可用

图片、视频预测

代码格式。

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 or picture.png> \
                    --batch_size <default equals 2, a larger run faster> \
                    --expression_scale <default is 1.0, a larger value will make the motion stronger> \
                    --result_dir <a file to store results> \
                    --enhancer <default is None, you can choose gfpgan or RestoreFormer>

常用命令。

python inference.py --driven_audio input/audio/kimk_7s_raw.mp3 --source_image input/video/kimk_7s_raw.mp4 --result_dir output/ --enhancer gfpgan

参数说明

--driven_audio:输入的音频文件路径。
--source_image:输入的图像文件路径,支持音频文件和视频MP4格式。
--checkpoint_dir:模型存放路径。
--result_dir:数据导出路径。
--pose_style:输入的姿势,0-45可选。
--batch_size:数值越大消耗越大,速度越快。
--expression_scale:运动性更强,这个不要动,人物会很鬼畜。
--camera_yaw:摄像机偏航度。
--camera_pitch:摄像机俯仰角度。
--camera_roll:摄像机滚转程度
--enhancer:高清模型,选择gfpgan或RestoreFormer
--cpu:是使用,无视吧。

有趣的操作

可以提供过摄像机角度的参数进行旋转操作。

Stable Diffusion 使用方法

手动在SD中安装拓展包。

https://github.com/Winfredy/SadTalker

基于SadTalker的AI主播,Stable Diffusion也可用
这里显示安装已经完成。

在你的sd文件夹下将之前下载好的模型 checkpoints 目录复制到该SD目录下扩展的 SadTalker 目录下即可,红色的文件必须是压缩包解压缩后的状态。

基于SadTalker的AI主播,Stable Diffusion也可用
重启你的SD之后会出现对应的选项卡,无脑操作即可。
基于SadTalker的AI主播,Stable Diffusion也可用

【分享】SadTalker

百度网盘
夸克网盘 提取码:Av5Z文章来源地址https://www.toymoban.com/news/detail-422118.html

到了这里,关于基于SadTalker的AI主播,Stable Diffusion也可用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Stable Diffusion 使用 SadTalker 生成图片数字人

    Heygen和D-ID等照片转视频的工具,都需要在线付费使用。本次介绍一个SadTalker数字人。SadTalker有多种使用方式,包括完整安装程序和stable diffusion插件模式。安装程序操作较繁琐,因此推荐stable diffusion插件模式。 打开SD进入扩展复制链接 https://github.com/OpenTalker/SadTalker.git 到安装

    2024年02月13日
    浏览(78)
  • SadTalker:让stable diffusion人物说话的创新工具

    SadTalker是一个GitHub项目,能够根据图片和音频合成面部说话的视频。现已支持stable diffusion webui,可以结合音频合成面部说话的视频。本文详细介绍了安装过程和使用教程。

    2024年02月08日
    浏览(57)
  • 腾讯云GPU服务器部署Ai绘画Stable Diffusion 小白可用

    本人本地是个win10的PC 安装了 显示GPU 算力不够,升级配置也需要钱 云服务商的选择上,很普通,大家随意选择腾讯云/阿里云/移动云/华为云…都可以。我是之前用的腾讯云,在腾讯云上抢的GPU云服务器(https://cloud.tencent.com/act/cps/redirect?redirect=36105cps_key=b77af5ec25020b228a8230a227

    2023年04月21日
    浏览(60)
  • 尝试着在Stable Diffusion里边使用SadTalker进行数字人制作

    首先需要标明的是,我这里是图片说话类型,而且是看了知识星球AI破局俱乐部大航海数字人手册进行操作的。写下这篇文章是防止我以后遗忘。 我使用的基础软件是Stable Diffusion,SadTalker是作为插件放进来的,需要注意的是这对自己的电脑GPU要求比较高,至少需要8G,至少我

    2024年04月09日
    浏览(47)
  • 解决 TypeError: save_pil_to_file(stable diffusion使用sadtalker 插件)

    在使用Stable Diffusion时,您可能会遇到使用SadTalker插件时出现的报错问题。其中,常见的报错是TypeError: save_pil_to_file() got an unexpected keyword argument ‘format’ 报错如下: 1、在Stable Diffusion安装目录下,找到 requirements_versions.txt文件 2、替换 gradio 的版本为 gradio==3.31.0 3、当启动Sta

    2024年02月13日
    浏览(36)
  • AIGC绘画:基于Stable Diffusion进行AI绘图

    AIGC深度学习模型绘画系统 stable diffusion简介 Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词(英语)指导下产生图生图的翻译。 Stable Diffusion主要用于

    2024年02月12日
    浏览(63)
  • AI绘画基于 Kaggle 10 分钟搭建 Stable Diffusion(保姆级教程)

    当前最火的、也是日常绘画最常用两个 AI 绘画工具就属 Midjourney 和 Stable Diffusion 了。 而相对于 Midjourney(基础版也要 $10 / month)来说,Stable Diffusion 最大的好处就是: 完全免费! (免费啊,宝子们) 完全开源! 但是 Stable Diffusion 的 安装部署比较复杂 ,而且 对电脑配置要求

    2024年02月11日
    浏览(63)
  • 视觉族: 基于Stable Diffusion的免费AI绘画图片生成器工具

    视觉族是一款基于Stable Diffusion文生图模型的免费在线AI绘画图片生成器工具,可以使用提示快速生成精美的艺术图片,支持中文提示。无论你是想要创作自己的原创作品,还是想要为你的文字增添一些视觉效果,视觉族都可以帮助你实现你的想象。 网址链接:https://

    2024年02月09日
    浏览(66)
  • 借助 ControlNet 生成艺术二维码 – 基于 Stable Diffusion 的 AI 绘画方案

    背景介绍 在过去的数月中,亚马逊云科技已经推出了多篇博文,来介绍如何在亚马逊云科技上部署 Stable Diffusion,或是如何结合 Amazon SageMaker 与 Stable Diffusion 进行模型训练和推理任务。 为了帮助客户快速、安全地在亚马逊云科技上构建、部署和管理应用程序,众多合作伙伴与

    2024年02月08日
    浏览(51)
  • 新书速览|AI创意绘画与视频制作:基于Stable Diffusion和ControlNet

    带你创作更高品质的图像与动画,释放无限创意,探密更前沿的AI绘画技巧 本书内容 《AI创意绘画与视频制作:基于Stable Diffusion和ControlNet》将带领读者探索AI绘画和短视频创作的奇妙世界。本书详细介绍 Stable Diffusion的基本概念、原理及其主要功能 的使用,阐述如何使用提示

    2024年01月20日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包