唱歌就能画一幅图像？ #whisper-to-stable-diffusion-Toy模板网

这篇具有很好参考价值的文章主要介绍了唱歌就能画一幅图像？ #whisper-to-stable-diffusion。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

现在热门的不仅是多模态的文本图像生成，前阵子，OpenAI 发布了一个自动语音识别系统 Whispe 。在处理口音、背景噪声以及技术术语方面，Whisper 几乎达到了人类的水准。

那么将 Whisper 与 Stable Diffusion 结合，可以直接完成语音生成图像的任务。用户可以语音输入一个短句，Whisper 会自动将语音转化为文本，接着，Stable Diffusion 会根据文本生成图像。

步骤

第一步：录制音频或上传音频文件

唱歌就能画一幅图像？ #whisper-to-stable-diffusion,stable diffusion,语音识别,人工智能

图片来源：huggingface

第二步：检查语言输出，必要时进行更正

唱歌就能画一幅图像？ #whisper-to-stable-diffusion,stable diffusion,语音识别,人工智能

图片来源：huggingface

第三步：等待1~10秒，直到有稳定的扩散结果

唱歌就能画一幅图像？ #whisper-to-stable-diffusion,stable diffusion,语音识别,人工智能

图片来源：huggingface

简单概况一下，Whisper 是一个通用的语音识别模型，它是在各种音频的大型数据集上进行训练的，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Stable Diffusion 是一个通过文本生成图像的模型。

将它们们结合起来，你就可以通过语音来直接生成图像。

不如现在就试试看:

https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

唱歌就能画一幅图像？ #whisper-to-stable-diffusion,stable diffusion,语音识别,人工智能

社群，请添加客服文章来源地址https://www.toymoban.com/news/detail-603598.html

到了这里，关于唱歌就能画一幅图像？ #whisper-to-stable-diffusion的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

唱歌就能画一幅图像？ #whisper-to-stable-diffusion