Stability AI发布基于稳定扩散的音频生成模型Stable Audio

这篇具有很好参考价值的文章主要介绍了Stability AI发布基于稳定扩散的音频生成模型Stable Audio。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

近日Stability AI推出了一款名为Stable Audio的尖端生成模型,该模型可以根据用户提供的文本提示来创建音乐。在NVIDIA A100 GPU上Stable Audio可以在一秒钟内以44.1 kHz的采样率产生95秒的立体声音频,与原始录音相比,该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。

架构

Stability AI发布基于稳定扩散的音频生成模型Stable Audio,人工智能,音视频,深度学习,稳定扩散

自动编码器(VAE),一个文本编码器和U-Net扩散模型。VAE通过获取输入音频数据并表示为保留足够信息用于转换的压缩格式,因为使用了卷积结构,所以不受描述音频编解码器的影响,可以有效地编码和解码可变长度的音频,同时保持高输出质量。

文本提示通过预先训练的文本编码器(称为CLAP)无缝集成。这个编码器是使用精心策划的数据集从头开始构建的,可以保留了文本特征包含了足够的信息,可以在单词和相应的声音之间建立有意义的联系。从CLAP编码器的倒数第二层提取的这些文本特征,然后通过U-Net的注意力层进行引导。

为了生成用于时间嵌入的音频片段,需要计算两个关键参数:片段的起始时间(以秒为单位)(称为“seconds_start”)和原始音频文件的总持续时间(以秒为单位)(称为“seconds_total”)。这些值被转换成离散学习的嵌入,在输入到U-Net的注意层之前与查询令牌连接。在推理阶段,这些值作为条件允许用户指定所需的最终音频输出长度。

Stable Audio中的扩散模型是一个U-Net架构,具有强大的9.07亿个参数,灵感来自Moûsai 模型。它结合残差层、自注意力层和交叉注意力层,基于文本和时间嵌入对输入数据进行有效降噪。

数据集

Stable Audio在包含超过80万个音频文件的广泛数据集上进行了训练。这个多样化的集合包括音乐、音效、乐器样本及其相关的文本元数据,总时长超过19,500小时。这个广泛的数据集是通过与音乐库AudioSparx的合作而提供的。

总结

Stability AI的Stable Audio AI模型标志着人工智能驱动的听觉创造力的重大飞跃。它为音乐和声音爱好者打开了新的视野。在未来还会提供进一步增强模型、数据集和训练技术的体系结构,发布基于Stable Audio的开源模型,并将提供必要的代码,以方便定制音频内容生成模型的训练。

项目的官方网站:

https://avoid.overfit.cn/post/86c750a6534b4cd380c94d3301fcf1bd文章来源地址https://www.toymoban.com/news/detail-726902.html

到了这里,关于Stability AI发布基于稳定扩散的音频生成模型Stable Audio的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 番外篇Diffusion&Stable Diffusion扩散模型与稳定扩散模型

    本篇文章为阅读笔记,,主要内容围绕扩散模型和稳定扩散模型展开,介绍了kl loss、vae模型的损失函数以及变分下限作为扩展部分。扩散模型是一种生成模型,定义了一个逐渐扩散的马尔科夫链,逐渐项数据添加噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。稳

    2024年02月03日
    浏览(38)
  • 探索创意之路:稳定扩散AI绘画指南

    稳定扩散AI绘画是一种基于人工智能技术的图像生成方法,利用深度学习算法,特别是生成对抗网络(GANs),来生成高质量的绘画作品。

    2024年02月12日
    浏览(35)
  • 【AI绘画】AI绘画乐趣:稳定增强扩散技术展现

    本文将借助stable-diffusion-webui项目来展示AI绘画的乐趣,stable-diffusion-webui项目是一个基于稳定增强扩散技术的Web界面应用,使得普通用户也能够轻松探索AI绘画的乐趣。使用该项目,用户可以上传自己的图像,然后选择特定的风格或主题,AI系统将利用稳定增强扩散技术进行图

    2024年02月16日
    浏览(33)
  • 【CV】稳定扩散模型(Stable Diffusion)

      🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​ 📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】 ​​  🖍foreword

    2024年02月09日
    浏览(39)
  • Meta开源AI音频和音乐生成模型

    在过去的几年里,我们看到了AI在图像、视频和文本生成方面的巨大进步。然而,音频生成领域的进展却相对滞后。MetaAI这次再为开源贡献重磅产品:AudioCraft,一个支持多个音频生成模型的音频生成开发框架。 AudioCraft开源地址 开源地址:https://github.com/facebookresearch/audiocraf

    2024年02月14日
    浏览(27)
  • 【Blender】Stability AI插件 - AI生成图像和动画

    Stability AI 的官方插件允许 Blender 艺术家使用现有的项目和文本描述来创建新的图像、纹理和动画。 推荐:用 NSDT场景设计器 快速搭建3D场景。 首先,从这里下载最新版本的 Blender,然后转到 Addon Releases 页面。 单击“stability-blender-addon”链接(而不是源代码链接): 或者,你

    2024年02月12日
    浏览(23)
  • 【CVPR 2023的AIGC应用汇总(4)】图像恢复,基于GAN生成对抗/diffusion扩散模型方法...

    【CVPR 2023的AIGC应用汇总(1)】图像转换/翻译,基于GAN生成对抗/diffusion扩散模型方法 【CVPR 2023的AIGC应用汇总(2)】可控文生图,基于diffusion扩散模型/GAN生成对抗方法 【CVPR 2023的AIGC应用汇总(3)】GAN改进/可控生成的方法10篇 本文研究JPEG图像恢复问题,即加密比特流中的比特错误。

    2024年02月06日
    浏览(43)
  • 稳定扩散美学梯度(Stable Diffusion Aesthetic Gradients):一种创新的图像生成技术...

    项目地址:https://gitcode.com/vicgalle/stable-diffusion-aesthetic-gradients 如果你对艺术、人工智能和计算机视觉有热情,那么你一定不能错过 Vicgalle\\\'s Stable Diffusion Aesthetic Gradients项目。这个开源项目利用深度学习算法生成具有艺术感的渐变图像,其独特之处在于能够模仿各种艺术风格。

    2024年04月24日
    浏览(31)
  • Amazon Generative AI 新世界 | 基于 Amazon 扩散模型原理的代码实践之采样篇

    以前通过论文介绍 Amazon 生成式 AI 和大语言模型(LLMs)的主要原理之外,在代码实践环节主要还是局限于是引入预训练模型、在预训练模型基础上做微调、使用 API 等等。很多开发人员觉得还不过瘾,希望内容可以更加深入。因此,本文将讲解基于扩散模型原理的代码实践,

    2024年02月06日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包