Stability AI发布基于稳定扩散的音频生成模型Stable Audio

这篇具有很好参考价值的文章主要介绍了Stability AI发布基于稳定扩散的音频生成模型Stable Audio。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

近日Stability AI推出了一款名为Stable Audio的尖端生成模型，该模型可以根据用户提供的文本提示来创建音乐。在NVIDIA A100 GPU上Stable Audio可以在一秒钟内以44.1 kHz的采样率产生95秒的立体声音频，与原始录音相比，该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。

架构

Stability AI发布基于稳定扩散的音频生成模型Stable Audio,人工智能,音视频,深度学习,稳定扩散

自动编码器(VAE)，一个文本编码器和U-Net扩散模型。VAE通过获取输入音频数据并表示为保留足够信息用于转换的压缩格式，因为使用了卷积结构，所以不受描述音频编解码器的影响，可以有效地编码和解码可变长度的音频，同时保持高输出质量。

文本提示通过预先训练的文本编码器(称为CLAP)无缝集成。这个编码器是使用精心策划的数据集从头开始构建的，可以保留了文本特征包含了足够的信息，可以在单词和相应的声音之间建立有意义的联系。从CLAP编码器的倒数第二层提取的这些文本特征，然后通过U-Net的注意力层进行引导。

为了生成用于时间嵌入的音频片段，需要计算两个关键参数:片段的起始时间(以秒为单位)(称为“seconds_start”)和原始音频文件的总持续时间(以秒为单位)(称为“seconds_total”)。这些值被转换成离散学习的嵌入，在输入到U-Net的注意层之前与查询令牌连接。在推理阶段，这些值作为条件允许用户指定所需的最终音频输出长度。

Stable Audio中的扩散模型是一个U-Net架构，具有强大的9.07亿个参数，灵感来自Moûsai 模型。它结合残差层、自注意力层和交叉注意力层，基于文本和时间嵌入对输入数据进行有效降噪。