TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐)

这篇具有很好参考价值的文章主要介绍了TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 介绍

摘要:
介绍了一个以文本作为条件,生成高保真、长时间片的音乐音频。比如文本为“由扭曲的吉他重复段伴奏的平静的小提琴旋律”,MusicLM可以可以根据文本条件,生成24kHz采样率,分钟级别的连续音乐音频。
TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐),# 3.11 语音时序,人工智能,语音合成,AIGC
从摘要中可以得知,这篇文章解决的根本问题其实可以非常简单的形容,就是:

文本 -> 音乐

如果加上一些限制条件,那么这个问题可以补充为:

丰富的文本描述 -> 高保真的,长时间连续的音频

假如将这个问题交给普通人来解决,相信很多没有基本乐理知识的人,都很难根据特定的文本,创作出一段长达几分钟的乐曲。

算法模型与人相同的是,它也很难学会乐理知识;但是算法模型比人类强大的地方,在于强大的模仿能力,它可以通过大量的数据,模仿文本和对应音乐的关联。

从文章里面可以了解到,虽然可以设计模仿能力突出的算法模型,但是解决这个问题依然充满了挑战,主要集中在以下两方面:

  • 当前学术界的研究只能生成简单场景的短片段语音,因此将单文本转化为高保真和长时间连续的音乐片段具有很强的挑战
  • 缺乏丰富的“音乐-文本”结对的数据集

2. 背景

2.1 MuLan model

TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐),# 3.11 语音时序,人工智能,语音合成,AIGC
MuLanModel通过AudioEmbeding编码音频,通过TextEmbedding编码文本,将audio和text拉齐到同一维度空间,最后计算对比损失函数比较两者在同一维度空间的差别。

2.2 AudioLM

TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐),# 3.11 语音时序,人工智能,语音合成,AIGC
AudioLM使用SoundStream生成Acoustic tokens,用来合成高质量音频;
使用w2v-BERT生成Semantic tokens,用来维护音频的长期连续性。

TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐),# 3.11 语音时序,人工智能,语音合成,AIGC
分成3个阶段渐进式的合成声音:第1各阶段仅使用semantic tokens;第2个阶段使用semantic tokens + 粗糙的acoustic tokens合成音频; 第3个音频使用semantic tokens + fine acoustic tokens合成音频。

3. 方法

针对上面两个问题,作者首先制作了包含5千多条“音乐-文本“对应的MusicCaps数据集;然后通过下图的方式使用3个预训练模型,利用SoundStream保证高保真,w2v保证长时间连续,利用MuLan将文本和音频编码到同一个维度空间,使得二者具有可对比性
TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐),# 3.11 语音时序,人工智能,语音合成,AIGC

作者设计的模型如下图所示,模型结构分为两个阶段:
第一阶段是语义模型阶段,音频通过MuLan模型生成MuLan tokens, 然后通过语义模型映射为w2v-BERT的Semantic tokens;
第二阶段是声学模型阶段,将MuLan tokens和Semantic token一起输入声学模型,并映射为SoundStream的Acoustic tokens,为了保证长时间连续音频生成,生成过程是一个类似audioLM的coarse-to-fine阶段。
TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐),# 3.11 语音时序,人工智能,语音合成,AIGC文章来源地址https://www.toymoban.com/news/detail-519108.html

4. 结果

  • 两阶段建模的模型都是transformer-decoder only,24 layers, 16 attention heads,
  • MuLan使用的开源模型,使用 Free Music Archive (FMA) dataset 训练SoundStream and w2v-BERT;
  • AudioLM两阶段模型训练:five million audio clips(~280k hours)。semantic stage,随机裁剪30s音频;acoustic stage,随机裁剪10s音频;AudioLM细粒度的建模基于3s音频。

5. 评价

  • 没开源代码,无法论证真实性能和效果
  • 只是demo,和ChatGPT相比,距离商业化还有很大差距
  • 现在就差text-2-video了
    • AI text-2-essay
    • AI test-2-code
    • AI text-2-image
    • AI text-2-music
    • AI text-2-video

6. 参考

  • MusicLM demo page

到了这里,关于TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Prompt2Model: Generating Deployable Models from Natural Language Instructions

    本文是LLM系列文章,针对《 Prompt2Model: Generating Deployable Models from Natural Language Instructions》的翻译。 大型语言模型(LLM)使今天的系统构建者能够通过提示创建有能力的NLP系统,他们只需要用自然语言描述任务并提供几个例子。然而,在其他方面,LLM是传统的专用NLP模型的倒退

    2024年02月10日
    浏览(41)
  • PyTorch翻译官网教程-NLP FROM SCRATCH: GENERATING NAMES WITH A CHARACTER-LEVEL RNN

    NLP From Scratch: Generating Names with a Character-Level RNN — PyTorch Tutorials 2.0.1+cu117 documentation 这是我们关于“NLP From Scratch”的三篇教程中的第二篇。在第一个教程中 /intermediate/char_rnn_classification_tutorial 我们使用RNN将名字按其原始语言进行分类。这一次,我们将通过语言中生成名字。

    2024年02月13日
    浏览(44)
  • 本地AI text2img生成工具【类似midjourney】

    大家好,今天我要向大家推荐一款无需翻墙即可在本地生成图片的软件。这个软件可以在GitHub上找到。 我们可以点击code下载zip或者通过desktop进行下载。 下载完成后,它会生成一个目录 我们需要在电脑上配置两个环境才能运行这个脚本。 首先,我们需要下载Python 3.10.6,并配

    2024年02月16日
    浏览(48)
  • 【Flutter】flutter_tts 语音播放文本 Text-to-Speech

    在移动应用开发中,文本到语音(Text-to-Speech,简称 TTS)的功能越来越常见。它可以帮助我们实现语音播报、语音提示等功能,极大地丰富了应用的交互方式。 本文将介绍如何在 Flutter 中实现 TTS 功能,我们将使用一个名为 flutter_tts 的插件来完成这个任务。 本文的重点包括

    2024年02月08日
    浏览(66)
  • AIGC for code(text-to-codeAIGC/AI生成代码/生成式AI之代码生成/AI编程工具/自动编程/自动生成代码/智能编程工具/智能编程系统)

    AIGC,Artificial Intelligence Generated Content,人工智能生成内容 AIGC for code,AI生成代码 Copilot是由微软的子公司Github与openAI共同开发的人工智能(AI)驱动的编程助手。它能够直接在你的编辑器中,为你提供代码片段或者整个函数的建议,以帮助你更快地编写和完成代码。这个工具

    2024年02月15日
    浏览(58)
  • 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

    不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可

    2024年02月02日
    浏览(49)
  • DOA算法之DBF、CAPON、MUSIC、ROOT-MUSIC、ESPRIT、DML算法对比

    阵列信号处理算法应用领域涉及雷达、声纳、卫星通信等众多领域,其 主要目的就是对天线阵列接收到的信号进行处理,增强有用信号,抑制无用信号,以达到空域滤波的目的 ,最后提取回波信号中所包含的角度等信息。 DOA估计意思是波达角度估计,是指电磁波到达天线阵

    2024年02月06日
    浏览(122)
  • unitary MUSIC 算法

      论文 A Unitary Transformation Method for Angle-of-Arrival Estimation 中提出了 unitary MUSIC 的算法,直译就是酉 MUSIC 算法,即酉变换 MUSIC 算法。该算法的目的是简化计算复杂度,将传统 MUSIC 算法中的复数 SVD 和复数网格搜索计算转化为实数计算。在学习 unitary MUSIC 之前需要理解 Hermiti

    2024年02月20日
    浏览(39)
  • 【精选论文 | Capon算法与MUSIC算法性能的比较与分析】

    本文编辑:调皮哥的小助理 【正文】 首先说结论: 当信噪比(SNR)足够大时,Capon算法和MUSIC算法的空间谱非常相似,因此在SNR比较大时它们的性能几乎一样,当不同信号源的入射角度比较接近时,MUSIC算法的性能优于Capon,这也是MUSIC算法(或者说子空间类算法)被称为高分

    2024年02月11日
    浏览(64)
  • DoA 估计:多重信号分类 MUSIC 算法(附 MATLAB 代码)

    本文首次在公众号【零妖阁】上发表,为了方便阅读和分享,我们将在其他平台进行自动同步。由于不同平台的排版格式可能存在差异,为了避免影响阅读体验,建议如有排版问题,可前往公众号查看原文。感谢您的阅读和支持! DoA 估计 是指根据天线阵列的接收信号估计出

    2024年02月03日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包