霉霉演唱《稻香》,国内团队的Amphion音频生成火了

这篇具有很好参考价值的文章主要介绍了霉霉演唱《稻香》,国内团队的Amphion音频生成火了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

来源 | 机器之心   ID | almosthuman2014

2022 年被称为 AIGC 元年,ChatGPT、Stable Diffusion、MidJourney 为代表的文字、图像应用带火了 AI 领域。2023 年,AI 孙燕姿、AI 郭德纲、音效生成、音乐生成也在社交媒体上火了一把。

今天,我们还能听到泰勒 · 斯威夫特唱周杰伦的稻香。

,时长01:03

这看似简单,但实际上背后的技术十分复杂,也正是由于音频领域的领域知识壁垒,工程师们上手并不容易。

近日,香港中文大学(深圳)数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个面向科研群体及刚进入或想要进入该领域的工程师的,集语音合成及转换、歌声合成及转换、音效及音乐生成等多功能为一体的开源平台。目前,该研究已经在海外社交平台上引发了极大的关注。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

  • 项目地址: https://github.com/open-mmlab/Amphion

  • 论文地址:https://arxiv.org/abs/2312.09911

OpenMMLab 在 AI 领域无人不知,是目前最具国际影响力的计算机视觉开源算法体系,在 GitHub 上获得超过 9 万星标,用户遍及全球 140 个国家和地区。联合实验室兄弟团队推出了性能领先的千亿级参数大语言模型 “书生・浦语”(InternLM),并建设了首个面向大模型研发与应用的全链条开源体系。该团队的研究成果还包括社区内规模最大、覆盖领域最完整的大模型评测平台 OpenCompass,推理性能领先的大模型推理框架 LMDeploy 等。

这是 OpenMMLab 第一次涉足音频与语音领域,相信这次开源会给多模态生成带来了更多的想象空间。在没有公开宣传之前,Amphion 已经数次进入 GitHub Trending Repositories 榜单。可以说,Amphion 一出生就自带光环。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

Amphion

Amphion 是一个综合的音频生成平台。该项目涵盖多种经典的音频生成任务,如语音合成、语音转换、歌声合成、歌声转换、音效生成、音乐生成、语音增强,以及多元的 AIGC 音频任务,诸如多模态控制的音效生成和音乐生成。Amphion 独有的可视化功能可以帮助初级研究人员和工程师更好地理解相关模型,从而协助初级研究人员和工程师在音频、音乐和语音生成等方面实现可持续的研究与开发。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

Amphion 技术报告详细对比了 Amphion 的一些任务和算法与 GitHub 上较受欢迎的开源系统在性能上的异同。总体来说,Amphion 用一个系统达到甚至超过了 GitHub 上相关任务多个热门系统。

SVC:歌声转换

对很多人来说,“歌声转换” 这个词可能比较陌生,但是不少人都应该听说过今年爆火的 “AI 孙燕姿”。“AI 孙燕姿” 背后的技术正是歌声转换。

通俗来说,歌声转换技术就是通过 AI 技术,把一个人唱歌的声音音色转变得听起来像另外一个人的技术。这一过程通常牵涉到信号处理、机器学习、深度学习等算法。Amphion 系统集成了经典的特征提取模型。除了集成了经典的扩散模型、VITS 模型外,还集成了来自大名鼎鼎的 OpenAI 的 Whisper 模型。为了得到好的音质,Amphion 集成了 BigVGAN、HiFi-GAN、DiffWave 等主流声码器。同时,Amphion 的声码器还集成了港中大(深圳)的最新成果。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

 Amphion 的技术报告里的主观评测显示,Amphion 在自然度和相似度上均超过了之前流行的 So-VITS-SVC 系统。目前,Amphion 的特征设计已被 So-VITS-SVC 5.0 系统借鉴。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

TTS:语音生成

语音生成即文语生成,指的是将文字输入转成相应的语音输出的技术。当前,该模块主要采用了深度学习技术,将文本转换成自然流畅的高拟真度的语音。该技术在有声电子书、视频配音等方面有广泛的应用。Amphion 系统实现了经典的 FastSpeech2 模型、VITS 模型等,以及最新流行的 zero-shot 语音合成技术,即 Vall-E,NaturalSpeech2。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

Amphion 的技术报告显示,在客观指标和主观指标上,Amphion 均达到乃至超越了当前最受关注的开源系统的水平。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

TTA:音频生成

文本驱动的生成模型在图像和视频领域均已取得显著成果。在图像领域,Stable Diffusion 和 MidJourney 已经可以生成高质量的图像;而在音频领域,文本到音频的生成模型必将对许多与创作相关的行业必将产生积极深远的影响。例如,游戏开发者或电影配音人员可以利用这项技术,根据特定的需求生成音效,而不必在庞大的音频效果数据库中进行搜索及编辑,从而提高生产效率。

Amphion 集成了当下最主流的文本驱动的音频生成模型架构,即基于 VAE Encoder、Decoder 和 Latent Diffusion 的文本驱动的音频生成算法。在该架构下,Latent Diffusion 扩散模型以 T5 编码后的文本为输入,根据文本的指引生成对应的音频效果。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

Amphion 的技术报告的客观指标显示,Amphion 在 TTA 任务上达到了领先的技术水平。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

Vocoder:声码器

声码器(Vocoder)是音频、语音生成最重要的一个模块,也是确保声音合成质量的关键。Amphion 集成了 BigVGAN、HiFi-GAN、DiffWave 等主流声码器,也集成了港中大(深圳)最新发表的成果。

Amphion 的技术报告表明,Amphion 中的 HiFi-GAN 声码器在客观指标上均超过当前热门的开源工具。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

可视化

与传统的语音、音频开源工具不同,Amphion 提供了可视化功能。Amphion 团队希望可视化功能能让初学者更好地理解模型的原理和细节。目前,Amphion 团队提供了扩散模型的可视化截图。该功能通过扩散模型在歌声转换上的可视化,形象地呈现出一位歌手模仿另外一位歌手的渐变过程。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

Amphion 团队

负责人:武执政博士

武执政博士现任香港中文大学(深圳)副教授。他曾入选国家级青年人才,连续多次入选斯坦福大学 “全球前 2%顶尖科学家”、爱思唯尔 “中国高被引学者” 榜单。他于 2015 年获得南洋理工大学博士学位,并先后在 Meta(原 Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等多个机构从事学术研究和技术领导工作。武执政博士带领开发了语音合成开源系统 Merlin,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,并组织了 2019 年语音合成国际评测(Blizzard Challenge 2019),曾获得 INTERSPEECH 2016 最佳学生论文奖、2012 年亚太信号与信息处理协会年度峰会最佳论文奖。他现在是 IEEE 语音与语言处理技术委员会委员,语音领域权威期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing 的 Associate Editor,IEEE Spoken Language Technology Workshop 2024 的大会主席,曾受邀在 ICASSP 2022、ISCA SPSC Workshop、IJCAI 2023 DADA Workshop 等权威学术会议做特邀报告。

核心成员

Amphion 团队核心都是港中大(深圳)学生,他们的背景都相当亮眼,是妥妥的 “别人家的团队”。

共一张雪遥刚刚博二,他的文章却已经被谷歌学术引用数百次,且在 2023 年入选了全国仅 55 人的腾讯犀牛鸟精英人才计划;共一王远程带一作顶会 NeurIPS 直博入学港中大(深圳);共一薛浏蒙博士有微软、腾讯、京东等多家大厂的实习经历。

值得一提的是,Amphion 核心成员中还有两位港中大(深圳)大二学生。共一顾毅骋包揽了 Amphion 中声码器(vocoder)的所有代码,他大一入学三周即进组科研,大二第一学期即手握语音领域顶级会议文章;大二学生王超人也是人如其名,一个人包揽 Amphion 可视化部分的所有代码,而且他的个人开源系统在 GitHub 上已收获数千颗星。

Amphion 名字背后的含义

"Amphion" 取名自古希腊神话中传奇音乐家 Amphion。传说中,Amphion 以弹奏竖琴而著称,并运用他的音乐才能建造了底比斯城墙。据说他的琴声能感动树木和岩石。Amphion 团队希望借用安菲翁的音乐天赋和传奇,畅想项目助力科研和开发的美好愿景,擘画声音科技逐步迈向可持续发展的美好蓝图。

霉霉演唱《稻香》,国内团队的Amphion音频生成火了,音视频

Amphion 在线 Demo 体验链接:

  • Text to Speech

    • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Speech

    • OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/Text-to-Speech

  • Singing Voice Conversion

    • HuggingFace Space: https://huggingface.co/spaces/amphion/singing_voice_conversion

    • OpenXLab应用: https://openxlab.org.cn/apps/detail/Amphion/singing_voice_conversion

  • Text to Audio

    • HuggingFace Demo: https://huggingface.co/spaces/amphion/Text-to-Audio

    • OpenXLab应用:  https://openxlab.org.cn/apps/detail/Amphion/Text-to-Audio文章来源地址https://www.toymoban.com/news/detail-774962.html

到了这里,关于霉霉演唱《稻香》,国内团队的Amphion音频生成火了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品

    论文:FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio,https://arxiv.org/abs/2403.01901         本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该

    2024年03月16日
    浏览(39)
  • 国内几款常用热门音频功放芯片-低功耗、高保真

    音频功放芯片,又称为音频功率放大器芯片,是指一种将音频信号转换成线性的输出功率的集成电路芯片,在音频功放领域中一类是传统意义上的模拟功放;另一类是数字功放,它们都可以实现模拟信号到数字信号的转换。 随着智能手机、汽车音频、AI智能音箱,智能家居、

    2024年02月13日
    浏览(38)
  • 用Rust生成Ant-Design Table Columns | 京东云技术团队

    经常开发表格,是不是已经被手写Ant-Design Table的Columns整烦了? 尤其是ToB项目,表格经常动不动就几十列。每次照着后端给的接口文档一个个配置,太头疼了,主要是有时还会粘错就尴尬了。 那有没有办法能自动生成columns配置呢? 当然可以。 目前后端的接口文档一般是使用

    2024年02月15日
    浏览(32)
  • [论文精读] 使用扩散模型生成真实感视频 - 【李飞飞团队新作,文生视频 新基准】

    论文导读: 论文背景:2023年12月11日,AI科学家李飞飞团队与谷歌合作,推出了视频生成模型W.A.L.T(Window Attention Latent Transformer)——一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的扩散模型。李飞飞是华裔女科学家、世界顶尖的AI专家,现为美国国家工程院

    2024年02月03日
    浏览(51)
  • Mistral 欧洲最强模型团队的野望;国内大模型都是套壳LLaMA?Claude官方提示词教程-中英双语;AI原生应用难产了;AI Agents实践经验 | ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! https://www.businessinsider.com/openai-cofounder-ilya-sutskever-invisible-future-uncertain-2023-12 OpenAI 内部「政变」余波仍在,除了陆续爆出的 Sam Altman 各类负面信息,前首席科学家 Ilya Sutskever 的终局也格外牵动人心

    2024年02月04日
    浏览(48)
  • 5个国内优秀的AI绘画工具,一句话就能生成精美图片,太厉害了_国内ai生成图片

    先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7 深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前! 因此收集整理了一份《2024年最新Python全套学习资料》,初

    2024年04月25日
    浏览(41)
  • 使用whisper生成音频字幕——前期准备

    最近我们要写一个把没有字幕的音频生成字幕的APP,前期调研的很多方式,使用whisper可以实现,这篇文章就是说一些前期准备工作,我就不自己再写一篇了,参考以下两篇文章就行了。 whisper安装下载和python环境的准备 安装过程中踩过的坑

    2024年02月11日
    浏览(43)
  • AICG,人工智能自动生成内容——根据文本生成图像,视频,音频

    1、什么是AICG? 什么是AICG? AICG是指人工智能自动生成内容。 通过算法模型,将文本转化为图像、音频、视频等多种形式。 在数字时代,AICG已经成为各种领域中不可或缺的一部分。 AICG的应用场景 AICG在数字营销、广告制作、电影制作等领域广泛应用。 可以用于教育、娱乐

    2024年02月14日
    浏览(51)
  • 斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断

    原文链接:https://www.techbeat.net/article-info?id=4583 作者:seven_ 随着以ChatGPT等大型语言模型(large language models,LLMs)的爆火, 学界和工业界目前已经开始重视这些模型的安全性 ,由于ChatGPT强大的 知识存储和推理能力 ,其目前可以针对各种各样的用户输入来产生非常流畅和完整

    2024年02月09日
    浏览(51)
  • SadTalker(CVPR2023)-音频驱动视频生成

    论文: 《SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation》 github: https://github.com/Winfredy/SadTalker 演示效果: https://www.bilibili.com/video/BV1fX4y1675W 利用一张面部图片及一段音频让其变为一段讲话的视频仍然存在许多挑战: 头部运动不自然、

    2023年04月18日
    浏览(87)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包