VALL-E:微软全新语音合成模型可以在3秒内复制任何人的声音

这篇具有很好参考价值的文章主要介绍了VALL-E:微软全新语音合成模型可以在3秒内复制任何人的声音。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

近日,微软研究人员宣布了一种新的语音合成AI模型 VALL-E,给出3秒样音就可以精确地模拟一个人的声音。一旦它学会了一个特定的声音,VALL-E可以复制说话者的情绪和语气,即使说话者本人从未说过的单词也可以模仿。

论文地址:

https://arxiv.org/pdf/2301.02111.pdf

VALL-E:微软全新语音合成模型可以在3秒内复制任何人的声音

它的创建者推测,VALL-E可用于高质量的文本转语音应用程序、语音编辑,其中可以编辑一个人的录音并从文本转录中更改(让他们说出他们最初没有说的话),以及与其他生成AI模型(如GPT-3)结合使用时的音频内容创建。

GPT-3:

https://arstechnica.com/information-technology/2022/11/openai-conquers-rhyming-poetry-with-new-gpt-3-update/

微软称VALL-E为“神经编解码器语言模型”,它建立在Meta于2022年10月宣布的一项名为EnCodec的技术之上(https://arstechnica.com/information-technology/2022/11/metas-ai-powered-audio-codec-promises-10x-compression-over-mp3/)。与其他通常通过操作波形合成语音的文本转语音方法不同,VALL-E从文本和声学提示生成离散音频编解码器代码。它基本上分析一个人的声音,通过EnCodec将这些信息分解成离散的组件(称为“令牌”),并使用训练数据来匹配它“知道”的声音,如果它说的是三秒样本之外的其他短语,声音会是什么样子。或者,正如微软在VALL-E论文中所说的那样:

为了合成个性化语音(例如,zero-shot TTS),VALL-E生成相应的声学令牌,条件是3秒注册录音和音素提示的声学令牌,分别约束扬声器和内容信息。最后,使用生成的声学标记与相应的神经编解码器解码器合成最终波形。

微软在Meta组装的名为LibriLight的音频库上训练了VALL-E的语音合成能力。它包含来自7000多名演讲者的60000小时的英语演讲,其中大部分来自LibriVox公共领域的有声读物。为了使VALL-E生成良好的结果,三秒样本中的语音必须与训练数据中的语音紧密匹配。

在VALL-E示例网站上,微软提供了数十个AI模型的音频示例。在样本中,“Speaker Prompt”是提供给VALL-E的三秒音频,它必须模仿。“Ground Truth”是同一个说话者为了比较目的而说出特定短语的预先存在的录音(有点像实验中的“对照”)。“Baseline”是传统文本到语音合成方法提供的合成示例,“VALL-E”示例是VALL-E模型的输出。

VALL-E:微软全新语音合成模型可以在3秒内复制任何人的声音

微软研究人员提供的VALL-E框图

该模型基于transformer,具有Dale-1外观。不要与基于扩散的Dalle-2混淆。下面是微软发布的该模型的几个实例,很明显这是TTS技术的一个重大进步。

在使用VALL-E生成这些结果时,研究人员只将三秒钟的“Speaker Prompt”样本和一个文本字符串(他们希望语音说的话)输入VALL-E。因此,将“Ground Truth”样本与“VALL-E”样本进行比较。在某些情况下,两个样本非常接近。一些VALL-E结果似乎是计算机生成的,但其他结果可能会被误认为是人类的语音,这是模型的目标。

除了保留说话者的人声音色和情感音调外,VALL-E还可以模仿样本音频的“声学环境”。例如,如果样本来自电话,则音频输出将在其合成输出中模拟电话呼叫的声学和频率属性(这是一种奇特的说法,听起来也像电话)。微软的样本(在“多样性合成”部分)表明,VALL-E可以通过改变生成过程中使用的随机种子来产生语音音调的变化。

也许是由于VALL-E可能助长恶作剧和欺骗的能力,微软没有提供VALL-E代码供其他人试验,所以我们无法测试VALL-E的功能。研究人员似乎意识到这项技术可能带来的潜在社会危害。对于论文的结论,他们写道:

“由于VALL-E可以合成符合说话人身份的语音,因此滥用模型可能会带来潜在风险,例如欺骗语音识别或冒充特定说话人。为了降低此类风险,可以构建一个检测模型来区分音频剪辑是否由VALL-E合成。在进一步开发模型时,我们还将把微软人工智能原则付诸实践。”

原文地址:

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/文章来源地址https://www.toymoban.com/news/detail-442308.html

到了这里,关于VALL-E:微软全新语音合成模型可以在3秒内复制任何人的声音的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 文本转语音:微软语音合成标记语言 (SSML) 文本结构和事件

    ​ SSML 的语音服务实现基于万维网联合会的语音合成标记语言版本 1.0。 ​ 语音服务支持的元素可能与 W3C 标准不同。 每个 SSML 文档是使用 SSML 元素(或标记)创建的。 这些元素用于调整语音、风格、音节、韵律、音量等。 下面是 SSML 文档的基本结构和语法的子集: 以下列

    2024年02月03日
    浏览(47)
  • 微软语音合成助手 TTS-VUE 文字转语音工具

    我们在刷短视频的时候经常会听到一些AI合成声音,它们有各种音色、语调,甚至不同的情绪,听起来与人声无异 其实这些大都是利用微软Azure的文字转语音技术来实现的 虽然国内也有很多配音工具,但体验下来还是微软的效果最好,语气最为自然 不过Azure的文字转语音功能

    2024年02月02日
    浏览(44)
  • 如何注册微软Azure并获取语音合成服务?

    按步骤,一步步来。 使用条件,以下可选: 1、有信用卡 2、有学生邮箱、学校邮箱。 步骤: 1、打开地址,去注册。 信用卡注册: 文本转语音 – 真实 AI 语音生成器 | Microsoft Azure 学生邮箱: 面向学生的 Azure - 免费帐户额度 | Microsoft Azure 2、注册后去后台,打开语音服务。 后

    2024年02月03日
    浏览(48)
  • 微软语音合成网页版源码,影视解说配音网页版

    简介: 最新微软语音合成网页版源码,影视解说配音网页版,仅几个文件写成的微软语音合成接口,调用的是官方api,亲测合成很快,大家总听到的短视频电影解说与搞笑短视频,都是微软配音员,可以说是市面上语音合成中最像真人的了。 搭建教程 1.将压缩包内的index.h

    2024年02月19日
    浏览(37)
  • MS-TTS:免费微软TTS语音合成工具(一键合成导出MP3音频)

    声明 本工具是个免费工具,遇到问题,还请自行解决,下面有文字教程,B站有视频教程(链接在文章末尾); 其次,微软接口卡顿,连接超时等问题下方有详细说明,请仔细看一下; 再次,强制升级是为了统一版本方便问题的收集与解决,如果你能理解最好,不能理解的话

    2024年02月03日
    浏览(45)
  • 【C#】Whisper 离线语音识别(微软晓晓语音合成的音频)(带时间戳、srt字幕)...

    语音合成语音识别 用微软语音合成功能生成xiaoxiao的语音。 用Whisper离线识别合成的语音输出srt字幕。 一、语音合成 参考这个网址:https://www.bilibili.com/read/cv19064633 合成的音频:晓晓朗读-温柔 二、Whisper 语音识别 下载模型后放入程序目录下: 请注意,主要示例目前仅使用

    2024年02月06日
    浏览(46)
  • Unity调用微软SpeechLib.Dll的C#类实现语音合成功能

    using System.Collections; using System.Collections.Generic; using UnityEngine; using SpeechLib; public class Speech : MonoBehaviour { // Start is called before the first frame update void Start() { } 将Interop.SpeechLib.dll文件导入Unity,然后把上面的脚本挂载到游戏对象上就能测试语音合成的效果了。 经测试 调用v.Speak这个方

    2024年02月13日
    浏览(59)
  • 微软语音合成工具+基于Electron + Vue + ElementPlus + Vite 构建并能将文字转换为语音 MP3

    资源下:微软语音合成工具+基于Electron+Vue+ElementPlus+Vite构建并能将文字转换为语音

    2024年02月04日
    浏览(47)
  • Unity 工具 之 Azure 微软语音合成普通方式和流式获取音频数据的简单整理

    目录 Unity 工具 之 Azure 微软语音合成普通方式和流式获取音频数据的简单整理 一、简单介绍 二、实现原理 三、注意实现 四、实现步骤  六、关键脚本 附加: 声音设置相关 Unity 工具类,自己整理的一些游戏开发可能用到的模块,单独独立使用,方便游戏开发。 本节介绍,

    2024年02月09日
    浏览(50)
  • [chatgpt+Azure]unity AI二次元小女友之使用微软Azure服务实现RestfulApi->语音识别+语音合成

            如题所述,这个小项目是在unity引擎端,使用了chatgpt+微软azure的一个AI二次元女友对话的项目,实现原理也比较简单,即在unity端实现AI二次元女友的交互界面,接入chatgpt-3.5-turbo的api接口,借助chatgpt的自然语言生成能力,作为这个项目的聊天引擎。聊天功能也比较

    2024年02月04日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包