想要定制专属AI声音?这是一份来自微软的保姆级攻略

这篇具有很好参考价值的文章主要介绍了想要定制专属AI声音?这是一份来自微软的保姆级攻略。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

得益于AI技术的发展,合成声音已经能媲美人声。而声音定制服务的出现使得越来越多的企业和个人可以拥有个性化的独特AI声音。通常这种AI音色的定制需要采集人类配音员(发音人)的声音数据作为AI机器学习的对象,因此,个性化的声音定制又称为“声音复刻”,或者“声音克隆”。其中,微软全球云Global Azure上的认知服务的企业版神经网络声音定制服务就提供了更便捷地创建高质量合成声音的方法,可为用户带来真人一般的听觉享受。

不过,你知道训练一个符合商用需求、自然流畅、富有情感的AI虚拟声音需要花多长时间吗?按照传统的语音合成模型生产流程,这通常需要用一两个月的时间在录音棚采集10小时甚至20小时(约6千-2万句语料)的专业发音人说话数据,再用至少一个月的工程时间完成声音模型的训练、测试、优化和部署。而微软给出的标准化操作平台可为客户提供全程自助服务,极大地简化了声音定制的训练流程,其深度神经网络技术更是将对训练语料的需求从10-20小时的录音数据减少到仅需30分钟到3小时录音数据(约300-2000条录音语句)。

“光说不练假把式”,下面就跟随微软的步伐,开启个性化合成声音定制之旅吧!

通过观看视频,详细了解如何在微软Global Azure上使用微软神经网络声音定制服务创建专属 AI 语音。

如何使用微软神经网络声音定制服务创建专属 AI 语音

下方表格是自助创建定制声音的流程概览,之后我们将详细解释每个步骤。

想要定制专属AI声音?这是一份来自微软的保姆级攻略

准备工作

1

打造负责任的AI

● 阅读并填写“神经网络版定制声音申请表(custom neural voice application)”

2

明确声音角色

● 定义声音角色

● 匹配发音人

3

创建脚本

● 下载通用脚本

● 创建专业领域脚本

4

声音录制

● 录制授权声明

● 根据录音脚本录制训练语料

在Speech Studio创建声音模型

5

创建新项目

● 通过Azure帐户登录Speech Studio

● 创建新的定制声音项目

6

上传声音数据

● 上传授权声明音频

● 上传声音数据和脚本

7

训练声音模型

● 挑选合适的训练数据和正确的发音人声明文件

● 输出声音小样进行试听,以确保质量

8

部署声音模型

● 部署所训练的模型

● 测试API端点,确保服务运行良好

集成声音模型

9

生成有声内容,或开发专属应用

● 利用有声内容创作工具调用声音模型,无需编写程序

● 利用Speech SDK开发程序,在你的新应用使用定制声音

第一步:准备

1. 承诺共同打造负责任的AI

神经网络版声音定制服务是一个面向企业客户的商业应用。在使用Speech Studio定制专属的声音模型之前,你需要代表你的企业或组织填写一份“神经网络版声音定制服务申请表”,并描述你的使用场景。微软致力于保护个人和社会的权益,促进人机交互的透明性,并防止声音冒用和误导性内容的传播。因此,微软对神经网络版声音定制服务的访问和使用做出了限制。在提交使用申请并承诺与微软共同遵循负责任的AI原则后,你才能获得该服务的访问权。想了解申请流程的更多细节,可以查看此视频。

微软神经网络定制声音服务申请指南

2. 声音角色设计

声音角色是对你将要创建的AI虚拟声音的具象化描述,它涵盖了一系列与声音相关的形象特征和听者感受。通过声音角色的定位,一个好的声音可以与你的客户产生情感连接和共鸣。譬如,在某些场景中,你的声音角色可以贴近一个40岁女性的音色,她说话权威、自信,坦率又迷人,做事理性而公正。

一定要仔细考虑声音角色,因为在用这个声音与你的客户进行沟通时,TA代表着公司的形象。除了要传达与公司相匹配的品牌意图外,声音角色的设定还可以帮助你确保声音定制过程的各个环节的一致性,这包括发音人选择、脚本创建、训练数据录制过程以及最终的模型测试等。 

3. 选择合适的脚本

编写脚本的关键在于,能够让发音人轻松捕捉到所塑造的声音形象的人物特色、声音特点,并在录音过程中保持一致的风格。

脚本中的语句可以来自不同来源,语句之间也不必有相互关联。录音脚本中可以包含通用语句和专业语句两个部分。对于有特定应用场景的声音定制,我们推荐你根据自己的场景去制定一些针对性的领域相关的录音脚本。如果你不想自己准备脚本,微软提供了一些共享脚本,这些句子是从公开领域挑选出来的,能够支持不同语言的声音模型的训练。如果你打算定制自己的脚本,有一些制作原则你需要考虑,如:脚本中语句的覆盖范围要尽量均衡,包括陈述句、疑问句、感叹句、长句和短句;一行一句,不要把多个句子放在同一行等等。更多指导可以点击此链接查看。

记得仔细检查脚本是否有误,最好进行交叉互查,尤其在声音录制完成之后,需要复验脚本与发音人所说的是否完全一致,如果有不一致的地方,需要按照发音人实际录制的内容进行修改。 

4. 筛选发音人、确定录音地点

声音角色确定好以后,就可以挑选发音人了。找到合适的发音人,与设计声音角色和选择脚本同等重要。选择发音人时,需要确保发音人在理解你的声音角色和内容方面拥有丰富的经验,并且具有良好的嗓音,发音清晰、对音高音调能进行良好的控制。尽量保证发音人的自然声音适合你的声音角色。

下面要敲黑板了,一旦选定了发音人,一定要与发音人签订书面协议,并获得发音人的正式授权,你才能使用他们的声音数据来制作合成语音。

关于录音地点,专业的录音工作室是你的首选。安排录制时,建议以2小时或3小时为单位,每次录制至少间隔一天。让录音工作室在第一次录制后提供几段录音,以便检查音频规格。最开始可以安排每小时大约100条语句的录制。随后的时间可以根据前两个阶段每小时完成的录音数量进行调整。

录音时,长句应该分成独立的短句或短语。例如,发音人应该在读完一个句子或短语后停顿,再说下一句。而句子或短语也要分割成独立的.wav文件,并对每段脚本逐行编号。更多关于脚本的信息,可以阅读文章:定制声音的数据准备。

提醒:不要忘记让发音人录制下面这句话,并上传至Speech Studio Portal:
“我(填入你的姓名)确认我的声音将会被(填入公司名称)使用于创建合成版本语音。”

点击这里你可以找到授权声明的多语言版本以及用于录制的示例脚本。

第二步:创建

5. 检查录音质量,创建声音合成项目

在录音合同结束前务必检查好音频质量,音频文件必须是RIFF (.wav) 格式,采样率至少为24000 Hz,样本格式至少为16位PCM(脉冲编码调制),文件必须是以数字命名的.wav文件扩展名,不能有重复的文件名。所有音频文件必须短于15秒。点击此处了解更多关于音频属性的信息。

打开Speech Studio,使用Azure帐户登录,选择要合成声音的语言。然后,进入项目页面,点击“Set up voice talent”(“设置发音人”)为您的声音创建发音人并上传发音人授权语句。

6. 上传声音数据

你至少需要提供300个语句作为神经网络定制声音的训练数据。如果所创建的声音要用于正式的企业级产品,我们一般推荐2000个语句。

你所训练的声音模型的质量很大程度上取决于你所采用的训练数据的质量。录音和脚本数据上传成功之后,你可以检查数据质量报告,确保声音数据的发音准确性良好,信噪比在可接受范围。同一个训练集里的录音数据需要在音量、语速、语调以及表达方式等方面保持良好的一致性。关于上传声音数据的更多信息可以查看此文档。

7. 训练声音模型

确认训练数据的质量之后,你就可以提交数据来训练声音模型了。注意,在提交训练时,你需要将所选择的录音数据与发音人资料进行关联。如果发音人授权声明与训练数据中的声音不匹配,那么训练请求不会被通过。

模型训练成功之后,平台将直接输出100个测试音频作为试听的小样。你也可以提供不超过100句话的自定义测试脚本来进行试听。试听无误,你就可以部署你的模型啦!

8. 部署声音模型

部署声音模型来获取语音合成API接口的唯一ID。声音模型只有部署之后才能用于有声内容创作工具,或者通过文本转语音SDK进行程序开发和集成。部署声音模型后,也会产生相应的托管费用,产品价格信息请参考此页面。你可以随时Suspend(暂停)你的模型,这样就不会产生托管费用。

第三步:集成

9. 使用定制声音

你可以使用有声内容创作工具,根据你的文本内容,对声音模型的参数进行微调,以输出不同的声音效果。微软语音平台的有声内容创作工具是基于语音合成标记语言 (SSML) 创建的,它提供了功能丰富又易用的界面,使用户可以通过简单的操作,实时修改语音合成的各种属性,包括情绪风格、读音、韵律、音量、语速等等。有关有声内容创作工具的信息,可以查看此视频。 

如果你想开发自己的应用程序来使用定制声音,可以点此查看更多关于使用Speech SDK的信息。

好了,现在就行动起来,开始一场声音定制之旅吧!(产品主页)

特别提示:截至发稿时,神经网络版声音定制服务已在微软Azure.com正式发布,但尚未在世纪互联运营的Azure.cn上线。文章来源地址https://www.toymoban.com/news/detail-464997.html

到了这里,关于想要定制专属AI声音?这是一份来自微软的保姆级攻略的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI日报:北大Open Sora视频生成更强了;文心一言可以定制你自己的声音;天工 SkyMusic即将免费开放;

    🤖📱💼AI应用 北大Open  Sora 视频生成更强了!时长可达10秒,分辨率更高 【AiBase提要:】 ⭐️ Open-Sora-Plan v1.0.0模型发布 显著提升视频生成质量和文本控制能力 ⭐️ 支持华为昇腾910b芯片,提升运行效率和质量。 ⭐️ 该模型能够生成10秒、24FPS的1024×1024高清视频,同时还支持

    2024年04月10日
    浏览(42)
  • 一份关于windows server服务器的安全漏洞处理建议(来自绿盟安全评估)

    文章来由,友商服务器最近做了一次安全评估,领导让协助处理下漏洞修复。根据这份绿盟安全评估中的服务器漏洞扫描分析结果,做了下面的修复过程和总结,希望对看到小伙伴有帮助。 提问:为什么要做安全漏洞修补? 据市场研究公司Gartner研究报告称“实施漏洞管理的

    2024年02月06日
    浏览(27)
  • 耳朵总是听到嗡嗡的声音 这是为什么 该怎么办

    为什么会莫名听到嗡嗡的声音,这是什么因素导致的,吃什么药能缓解? 耳鸣,是一种缺乏外部声源情况下,耳内或颅内出现的嗡嗡、嘶鸣、车笛、喇叭等不成形的异常声幻觉。这种情况可能是一种声音,也可能是多种声音混合出现,当出现的时候往往会持续一段时间。 耳

    2023年04月17日
    浏览(47)
  • 记录--Vue3 + Fabricjs 定制国庆专属头像

    生在国旗下,长在春风里!国庆将至,采黎为大家带来 定制头像2.0(国庆头像) ,让我们用代码的形式为祖国庆生!欢迎大家 点赞收藏加关注哦 想看效果或者想定制春节头像的小伙伴请直奔 效果 区域; 想一睹 定制头像2.0 小工具的原理及实现思路请耐心阅读,本文代码片

    2024年02月08日
    浏览(28)
  • 一份关于windows server服务器的安全漏洞处理建议(来自绿盟安全评估)_允许traceroute探测漏洞

    前言 一、服务器主机存在漏洞应该怎么修复? 二、报告中的高危漏洞(部分展示) 1.Microsoft Windows CredSSP 远程执行代码漏洞(CVE-2018-0886) 2.SSL/TLS协议信息泄露漏洞(CVE-2016-2183) 3.SSL/TLS RC4 信息泄露漏洞(CVE-2013-2566) 4.SSL/TLS 受诫礼(BAR-MITZVAH)攻击漏洞(CVE-2015-2808) 5.SSL/TLS 服务器瞬时

    2024年04月28日
    浏览(28)
  • ChatGPT神奇应用:定制化学习体验,get专属家教

    正文共  601  字,阅读大约需要  2  分钟 面向所有有学习需求的人群,您将在2分钟后获得以下超能力: 1、获取定制化学习体验 2、全面了解任何想学习的科目 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人  | Alice   编辑者  |  Linda ●此

    2024年02月11日
    浏览(35)
  • 【定制小程序:开启你的专属数字化之旅】

    在当今数字化的时代,拥有一个定制的小程序已成为企业和个人展示个性、提升服务的必要手段。本文将为你详细介绍定制小程序开发的优势、流程以及如何选择合适的开发团队。 一、定制小程序开发的优势 个性化定制:根据你的需求和品牌特色,打造独一无二的小程序。

    2024年01月21日
    浏览(41)
  • 一份关于windows server服务器的安全漏洞处理建议(来自绿盟安全评估)_允许traceroute探测漏洞(1)

    漏洞名称: SSL/TLS 受诫礼(BAR-MITZVAH)攻击漏洞(CVE-2015-2808)【原理扫描】【可验证】 详细描述: SSL/TLS协议是一个被广泛使用的加密协议,Bar Mitzvah攻击实际上是利用了\\\"不变性漏洞\\\",这是RC4算法中的一个缺陷,它能够在某些情况下泄露SSL/TLS加密流量中的密文,从而将账户用户名密

    2024年04月14日
    浏览(42)
  • 阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型

    大语言模型(LLM)是当前自然语言处理领域最核心的技术,以 GPT-4 为代表的大语言模型展现出了类人的学习能力。其中,情境学习(In-context Learning)是大语言模型最神秘的能力之一。如下图所示,在这种情境学习的范式下,大模型无需更新任何参数,仅依赖几个示例样本(demonstrations)就可以学习新任务,执行新样本的预测。

    2024年02月11日
    浏览(33)
  • AnythingLLM:基于RAG方案构专属私有知识库(开源|高效|可定制)

    继OpenAI和Google的产品发布会之后,大模型的能力进化速度之快令人惊叹,然而,对于很多个人和企业而言,为了数据安全不得不考虑私有化部署方案,从GPT-4发布以来,国内外的大模型就拉开了很明显的差距,能够实现的此路径无非就只剩下国内的开源大模型可以选择了。而

    2024年02月04日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包