MS-TTS：免费微软TTS语音合成工具（一键合成导出MP3音频）

这篇具有很好参考价值的文章主要介绍了MS-TTS：免费微软TTS语音合成工具（一键合成导出MP3音频）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

声明

本工具是个免费工具，遇到问题，还请自行解决，下面有文字教程，B站有视频教程（链接在文章末尾）；
其次，微软接口卡顿，连接超时等问题下方有详细说明，请仔细看一下；
再次，强制升级是为了统一版本方便问题的收集与解决，如果你能理解最好，不能理解的话，那建议你还是不要用了，强扭的瓜不可能甜！

前言

微软TTS文本转语音引擎的确是非常NB，合成语音非常接近真人，应该是当前同类产品中体验最好的，官网有提供在线语音合成，但不提供合成后的音频文件下载，使用时会比较麻烦，所以写成工具；

目前，MS-TTS工具经过N个版本更新，该实现的功能都已经一点点肝出来了，称它为全网最强免费TTS文本语音合成工具应该不为过，所以，接下来可能在很长一段时间内，除去发现重大bug外，应该都不会再进行大的更新了，当然，有什么好的意见建议可以继续留言告知（提示：少数人需要的特殊功能不在此范围，真有需要可联系定制）。

当前版本：v1.9.6.3

Bug反馈

遇到问题请先更新到最新版本试试！如果还是解决不了，请在公众号回复：加群，添加Q群后，提供触发Bug的具体场景，以便跟踪修复，感谢有你！

使用说明(以下内容请仔细阅读)

1、下载的压缩包记得先解压缩，再使用！！！

2、解压后运行主程序 MS-TTS.exe(注意：软件有加密保护，会被部分杀毒软件和电脑管家勿报及限制操作权限，建议将杀毒软件及电脑管家关闭后使用，当然，如果不放心，可以不要使用)

3、软件界面

ms-tts,语音识别,服务器,人工智能

3.1 接口设置

ms-tts,语音识别,服务器,人工智能

左侧最上方为TTS接口选项，当前软件支持 微软 、 Edge 两大接口，优缺点如下：

	微软	Edge
角色个性化设置	支持	不支持
稳定性	不稳定	较稳定
合成速度	一般	快
WAV格式	支持	不支持

接口下方代理选项专为微软接口设置，原因就是因为微软TTS服务器网络非常不稳定，如果一定要使用微软接口，有条件的话就可以使用http代理，如果没条件且又一定要使用微软接口的话，建议在01:00-11:00时间段使用，连接稳定性及合成速度相对会好一些！

3.2 选项

ms-tts,语音识别,服务器,人工智能

合成音频保存质量选项，微软接口mp3、wav两种格式都支持，Edge只支持保存mp3格式；

3.3 角色

ms-tts,语音识别,服务器,人工智能

语言：TTS文本转语音中的文本内容所属语言（一定要和合成内容的语言相对应）

语音：根据所先语言不同，对应的语音角色也不相同，要自行根据实际情况选择

风格：角色的说话语气风格

角色：这个角色一般是指角色的年龄段（实际使用效果不明显，且只有少部分角色支持）

语速：语音合成时的说话速度，0是正常水平，>0加快，<0减慢

音调：语音合成时的说话音调，0是正常水平，>0音调升高，<0音调降低

添加角色：可将设置好的角色添加到下方的角色列表，用于文本转语音时实现多角色配音的效果（不添加角色时，所有语音合成直接使用上方角色及各项设置）

3.4 简单模式-中小文本

ms-tts,语音识别,服务器,人工智能

主要用于合成文本内容不多的情况，可以更为方便快捷的对文本内容进行各种自定义

ms-tts,语音识别,服务器,人工智能

在编辑区域点击鼠标右键，会弹出右键菜单

粘贴：将复制好的文本内容粘贴到编辑区域
清空：清空编辑区域所有内容
插入间隔：在光标所以位置插入间隔标记，后面在进行语音合成时，将会在指定位置按照设置好的间隔时间进行停顿
设置角色：使用此功能需要在左侧列表先添加角色，然后使用指定角色对选中范围文本内容进行标记，进行过角色标记的内容在后面进行语音合成时，将以指定的角色设置进行语音合成。

ms-tts,语音识别,服务器,人工智能

3.5 简单模式-超长文本

ms-tts,语音识别,服务器,人工智能

在表格区域点击鼠标右键，会弹出右键菜单：

导入：导入需要进行tts合成的txt文本文件
- 导入的txt文本大小不能超过5MB（超过5MB文本文件无法导入）
- 导入的txt文本文件编码格式必须为UTF-8，非UTF8编码文件在导入后，在状态栏会显示“编码错误”，在进行tts语音合成时，会直接跳过
清空：清空列表
也可以直接选中多个txt文本文件，拖动到软件界面完成导入

3.6 SSML

ms-tts,语音识别,服务器,人工智能

SSML：是一种基于XML的语音合成标记语言，此功能一般只用于需要深度自定义的场景，使用SSML一定要按照其规定的语法及命令，否则将无法合成（命令语法错一个字母都不行），具体可点击右上方绿色文字，跳转到官方SSML文档进行学习。

SSML：主体内容不能超过2500字符（微软官方有限制）

3.7 软件设置

ms-tts,语音识别,服务器,人工智能

保存目录：可自定义合成音频保存目录（打开：快速打开保存目录，选择文件夹：选择保存目标文件夹）
合成音频使用原始文件名命名：在超长文本模式下生效，勾选后，最终合并音频文件名以“原始导入文本文件名_tts”进行命名
合成结束打开保存目录：在语音合成任务完成后打开保存目录（如果保存文件夹已经有打开则不会再打开）
分段音频合并数量：在进行超长文本合并时，如果将所有音频进行完整合并，最终生成的音频文件将会非常大，动辙几GB，于是采取了二级合并的模式，可以自行根据需求按指定数量合并（如果还是不能理解，打个比方，你的文本合成音频后，有300个音频文件，如果对这300个音频文件进行完整合并，最终合成的文件只有一个，且文件大小将会达到几GB，不方便移动传输，且合成时间会非常长，现增加的二级合并，意思就是按照指定的数量对前面生成的300个文件进行合并，比如默认二级合并数量50，意思就是以50个音频为一组，对前面的300个音频进行分开合并，这样300个音频文件合成完成后，就会生成6个二级合并的音频文件，每个二级合并音频文件大小就会降到几百MB）
合成结束删除1级音频片段：1级音频片段就是最多的，4位数字开头的音频片段文件
合成结束删除2级音频片段：2级音频片段就是按照上面指定分段音频合并数量对1级音频片段进行合并后生成的3位数字开头音频文件
是否进行最终完整合并：就是将所有分段音频文件合并成一个音频文件。
路径检测：显示YES表示路径正常，可正常进行音频合并
保存配置：将各项设置内容保存至配置文件（./Nconfig.ini）

注：删除音频片段时，将遵循保护性逻辑，即：在只存在1级音频片段时，即使勾选合成结束删除1级音频片段也不会执行删除，在同时存在1级音频片段与2级音频片段时，勾选删除1级音频片段生效，而2级音频片段即使勾选删除将不会执行，同理，在同时存在1级、2级音频片段，且进行了最终完整合并的前提下，勾先删除1级、2级音频片段才会生效执行。

4、多音字

MS-TTS运行后会自动在程序目录生成“dict.txt”词典文件，

ms-tts,语音识别,服务器,人工智能