之前发了几个视频简单的演示了下同声传译的效果(显卡是特斯拉P40,效果比较差,功能是ok了)
Vrchat 尝试实时翻译和语音输出_哔哩哔哩_bilibili
写一下实现的思路和相关的配置(可以根据思路换其他的软件或者网站实现)
当然这一套也是可以用在其他软件,或者在vr中使用的
前置环境
本地使用的显卡是特斯拉P40,
Ubuntu 22.04.3 LTS,
conda管理,
python3.9.16,
服务器上配置了代理
因为seamlessstreaming用到了ws,一定要https才能远程访问,因此得用openssl自签证书,然后反向代理开出去。(seamless streaming的部署不在本次笔记中描述,这里主要描述实际应用的思路和方式)
关键软件
1.voice meeter(声音转换麦克风)
2.搜狗拼音输入法(没想到吧)将外语实时翻译成中文
3.seamless streaming,需要自己搭建,或者使用其他的实时tts服务(whisper desktop+网易易魔声或者bark等,但是我看基本没有持续的websocket转换,需要自己说话点一下麦克风),或者掏钱使用微软的itranslate那种(没研究过哈)
4.(可选)变声器,我用了需要sovits模型的voice-changer
5.voice changer
需要的话可以自己去b站里搜,很多教程的
输入(外语翻译中文)
输入转换流程
简单来说就是vrchat->voice meeter->搜狗拼音输入法 语音输入->txt文件
重点是voice meeter的配置和vrchat的配置
vrchat的声音配置
1.vrchat声音配置
这个声音配置是在系统->声音->音量合成器
2.voice meeter配置
如果要变声,使用photo版本(三个虚拟声卡),否则banana就行了,2个虚拟声卡
voice meeter的配置
主要看第一个就行了
勾上A2,表示声音要输出到实体声卡,就是右边A2配置的声卡,我这里选了耳机,因为我想听到原声
勾上B1,表示voice meeter将声音转换到 voice meeter VAIO OUTPUT 这个虚拟麦克风驱动,顺带一提B2对应虚拟麦克风AUX OUTPUT,B3对应VAIO3 OUTPUT
配置调试参考
配置成功后,有音量波动就是有相应输出了
3.配置搜狗的输入
这样就把声音传给搜狗了(实际可以自己去试下,本来我录制了视频,但是嘴碎想想还是打打字算了)
输出(说中文转英文,基于seamless streaming)
实现流程
关于seamless streaming的安装直接按照meta官方的readme来,然后只需要会一点点python就行
地址是https://huggingface.co/spaces/facebook/seamless-streaming/tree/main
项目自带readme文件
顺带一提这个seamless streaming其实是可以把情绪也翻译过来的(但是要申请模型),替代方案bark也是可以的。
然后是浏览器的声音配置(如果是使用vr的话,外部输入改成virtual desktop或者Oculus的那个headphone就行)
再展示下vocie meeter的配置
voice meeter配置
到这里基本完事了,可以直接去vrchat里设置下麦克风
使用VAIO3
当然,像我这样的男人,会加一点one more thing,也就是变声器的配置
voice changer client的配置
当然,vrchat中的麦克风也要改
文章来源:https://www.toymoban.com/news/detail-797430.html
使用aux
效果自行体验哈!(就是声音有点痴呆)文章来源地址https://www.toymoban.com/news/detail-797430.html
到了这里,关于SeamlessStreaming在vrchat的同声传译的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!