GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰

这篇具有很好参考价值的文章主要介绍了GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

sillytavern-1.11.5,gpt,人工智能,音视频,语言模型,python3.11

本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目,让让AI女友声若幽兰,首先明确一下,SillyTavern-1.11.5只是一个前端项目,它没有任何大模型文本生成能力,所以后端必须有一个api服务来流式生成对话文本,这里选择koboldcpp。

首先看一下简单的项目运行架构图:

sillytavern-1.11.5,gpt,人工智能,音视频,语言模型,python3.11

这里SillyTavern作为前端负责向后端的Koboldcpp发起请求,Koboldcpp流式返回文本,SillyTavern接受聊天文本进行展示,当文本接受完毕后,SillyTavern再次向后端的GPT-SoVITS发起请求,将全量文本传递给后端GPT-SoVITS,GPT-SoVITS根据文字来生成语音,并将语音的二进制文件返回给SillyTavern,最后SillyTavern播放音频,至此,一个完整的流程就走完了。

部署SillyTavern

首先克隆SillyTavern的官方项目:

git clone https://github.com/SillyTavern/SillyTavern.git

直接运行启动脚本即可:

shell start.sh

如果是windows平台,运行bat:

start.bat

由于SillyTavern没有预留GPT-SoVITS的位置,所有将原本的XTTS改为GPT-SoVITS:

async fetchTtsGeneration(inputText, voiceId) {  
        console.info(`Generating new TTS for voice_id ${voiceId}`);  
  
        if (this.settings.streaming) {  
            const params = new URLSearchParams();  
            params.append('text', inputText);  
            params.append('speaker_wav', voiceId);  
            params.append('language', this.settings.language);  
            return `${this.settings.provider_endpoint}/tts_stream/?${params.toString()}`;  
        }  
  
        const response = await doExtrasFetch(  
            `${this.settings.provider_endpoint}/tts_to_audio/`,  
            {  
                method: 'POST',  
                headers: {  
                    'Content-Type': 'application/json',  
                    'Cache-Control': 'no-cache',  // Added this line to disable caching of file so new files are always played - Rolyat 7/7/23  
                },  
                body: JSON.stringify({  
                    'text': inputText,  
                    'speaker_wav': voiceId,  
                    'language': this.settings.language,  
                }),  
            },  
        );  
        if (!response.ok) {  
            toastr.error(response.statusText, 'TTS Generation Failed');  
            throw new Error(`HTTP ${response.status}: ${await response.text()}`);  
        }  
        return response;  
    }

部署Koboldcpp

随后部署后端的大模型api:

git clone https://github.com/LostRuins/koboldcpp.git

输入编译命令

windows平台:

make

Mac平台:

make LLAMA_METAL=1

安装依赖:

pip install -r requirements.txt

启动服务:

Python3 koboldcpp.py --model /Users/liuyue/Downloads/causallm_7b-dpo-alpha.Q5_K_M.gguf  --gpulayers 40 --highpriority --threads 300

此时接口运行在http://localhost:5001

部署GPT-SoVITS

最后,部署GPT-SoVITS项目:

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

安装依赖:

pip3 install -r requirements.txt

修改一下api接口逻辑:

@app.post("/")  
async def tts_endpoint(request: Request):  
    json_post_raw = await request.json()  
    return handle(  
        json_post_raw.get("refer_wav_path"),  
        json_post_raw.get("prompt_text"),  
        json_post_raw.get("prompt_language"),  
        json_post_raw.get("text"),  
        json_post_raw.get("text_language"),  
        json_post_raw.get("sweight"),  
        json_post_raw.get("gweight"),  
    )  
  
  
@app.get("/")  
async def tts_endpoint(  
        refer_wav_path: str = None,  
        prompt_text: str = None,  
        prompt_language: str = None,  
        text: str = None,  
        text_language: str = None,  
        sweight: str = None,  
        gweight: str = None,  
):  
    return handle(refer_wav_path, prompt_text, prompt_language, text, text_language,sweight,gweight)  
  
  
def speaker_handle():  
  
    return JSONResponse(["female_calm","female","male"], status_code=200)  
  
  
@app.get("/speakers_list")  
async def speakerlist_endpoint():  
    return speaker_handle()  
  
  
def tts_to_audio_handle(text):  
  
    return handle(llama_audio,llama_text,llama_lang,text,"中英混合")  
  
  
@app.post("/tts_to_audio/")  
async def tts_to_audio(request: Request):  
    json_post_raw = await request.json()  
    return tts_to_audio_handle(json_post_raw.get("text"))  
  
  
if __name__ == "__main__":  
    uvicorn.run(app, host="0.0.0.0", port=port, workers=1)

这里添加新的基于get方法的speakers_list,是为了配合xtts接口的格式,同时基于post方法的tts_to_audio方法用来生成语音,它只接受一个参数text,也就是需要转为语音的文本。

至此,三个服务就都配置好了,最后奉上视频教程:文章来源地址https://www.toymoban.com/news/detail-857508.html

https://www.bilibili.com/video/BV1uJ4m1a7L4/

到了这里,关于GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-SoVITS:开源跨语言音色克隆模型,支持TTS和跨语言推理

    探索GPT-SoVITS,一款受欢迎的开源音色克隆模型,支持少量语音转换、文本到语音功能,跨语言支持英文、中文、日文。快速获得80%~95%的音色相似度,仅需提供5秒样本。项目已获4.1k Star,备受推崇!

    2024年01月25日
    浏览(58)
  • GPT-SoVITS-WebUI可以中文声音克隆开源AI工具简介

    引言:         近年来,随着人工智能技术的不断发展,语音技术已经成为了热门领域。尽管已有不少技术实现了一定程度的成功,但传统语音合成技术的问题依然存在。传统方法对于训练数据的需求量大、效果受到声音质量和口音差异的影响。因此,在语音技术领域中

    2024年04月13日
    浏览(42)
  • Windows 11 大更新:Copilot 终于来临, 全面接入 GPT-4

    2023年6月30号,微软终于在6月最后一天推出的开发者预览版更新,支持Windows Copilot。这次更新没有延迟,可算是互联网界的一股清流。接下来,我们来看一下Windows Copilot能够实现什么功能。 上个月,软总裁萨蒂亚·纳德拉(Satya Nadella)在2023微软Build大会上宣布,Windows Copilot将

    2024年02月14日
    浏览(59)
  • GPT SOVITS项目 一分钟克隆 (文字输出)

    步骤流程:(首先使用UVR 提取人声文件,然后按下面步骤进行) 注意这里提交的音频是参考的音频

    2024年02月20日
    浏览(46)
  • GPT-SoVITS-WebUI 克隆声音 macos搭建

    激活环境 conda activate GPTSoVits 停用 conda deactivate 强大的少样本语音转换与语音合成Web用户界面 GPT-SoVITS指南

    2024年02月21日
    浏览(44)
  • OPEN AI接入MidJourney 画图支持GPT4中文智能优化效果惊艳

    OPEN AI 平台 开放免费AI聚合服务平台,提供应用程序一键接入AI画图,对话的能力。 目前已经支持GPT3和GPT4普通对话和流式对话。 支持GPT画图和MidJourney 画图。 后续还会接入更多功能 在线接入案例演示体验 这里主要展示一下MJ的强大的画图功能 平台发展版本来龙去脉 如果大

    2024年02月12日
    浏览(42)
  • 【Unity】AI实战应用——Unity接入GPT和对游戏开发实际应用的展望

    GPT for unity插件地址: GitHub - sunsvip/ChatGPTForUnity: ChatGPT for unity 用法: 打开Unity PackageManager界面. Add package from git URL 粘贴插件地址添加 https://github.com/sunsvip/ChatGPTForUnity.git ———————————————————————————————————— 几个资本大佬花钱让一群

    2024年02月08日
    浏览(43)
  • 有手就行!Sovits AI人声模型训练

    随着AI孙燕姿的爆火出圈,各大视频平台的AI人声投稿量激增,B站首页频频给我推送相关视频,正好我对AIGC方面也挺感兴趣,心动不如行动,于是我用自己的声音训练了一个模型,发现整个过程异常的简单,并且最终出来的效果也不错,真的是有手就行,所以这次将我自己训

    2024年02月15日
    浏览(36)
  • Windows11 Copilot助手开启教程(免费GPT-4)

    Windows Copilot 是 Windows 11 中的一个新功能,它可以让你与一个智能助理进行对话,获取信息,执行任务,甚至创造内容。Windows Copilot 使用了 Bing Chat 的技术,它是一个基于 OpenAI 的 GPT-4 模型的聊天机器人,可以理解自然语言,回答问题,生成图片,写作,编程等等。 你需要确

    2024年01月25日
    浏览(51)
  • 【UE5】离线AI聊天-接入LLAMA语言模型 教程

    前言:LLAMA是一种神经网络模型,全称为Language Model with an Average Attention Mechanism(具有平均注意机制的语言模型)。它是一种用于自然语言处理任务的模型,特别适用于生成文本和回答问题。LLAMA模型结合了注意力机制和平均池化,以提高模型对输入文本的理解和生成能力。它

    2024年03月21日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包