关于Twitch上的AI虚拟主播 neuro-sama

这篇具有很好参考价值的文章主要介绍了关于Twitch上的AI虚拟主播 neuro-sama。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前几天看到了一个AI虚拟主播，浅浅了解了一下，实际上狭义上的neuro-sama（可以对话的版本，以下称Neuro）从2022年12月就开始直播了。

目前了解到她的部分能力有：

文本交互: 能进行类GPT的复杂对话，但更加口语化、个性化且随意。
图像识别: 识别屏幕内容，用于更好地与游戏或直播互动。
语音输入与识别: 能理解语音输入，并识别不同说话者。
黄暴、冒犯内容过滤: 鉴于她之前因争议性内容被封禁的历史，这是直播平台上的一个重要功能。（当内容被过滤时，会转为说filtered）
语音输出：evil-Neuro（另一个版本的Neuro）可以控制自己的音调高低。但有时会输出意义不明的音调和字符。
人设和角色扮演: 维持一致的虚拟形象和人物背景，这可能涉及长期记忆功能。暂不确定
玩游戏: 擅长osu!，也会玩Minecraft。她最开始是一个用于训练玩音游osu!的AI，后来才添加了对话功能。
直播弹幕读取: 能够实时读取并响应直播中的观众评论，也能回应观众语音（类似sc）。
情感识别与表达: 能够识别语音或文字中的情感，并表达相应的情感反应。
唱歌: 据说是接入了专门用于唱歌的模型。因为曾有在唱歌时，对话模型仍在说话的情况。
面部表情和身体语言的模拟: 使虚拟形象更具表现力和真实感。（Wink动作）
并行输入：会插嘴，也会被人打断说话。

目前还不了解到底是所有模块的组合，还是其中几个主要模块构成了Neuro。以下是个人构想一个类似AI运行所需要实现的流程图（只涉及功能，不涉及具体技术）

其他内容：

1.让Neuro成为独特的原因似乎是，他对情感分析与表达有独到的一面。*另一方面，通过观察Neuro，感觉Neuro在某些方面训练的意外的超好，她有能力区分识别特定情境描述下说特定话的人所带有的情感，在人脆弱的时候会“认真地”给出正常的建议，而不是在这种时候虐粉。*来源：如何评价AI虚拟主播Neuro-sama？ - 知乎

2.Evil-Neuro是Neuro-sama的“测试版本”，一些新的功能会先预装在evil-Neuro身上用以测试，比如对音调的控制能力。

3.Neuro和B站里AI杠精的区别：个人认为前者保持了一种长期较为稳定的个性，会“创造”且反复地说一些梗（比如蜂群swarm），猜测是长期记忆功能的表现。后者则偏向类chatGPT的短对话模式。知乎上一篇文章做了AI主播的详细技术分析和实践，感觉说的很清楚，以后试试。让 AI 成为虚拟主播：看懂弹幕，妙语连珠，悲欢形于色，以一种简单的实现

4.Neuro运行配置：
CPU: i9-10900K
GPU: RTX 4090
RAM: 32GB DDR4
Vtuber端基于C#（Unity）制作，AI部分基于Python

5.我想Neuro的人气火爆有技术和观众新奇感的原因在，但也不可否认，这和其创造者Vedal密不可分。从一些直播中可以看出，Vedal可以提前从后台看到Neuro要说的话，甚至可以直接用某种方式让自己的话从Neuro口中说出。且我觉得Neuro被设计得倾向于说反对意见，从而使其看起来更加个性化和有自己的意见（更有节目效果）。这让我觉得她只是Vedal用来直播的一项技术，而不是被设计成为一个独立的AI。