目录:
语音对话机器人: 热线小蜜
语音特色的文本驱动对话
语音语义驱动的双工对话
1.语音对话机器人: 热线小蜜
实时语音对话的挑战:
口语化:用户的表述呈现出含糊、冗长、不连续、并存在ASR噪声。
多模态:语音对话相比文本蕴含了更多的信息, 如语气、情绪、背景环境等。
双工化:不局限于一问一答的形式,会出现静默、等待、互相打断等复杂的交互行为。呈现出低延时(人人对话rt < 400ms),强交互(turn- taking频繁)的特点。
实时语音对话的挑战:
对话:从文本驱动到语音语义驱动
缺少针对性的算法模型,基于在线QA构建的问答模型对口语化的语料适配性差,影响NLU准确性
语音和语义模块割裂,NLU/DM仅能基于ASR的结果进行处理,丢失语音模态信息,同时ASR带来误差传播
语音控制能力简单,基于固定VAD时长的收音断句、原子化的放音无法满足精细化的双工控制。
无法对用户的全部turn-taking行为进行响应,造成“高延迟、弱交互”的用户体感,进一步会影响对话完成率
2.语音特色的文本驱动对话
面向ASR的SLU
场景:口语化订单匹配
热线采用基于自然语言描述的方式来进行订单的确认;
由于方言口音、噪声、和领域专有名词的影响,ASR结果包含一定比例的错误;
由于关键信息(品类、品牌、修饰词)的错误,导致无法匹配到正确的订单。
ASR-Robust SLU
ASR-Robust SLU:WCN
ASR-Robust SLU 结果:
语音情绪检测
背景:
热线呼入:用户一般不会对机器人进行辱骂,因此在文字上体现的负面情绪case不多(约10%),因而我们需要对用户在沟通中的语气语调中,呈现出的焦急、不耐烦等情绪需要进行针对性的识别的应对。
热线人工质检:热线质检一般是针对人工小二的服务红线,一般来讲人工小二直接辱骂客户的情况是很少的,我们同样需要对人工服务中的语气和异常情绪进行检测。
挑战:
数据质量差:学术界现有音频情绪数据集(IEMOCAP、RAVDESS、CASIA)基本采用表演方式收集,表演痕迹重,和真实讲话有很大差异。
标注和建模方式不合理:目前主流语音情绪标注采用分类打标(委屈、恐惧、着急、失望、愤怒、辱骂、感谢等),仅仅通过语音难以区分上述场景, 导致打标主观性极强,一致率低。
方案:
采用真实录音进行标注,通过上下文对话筛选出疑似含有情绪的候选,通过多位众包投票方式打标,根据标注方差过滤噪音样本。
结合业务场景,仅针对负面情绪强弱进行分数标注。模型采用回归式的训练方式,降低噪声影响。
口语化表达
语音特色的文本驱动对话
语音语义驱动的双工对话
双工对话定义:
双工对话的特点:
语音对话对通信双方具有独占性 -> 响应时延敏感。
基于语音的信息传递具有持续性、非瞬时、非原子 -> 边听边想、边想边说。
不完全博弈,通话双方并不准确的知道对方下一刻要做什么 -> 误判。
双工对话决策:
双工对话的表示:
双工:更短的响应时长
人际对话的特点:
边听边想:接受对方语音输入的同时进行理解和回答的构思。
边想边说:构思回答语言的同时,一边逐步的将回答讲出(有时还会加入一些承接语气)。
边听边想:
利用Micro-turn,基于当前接收到的用户表述, 提前理解并生成答案及TTS。
核心技术:提前理解播放策略、语义完整性模 型、语义差异性模型。
边想边说:
利用Micro-turn,在声音停止较短时间内直接判断当前是否句尾,并且在生成最终的答案之前先播放一个符合上下文的简短承接语。
核心技术:多模态句尾检测模型、承接策略模型。
双工:语义化打断
语义化打断:
在重叠发声的情况下,判断用户是否有意的打 断当前对话,并且提前结束播音。
常见的打断场景:提前回答当前问题、补充前 一轮的回复、无意义的回答、
双工状态特征:当前TTS的已经播放的时长、 当前Query距离前一轮的时长等等。
核心技术:语义化打断模型,双工状态相关的打断策略。
双工:交互式数字收集
背景:
对于一些复杂信息且精度要求较高的槽位(例如长数字、复杂地址、精确时间等),通常难以通过单轮对话完成 (即使能完成,体验也很差)。
需要快速的多轮交互,turn-based无法满足。
以数字为例,会存在表述多样性(如“幺三个零”或 “一千”),修改澄清(“幺三五,哦不对幺三六”),表述含糊(“幺零零零零”)等难点。
技术方案:文章来源:https://www.toymoban.com/news/detail-644443.html
基于单链路的Duplex DM,仅依赖micro-turn作为输入, 输出完整的对话策略。
针对长数字收集的优化:数字意图识别、数字改写、micro-turn DST & Decoder。
端到端优化学习。
相比按键式交互,收集完成率提高20%以上。
总结:
文章来源地址https://www.toymoban.com/news/detail-644443.html
到了这里,关于实时语音场景下的智能对话的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!