实时语音场景下的智能对话-Toy模板网

这篇具有很好参考价值的文章主要介绍了实时语音场景下的智能对话。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.语音对话机器人：热线小蜜

打断模型对话,自然语言处理,语音识别,人工智能

实时语音对话的挑战：

口语化：用户的表述呈现出含糊、冗长、不连续、并存在ASR噪声。
多模态：语音对话相比文本蕴含了更多的信息，如语气、情绪、背景环境等。
双工化：不局限于一问一答的形式，会出现静默、等待、互相打断等复杂的交互行为。呈现出低延时（人人对话rt < 400ms），强交互（turn- taking频繁）的特点。
打断模型对话,自然语言处理,语音识别,人工智能

实时语音对话的挑战：

打断模型对话,自然语言处理,语音识别,人工智能

对话：从文本驱动到语音语义驱动

缺少针对性的算法模型，基于在线QA构建的问答模型对口语化的语料适配性差，影响NLU准确性
语音和语义模块割裂，NLU/DM仅能基于ASR的结果进行处理，丢失语音模态信息，同时ASR带来误差传播
语音控制能力简单，基于固定VAD时长的收音断句、原子化的放音无法满足精细化的双工控制。
无法对用户的全部turn-taking行为进行响应，造成“高延迟、弱交互”的用户体感，进一步会影响对话完成率
打断模型对话,自然语言处理,语音识别,人工智能

2.语音特色的文本驱动对话

面向ASR的SLU
场景：口语化订单匹配

热线采用基于自然语言描述的方式来进行订单的确认；
由于方言口音、噪声、和领域专有名词的影响，ASR结果包含一定比例的错误；
由于关键信息（品类、品牌、修饰词）的错误，导致无法匹配到正确的订单。
打断模型对话,自然语言处理,语音识别,人工智能

ASR-Robust SLU

ASR-Robust SLU：WCN

ASR-Robust SLU 结果：

语音情绪检测
背景：

热线呼入：用户一般不会对机器人进行辱骂，因此在文字上体现的负面情绪case不多（约10%），因而我们需要对用户在沟通中的语气语调中，呈现出的焦急、不耐烦等情绪需要进行针对性的识别的应对。
热线人工质检：热线质检一般是针对人工小二的服务红线，一般来讲人工小二直接辱骂客户的情况是很少的，我们同样需要对人工服务中的语气和异常情绪进行检测。

挑战：

数据质量差：学术界现有音频情绪数据集（IEMOCAP、RAVDESS、CASIA）基本采用表演方式收集，表演痕迹重，和真实讲话有很大差异。
标注和建模方式不合理：目前主流语音情绪标注采用分类打标（委屈、恐惧、着急、失望、愤怒、辱骂、感谢等），仅仅通过语音难以区分上述场景，导致打标主观性极强，一致率低。

打断模型对话,自然语言处理,语音识别,人工智能
方案：

采用真实录音进行标注，通过上下文对话筛选出疑似含有情绪的候选，通过多位众包投票方式打标，根据标注方差过滤噪音样本。
结合业务场景，仅针对负面情绪强弱进行分数标注。模型采用回归式的训练方式，降低噪声影响。

打断模型对话,自然语言处理,语音识别,人工智能
口语化表达

语音特色的文本驱动对话

语音语义驱动的双工对话
双工对话定义：

双工对话的特点：

语音对话对通信双方具有独占性 -> 响应时延敏感。
基于语音的信息传递具有持续性、非瞬时、非原子 -> 边听边想、边想边说。
不完全博弈，通话双方并不准确的知道对方下一刻要做什么 -> 误判。

双工对话决策：

打断模型对话,自然语言处理,语音识别,人工智能
双工对话的表示：

打断模型对话,自然语言处理,语音识别,人工智能

双工：更短的响应时长

人际对话的特点：

边听边想：接受对方语音输入的同时进行理解和回答的构思。
边想边说：构思回答语言的同时，一边逐步的将回答讲出（有时还会加入一些承接语气）。

边听边想：

利用Micro-turn，基于当前接收到的用户表述，提前理解并生成答案及TTS。
核心技术：提前理解播放策略、语义完整性模型、语义差异性模型。

边想边说：

利用Micro-turn，在声音停止较短时间内直接判断当前是否句尾，并且在生成最终的答案之前先播放一个符合上下文的简短承接语。
核心技术：多模态句尾检测模型、承接策略模型。

双工：语义化打断
打断模型对话,自然语言处理,语音识别,人工智能

语义化打断：

在重叠发声的情况下，判断用户是否有意的打断当前对话，并且提前结束播音。
常见的打断场景：提前回答当前问题、补充前一轮的回复、无意义的回答、
双工状态特征：当前TTS的已经播放的时长、当前Query距离前一轮的时长等等。
核心技术：语义化打断模型，双工状态相关的打断策略。

双工：交互式数字收集
背景：

对于一些复杂信息且精度要求较高的槽位（例如长数字、复杂地址、精确时间等），通常难以通过单轮对话完成（即使能完成，体验也很差）。
需要快速的多轮交互，turn-based无法满足。
以数字为例，会存在表述多样性（如“幺三个零”或 “一千”），修改澄清（“幺三五，哦不对幺三六”），表述含糊（“幺零零零零”）等难点。

技术方案：

基于单链路的Duplex DM，仅依赖micro-turn作为输入，输出完整的对话策略。
针对长数字收集的优化：数字意图识别、数字改写、micro-turn DST & Decoder。
端到端优化学习。
相比按键式交互，收集完成率提高20%以上。
打断模型对话,自然语言处理,语音识别,人工智能

总结：
文章来源地址https://www.toymoban.com/news/detail-644443.html