谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

这篇具有很好参考价值的文章主要介绍了谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。

随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感到兴奋,并持续不断地开发和测试新技术与体验。其中一个研究方向是探索语音模型对人际交流潜力的改变。例如,在我们之前进行的可穿戴字幕工作中,通过全天候语音转录来增强交流已经证明了其在聋哑人群体和听损人群等多个用户研究中的价值,也可以用于跨语言交流。这种增强尤其在群体对话或嘈杂环境中非常有用,在这些环境下,人们可能会遇到难以区分他人说话内容的困扰。因此,在可穿戴设备中准确地分离声音并进行语音识别是提供可靠且有价值用户体验所必需的关键要素。

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术,ar,语音识别,人工智能

在现实环境中,无论是在群体对话(左侧)还是周围存在多个说话者的嘈杂环境(右侧),语音字幕生成都面临着极大挑战

开发音频信号处理的深度学习解决方案需要访问大规模高质量数据集。对于训练声音分离模型而言,通过在实际设备上录制音频可以捕获到特定声学特性,然而考虑到需要在具有代表性的真实环境中使用实际设备,这一记录过程既耗时又困难。相比之下,利用模拟数据(例如房间模拟器)能够快速且低成本地进行操作,但可能无法准确捕捉到设备的良好声学特性。

在IEEE ICASSP 2024上发表的研究"基于模拟器的数据增强对增强现实眼镜语音识别性能的影响"证明了通过混合训练集,即由少量真实录音和大量模拟数据组成的配备麦克风头戴显示器原型,在提高模型性能方面具有显著效果。这种混合方法不仅可以捕获实际硬件声学特性(无法在模拟数据中获取),还可以便捷快速地生成适用于不同房间大小和配置声学场景的大量模拟数据,而使用实际设备记录这些数据则非常耗时。此外,该研究还对原型麦克风的方向性进行建模,以增加模拟结果的真实感,并进一步减少所需真实数据量。

室内声音传播机制

声波从A点到B点的传播模型如下:

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术,ar,语音识别,人工智能

其中,x(t)代表点A的时域声音信号,y(t)代表点B的声音信号。数学上通过脉冲响应(IR) h(t)来描述声波在经过A和B之间介质传播时的变化情况。

以下是一个在中度混响室内录制的红外信号示例。IR由三个主要部分组成:初始延迟、主峰和尾翼。初始延迟反映了声波从A点传播到B点所需时间延迟;主峰表示直接路径(即视距)上从A到B的声波传播;尾翼则由于墙壁、地板和天花板等处发生反射(也称为混响),导致较长距离和较晚到达以及振幅降低。

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术,ar,语音识别,人工智能

使用头戴式麦克风拍摄房间红外(IR)的示例。其中,(a)声波从扬声器传播到麦克风存在初始延迟,(b)主峰表示直接传播(即视距传播),(c)尾部代表来自房间的声音反射。

混合数据集

为了捕捉原型在一系列代表性环境中的独特声学特性,我们开发了一个混合数据集管道。通过使用头-躯干模拟器(HATS)在实际设备上记录房间脉冲响应(RIRs),我们能够获取真实数据。我们利用9个扬声器和一个嘴巴模拟器提供10个声源,并借助电动转台控制声源与原型之间的角度,从而记录每个房间720个RIRs(360°/ 5°增量× 10个声源)。这些扬声器分别放置在样机周围不同距离(1.0 - 4.2米)和高度(1.3 - 1.8米)的位置。所记录的RIR数据集被划分为训练集和评估集。对于模拟数据集,我们使用房间模拟器生成了8000个具有不同RT60混响时间(0.2-1.5秒)、房间体积(长/宽:2-6米,高度:2-6米)和扬声器位置(高度:1.3-2.1米,与原型距离:0.2-4米)的IRs。所有这些模拟RIR仅用于训练。

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术,ar,语音识别,人工智能

数据收集装置。麦克风原型安装在一个旋转平台上,周围有9个扬声器,另外还有一个10口模拟扬声器。在使用和不使用头部和躯干模拟器的情况下进行了720次RIR记录。

在训练过程中,我们使用了公共数据集(LibriTTS和FSD50K)以及记录和模拟的RIRs对语音和噪声样本进行了空间化处理,并将它们混合在一起。通过能够访问单独的预混合空间化源,我们可以获得用于监督训练的真实数据。根据所使用的训练集(记录的、模拟的或两者兼有)组合不同基于CNN的Conv-TasNet模型,并比较它们之间的性能。所有模型都保持相同的架构和超参数。

声学建模

在声学建模过程中,我们假设麦克风的指向性可以增强模拟的冲击响应(IRs)的真实感,因为麦克风指向性是录制IRs时关键的声学特征。因此,我们将模拟的RIRs扩展为具有麦克风指向性,并通过计算直达混响比(DRR)来衡量直达径(视线)音频与其混响部分之间功率上的差异。正如我们所假设的那样,我们得出了以下结论(见下文),即通过使模拟IRs更接近于录制IRs行为,并提高模拟数据集质量,从而进一步提升整体模型性能,而无需进行昂贵且耗时的录制过程。值得注意的是随着模拟IRs与录制IRs越来越接近,在混合数据集中以更多比例使用模拟IRs相对于记录IRs变得可行。因此,在不影响模型性能情况下,这种额外声学建模方法还可以进一步减少所需记录数据量。

结果

为了评估模型的性能,我们在预处理步骤上遵循与训练中相同的流程。不同之处在于,我们使用录制的IRs作为评估集,并排除了训练数据中的语音和噪声音频。推理后,分离出来的输出音频被传递到一个现成的自动语音识别(ASR)引擎进行计算单词错误率(WER)。我们使用未经修改过且与Pixel Recorder APP中使用的引擎相同的ASR引擎,在每个模型上重复执行相同推理过程以便与下面总结结果进行比较。

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术,ar,语音识别,人工智能

研究结果显示,使用混合数据集训练的模型相较于仅从记录数据集或模拟数据集训练的模型表现更优。混合模型S[4000]+M[720](包含4000个模拟和720个测量)与M[1440](包含1440个测量)具有类似性能,由于训练数据中已经包含了4000个模拟IRs,因此只需一半数量的记录- 1440→720 -。同时,S[4000]+M[720]也优于在S[8000](包含8000个模拟)上进行训练的模型,这说明小子集中所提取出来的记录IRs数量减少了所需的模拟IRs数量(8000→4000 )。

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术,ar,语音识别,人工智能

不同的数据增强方法与实测和模拟IRs进行比较。M表示测量,S表示模拟;括号中的内容分别代表IRs数量、D代表模拟中的麦克风指向性,G代表对被测房间使用匹配几何的模拟。WER的降低是相对于基线(没有声音分离)而言WER得到了改进。

结论

尽管可穿戴设备上的语音识别具有挑战性,特别是在噪声和混响条件下,但结论显示其具有解锁许多关键应用的潜力。本文量化了使用房间模拟器来训练作为语音识别前端的声音分离模型的有效性。通过(a)大幅增加可用模拟IRs数量、(b)利用麦克风指向性以及(c)与少量测量IRs合并,证明了模拟IRs对提高语音识别至关重要。

仿真技术成为开发可穿戴语音识别系统强有力的工具。我们得出一个重要结论:逼真的声学建模可以显著减少所需真实世界数据量,并且即使使用模拟数据来补充有限真实世界数据也能带来巨大性能提升。

这项研究为强大的语音驱动AR体验开辟了新途径,并为无数应用程序中增强通信铺平了道路。文章来源地址https://www.toymoban.com/news/detail-857442.html

到了这里,关于谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于微信小程序对酒店房间预约系统的设计与实现 毕业设计开题报告

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、

    2024年02月05日
    浏览(47)
  • 基于PID控制器的四旋翼无人机控制系统的simulink建模与仿真,并输出虚拟现实动画

    目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1四旋翼无人机的动力学模型 4.2 PID控制器设计 4.3 姿态控制实现 4.4 VR虚拟现实动画展示 5.完整工程文件        基于PID控制器的四旋翼无人机控制系统的simulink建模与仿真,并输出vr虚拟现实动画,输出PID控制器

    2024年04月09日
    浏览(62)
  • 探索检索增强生成(RAG)技术的无限可能:Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成

    由于 RAG 的整体思路是首先将文本切分成不同的组块,然后存储到向量数据库中。在实际使用时,将计算用户的问题和文本块的相似度,并召回 top k 的组块,然后将 top k 的组块和问题拼接生成提示词输入到大模型中,最终得到回答。 优化点: 优化文本切分的方式,组块大小

    2024年02月02日
    浏览(37)
  • 基于Django高校校园教室实验室房间预约管理系统设计与实现(Pycharm+Python+Mysql)

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,学习后应对毕业设计答辩。 项目配有对应开发文档、

    2024年03月18日
    浏览(95)
  • 谷歌将发布全新搜索引擎,你期待吗?

    Google一身自带AI属性的新搜索最首要的目标并非急于取代传统搜索引擎,或者说彻底打败ChatGPT,而是能够用全新的产品说服用户,变得与竞争对手同样“强大、能力出众以及顺应AI潮流”。 对于Google而言,搜索就是命脉。Google每年的收入有八成来自广告业务,而广告收入的八

    2024年02月05日
    浏览(57)
  • Unity项目发布谷歌AAB+PAD

    一切的根源都在谷歌商店。 谷歌商店一直对上架的应用和游戏有严格的要求。最早期的时候,谷歌商店要求apk容量限制在50mb内,后来随着应用的普遍容量增大,谷歌商店把apk的容量限制放宽到100mb。 但对于游戏来说,100mb的容量明显不够用。于是谷歌在早期提出了apk+obb(Opa

    2023年04月24日
    浏览(53)
  • 关于虚拟机安装macos时遇到的无限报错重启问题

    。笔者在虚拟机安装macos时遇到了5国语言的报错,一直想不通要怎么办.到最后解决了也不知道是哪里的步骤解决了问题.以下是报错及其解决过程 1:按教程做好后启动虚拟机安装,提示客户机禁用了cup,这个问题好解决,以下链接是一篇根据不同处理器的解决方法--注意,不要在虚拟

    2024年02月08日
    浏览(49)
  • 谷歌发布一个免费的生成式人工智能课程

    在过去几周,我们看到的都是AI将如何改变生活,无论是ChatGPT的文本生成,还是SD,Midjourney 的图像生成,这些AI的特点就是都是生成式的AI。而几天前,谷歌推出了一个生成式人工智能学习课程,课程涵盖了生成式人工智能入门、大型语言模型、图像生成等主题。 除了课程外

    2024年02月08日
    浏览(49)
  • 【数学建模笔记】【第七讲】多元线性回归分析(二):虚拟变量的设置以及交互项的解释,以及基于Stata的普通回归与标准化回归分析实例

    温馨提示: 本文共有9683字,阅读并理解全文需要半小时左右 书接上文,上文谈到内生性的解决之后,我们对回归问题的探究还没有完。 比如下面这个问题: 我们说线性回归他的表达式可以是广义的,可以含有二次项,可以含有对数项,那么含有对数项的模型中的β怎么解释

    2023年04月25日
    浏览(55)
  • 谷歌发布Gemini以5倍速击败GPT-4

    在Covid疫情爆发之前,谷歌发布了MEENA模型,短时间内成为世界上最好的大型语言模型。谷歌发布的博客和论文非常可爱,因为它特别与OpenAI进行了比较。 相比于现有的最先进生成模型OpenAI GPT-2,MEENA的模型容量增加了1.7倍,并且训练数据增加了8.5倍。 这个模型的训练所需的

    2024年02月11日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包