Whisper技术导读

这篇具有很好参考价值的文章主要介绍了Whisper技术导读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

朋友们,openai去年9月出了重磅产品whisper,这个是ASR领域,尤其是开源领域的重磅,里面设计的技术将通过论文去讲解,下面从头带大家去学习。

Whisper技术导读,qt,机器学习,自动驾驶

摘要:

在68万小时的多语言和多任务监督中,所得到的模型很好地泛化到标准基准,并且通常与之前的完全监督结果相抗衡,且zero-shot中不需要任何微调 。与人类相比,模型的准确性和稳健性都有所提高。我们正在发布模型和推理代码,作为进一步研究鲁棒语音处理的基础。

介绍:

2020年的wav2vec为语音处理起到了非常大的推动作用,因为他可以从无需人类标记的原始语音中直接的学习,并且很有成效的把无标签数据扩张到了1百万小时,远超1000小时的有监督数据。当对标准基准进行微调时,这种方法已经改进了当前的技术水平,特别是在低数据设置中。

这些预先训练过的音频编码器学习高质量的语音表示,由于它们完全不受监督,它们缺乏等效性能的解码器,将这些表示映射到可用的输出,需要一个微调阶段才能实际执行语音识别。微调依旧很复杂,需要专业的技术人员去做,这也限制了他的应用。

一个在一个数据集上训练时达到“超人”性能的模型,在另一个数据集上评估时仍然会犯许多基本错误,这可能正是因为它利用了那些人类忽略的数据集特定的怪癖。

这表明,虽然无监督的预训练极大地提高了音频编码器的质量,但缺乏同等高质量的预训练解码器,是限制其有用性和鲁棒性的关键弱点。有监督数据有5,140个小时,这对比1百万的无监督数据而言,还是不够。为了解决这个问题,只能适当放宽数据要求,把严格监督改为弱监督数据,这样就可以把1w小时的数据扩展到3w,质与量之间的权衡通常是正确的选择。

尽管到目前为止在语音识别方面还没有得到充分的研究,但最近在计算机视觉方面的工作已经表明,将金标准的众包数据集(如ImageNet (Russakovsky et al., 2015))移动到更大但监督较弱的数据集,可以显著提高模型的抗噪性和泛化性

然而,这些新的数据集只比现有高质量数据集的总和大几倍,仍然比以前的无人监督的工作小得多。在这项工作中,我们缩小了这一差距,将弱监督语音识别的数量级扩大到68万小时的标记音频数据,我们称我们的方法为Whisper。并且,我们还扩展了语音数据的语言范围,这反而有助于多任务和多语言的模型具备更好的泛化。文章来源地址https://www.toymoban.com/news/detail-518170.html

到了这里,关于Whisper技术导读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器视觉与嵌入式技术:开拓自动驾驶和远程监控新视野

    (本文为简单介绍,观点源于网络) 机器视觉系统是指利用计算机来模拟人眼的识别与判断。在自动驾驶和远程监控领域,机器视觉结合嵌入式技术的应用,不仅极大地提升了自动化水平,而且开辟了新的技术视野。 在自动驾驶领域,机器视觉系统负责捕捉车辆周围的环境

    2024年02月19日
    浏览(38)
  • 初识自动驾驶技术之旅 第一课 学习笔记

      ​  🎬  江城开朗的豌豆 :个人主页  📝   个人网站   :《 江城开朗的豌豆🫛 》   🔥  个人专栏  : 《 VUE 》 《 javaScript 》 ⛺️  生活的理想,就是为了理想的生活 ! ​ 目录   📚 前言   📘 1.  自动驾驶人才需求与挑战                   📘 2.  Apo

    2024年02月09日
    浏览(41)
  • 【自动驾驶】贝叶斯算法在机器学习中的应用研究

    目录 第一章:引言 1.1 贝叶斯算法在机器学习中的重要性 1.2 研究背景 1.3 研究目的 1.4 论文结构 第二章:贝叶斯算法概述 2.1 贝叶斯定理 2.2 贝叶斯算法分类 第三章:贝叶斯算法在机器学习中的应用 3.1 贝叶斯分类器 3.2 贝叶斯回归 3.3 贝叶斯聚类 第四章:贝叶斯优化与贝叶斯

    2024年04月16日
    浏览(30)
  • 百度Apollo学习心得:探索自动驾驶技术的前沿之旅

    百度Apollo是一项引领自动驾驶技术发展的开放平台,通过深度学习、感知与决策、定位与控制等关键技术,为开发者提供了丰富的工具和资源。在学习百度Apollo的过程中,我深刻认识到自动驾驶技术的重要性和挑战,并积累了宝贵的学习心得。本文将分享我的学习心得,希望

    2024年02月11日
    浏览(38)
  • 5.【自动驾驶与机器人中的SLAM技术】2D点云的scan matching算法 和 检测退化场景的思路

    这里实现了基于g2o优化器的优化方法。 图优化中涉及两个概念-顶点和边。我们的优化变量认为是顶点,误差项就是边。我们通过g2o声明一个图模型,然后往图模型中添加顶点和与顶点相关联的边,再选定优化算法(比如LM)就可以进行优化了。想熟悉g2o的小伙伴们感兴趣的话

    2024年02月03日
    浏览(45)
  • 高翔:《自动驾驶与机器人中的SLAM技术 》-Slam_in_autonomous_driving 编译过程中遇到的问题

    使用的环境是ubuntu20.04 问题1.安装g2o没有问题,不过在编译整个项目工程时候报错: ”openmp_mutex.h: 30:10: fatal error: g2o/config.h: No such file or directory“: 解决办法: 问题2. No rule to make target ’gmock’,needed by \\\'../bin/test_preintegration\\\' . stop src/ch4/CMakeFiles/test_preintegration.dir/all] Error 2:

    2024年02月03日
    浏览(41)
  • 自动驾驶技术综述1:自动驾驶算法软件架构介绍

    前言: 自动驾驶技术是一个庞大的工程体系,软件架构、功能算法、控制规划、感知识别、建图定位、电气架构、车载控制器、验证体系等等,有太多的角度可以去切入。对于自动驾驶功能与算法开发,自动驾驶功能的分级是很重要的,自动驾驶的功能衍变就是随着自动驾驶

    2024年02月06日
    浏览(42)
  • 年内实现全面自动驾驶?快来恶补一下自动驾驶技术吧

    在7月6日召开的2023世界人工智能大会上,特斯拉CEO斯克预测,随着人工智能技术的快速发展,大约在今年年末,就会实现全面自动驾驶。 他说,“我之前也做过许多类似的预测,我承认之前的预测也不完全准确,但是这一次的预测,我觉得是比较接近的。” 不知道小伙伴们

    2024年02月15日
    浏览(46)
  • 【Apollo】阿波罗自动驾驶:塑造自动驾驶技术的未来

    前言    Apollo (阿波罗)是一个开放的、完整的、安全的平台,将帮助汽车行业及自动驾驶领域的合作伙伴结合车辆和硬件系统,快速搭建一套属于自己的自动驾驶系统。 开放能力、共享资源、加速创新、持续共赢是 Apollo 开放平台的口号。百度把自己所拥有的强大、成熟、

    2024年02月12日
    浏览(46)
  • AI、大数据、量子计算、区块链、机器学习、深度学习、图像识别、NLP、搜索引擎、云计算、物联网、AR/VR、智能交通、智能驾驶等多个领域的基础技术到应用产品介绍

    作者:禅与计算机程序设计艺术 本文综述 AI、大数据、量子计算、区块链、机器学习、深度学习、图像识别、NLP、搜索引擎、云计算、物联网、AR/VR、智能交通、智能驾驶等多个领域,涵盖了从基础技术到应用产品的方方面面,大胆探索了未来数字化转型的机遇和挑战。 人工

    2024年02月11日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包