whisper技术导读2

这篇具有很好参考价值的文章主要介绍了whisper技术导读2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、数据处理

       根据最近利用互联网上的网络规模文本来训练机器学习系统的趋势,我们采用了一种极简的方法来进行数据预处理。与语音识别方面的许多工作相比,我们训练Whisper模型在没有任何显著标准化的情况下预测转录本的原始文本,依靠序列到序列模型的表现力来学习映射话语及其转录形式。

       这导致了一个非常多样化的数据集,涵盖了来自许多不同环境、录音设置、说话者和语言的广泛音频分布。虽然音频质量的多样性有助于训练模型的鲁棒性,但转录质量(该音频所以对应的文本具备多种text表达)的多样性并不是同样有益的。初步检查显示原始数据集中有大量不合格的转录本。为了解决这个问题,我们开发了几种自动过滤方法来提高成绩单质量。互联网上的很多转录并不是人生成的,而是ASR自动生成的。最近的研究表明,在混合人工和机器生成的数据集上进行训练会严重损害翻译系统的性能。许多现有的ASR系统只输出有限的书面语言子集,这些子集删除或标准化了仅从音频信号中难以预测的方面,如复杂的标点符号(感叹号、逗号和问号)、格式空白(如段落)或风格方面(如大写字母)。虽然许多ASR系统包括某种程度的反向文本规范化,但它通常是简单的或基于规则的,并且仍然可以从其他未处理的方面(例如从不包含逗号)检测到。我们还使用了一个音频语言检测器,该检测器是通过微调在VoxLingua107上的数据集的原型版本上训练的原型模型(Valk & Aluma e, 2021)来创建的,以确保口语与CLD2中记录的语言相匹配。我们将音频文件分成30秒的片段,并与那段时间内出现的文本子集配对。

2、模型

       由于我们的工作重点是研究语音识别的大规模监督预训练的能力,我们使用现成的架构来避免将我们的发现与模型改进相混淆。我们选择了一个编码器-解码器转换器(Vaswani等人,2017),因为该架构已经过很好的验证,可以可靠地扩展。所有的音频被重新采样到16000赫兹,一个80通道对数量级梅尔谱图表示是计算在25毫秒的窗口与10毫秒的跨步。对于特征归一化,我们将输入全局缩放到-1到1之间,在预训练数据集中近似为零均值。用与GPT- 2中相同的字节级BPE文本标记器(Sennrich等人,2015;Radford et al., 2019),并为多语言模型修改词汇表(但保持相同的大小),以避免在其他语言上过度碎片化,因为GPT-2 BPE词汇表仅为英语。

3、多任务模式

       尽管预测给定音频片段中的单词是完整语音识别问题的核心部分,并且在研究中得到了广泛的研究,但它并不是唯一的部分。一个功能齐全的语音识别系统可能涉及许多额外的组件,如语音活动检测、说话人拨号和反向文本规范化。这些组件通常是单独处理的,导致围绕核心语音识别模型的相对复杂的系统。为了降低这种复杂性,我们希望有一个单一的模型来执行整个语音处理管道,而不仅仅是核心识别部分。

       这里需要考虑的一个重要问题是模型的接口。在相同的输入音频信号上可以执行许多不同的任务:转录、翻译、语音活动检测、对齐和语言识别是一些例子。体地说,我们以一定的概率将当前音频片段之前的文本添加到解码器的上下文中。对于时间戳预测,我们预测相对于当前音频片段的时间,将所有时间量化到最接近的20毫秒,这与Whisper模型的原生时间分辨率相匹配,并为每个时间段添加额外的标记到我们的词汇表中。我们将它们的预测与标题标记穿插在一起:在每个标题文本之前预测开始时间标记,然后预测结束时间标记。

whisper技术导读2

 4、训练细节

为了研究Whisper的缩放特性,我们训练了一套不同大小的模型。在早期的开发和评估中,我们观察到Whisper模型倾向于转录对说话者姓名的合理但几乎总是错误的猜测。

 5、实验

Whisper的目标是开发一个单一的健壮的语音处理系统,它可以可靠地工作,而不需要对数据集进行特定的微调,从而在特定的分布上获得高质量的结果。为了研究这种能力,我们重用了一组广泛的现有语音处理数据集来检查Whisper是否能够很好地跨领域、任务和语言进行泛化。我们没有使用这些数据集的标准评估协议,其中包括训练和测试分割,而是在零射击设置中评估Whisper,而不使用每个数据集的任何训练数据,因此我们测量的是广泛的泛化。

6、评估指标

       语音识别研究通常基于单词错误率(WER)度量来评估和比较系统。然而,基于字符串编辑距离的WER会将模型输出和参考文本之间的所有差异(包括脚本风格上的无害差异)。因此,输出被人类判断为正确的转录本的系统仍然可能由于轻微的格式差异而具有较大的WER。虽然这对所有转录器来说都是一个问题,但对于像Whisper这样的零射击模型来说尤其严重,因为它没有观察到任何特定数据集转录格式的例子。

       这并不是一个新发现;开发与人类判断更好相关的评估指标是一个活跃的研究领域,虽然有一些很有前途的方法,但还没有一个被广泛应用于语音识别。

耳语模型是在广泛而多样的音频分布上进行训练的,并在零射击环境下进行评估,它可能比现有的系统更能匹配人类的行为。为了研究情况是否如此(或者机器和人类表现之间的差异是否是由于尚未被理解的因素),我们可以将Whisper模型与人类表现和标准微调机器学习模型进行比较,并检查它们更接近匹配。在我们的分析中,我们使用librisspeech作为参考数据集,因为它在现代语音识别研究中的核心作用,以及许多在其上训练的发布模型的可用性,这允许表征鲁棒性行为。我们使用另外12个学术语音识别数据集来研究分布外行为。虽然最好的zero-shot的whisper模型的librisspeech清洁测试的WER相对不显著,为2.5,这大致相当于现代监督基线或2019年中期的最先进水平,但它与监督librisspeech模型具有非常不同的鲁棒性,并且在其他数据集上表现优于所有基准的Lib- riSpeech模型,因为预训练无监督所以他和wav2vec去对比是最合适的。

whisper技术导读2

 

这一发现建议强调对模型的零概率和非分布评估,特别是在与人类表现进行比较时,以避免由于误导性比较而夸大机器学习系统的能力。

后面还有多语言模型、翻译等等,与技术相关弱,多于测评相关,就不细讲了。文章来源地址https://www.toymoban.com/news/detail-492825.html

到了这里,关于whisper技术导读2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云计算与大数据处理技术_云计算与大数据处理

    AIoT技术分析:云计算一般的计算机技术很难支撑企业的运作,于是云计算顺应时代而生,广泛地应用到了企业中。 云计算的概念 云计算是一种新兴的商业计算模型。... 并支持大规模数据处理、高容错性和自我管理等特性,提供PB级的存储能力,使用结构化的文件来存储数据,并整个

    2024年02月01日
    浏览(56)
  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(52)
  • 大数据处理技术-头歌平台-答案

    这里是大数据处理技术的实训作业 ,学校使用的是“头歌”平台。(我已经不想吐槽了) 开始的几章很简单,所以没有写 其中有几章题目,仅仅需要ctrl+c ctrl+v即可,只是操作步骤麻烦一下,所以也没有写。 第一关:单机版安装 替换原有的configuration标签 第三关 第一关:伪

    2023年04月26日
    浏览(42)
  • 智能文档图像处理技术:解决大数据时代文档图像处理难题

    智能文档图像处理技术是指利用计算机视觉和人工智能等技术对文档图像进行处理和分析,实现自动化识别、提取、分类和管理的技术。随着人工智能时代的到来和各行业信息化进程的加速,越来越多的个人和企业用户开始借助智能文档图像处理技术来提高工作效率,降低人

    2024年02月09日
    浏览(45)
  • Spark与其他大数据技术的集成:实现数据处理的融合

    大数据技术已经成为当今企业和组织中不可或缺的一部分。随着数据的规模和复杂性的增加,需要更高效、可靠的数据处理和分析方法。Apache Spark作为一个开源的大数据处理框架,已经成为了许多企业和组织中的首选。然而,在实际应用中,Spark往往需要与其他大数据技术进

    2024年02月21日
    浏览(50)
  • Hadoop大数据处理技术-初步了解Hadoop

    ​ 云计算,听起来就像是什么仙气十足的东西,但其实它并不神秘。简单来说,云计算就是通过网络(通常是互联网)来提供各种计算服务,包括存储、数据库、软件、网络等,而不是依靠个人计算机或本地服务器来处理。想象一下,就好像你可以通过互联网租用一台强大的

    2024年04月22日
    浏览(37)
  • 【spark大数据】spark大数据处理技术入门项目--购物信息分析

    购物信息分析基于spark 目录 本案例中三个文案例中需要处理的文件为 order_goods.txt、products.txt 以及 orders.txt 三个文件,三个文件的说明如下 一、本实训项目针对实验数据主要完成了哪些处理? 二、Hadoop+Spark集群环境的搭建步骤有哪些?(只介绍完全分布式集群环境的搭建)

    2023年04月08日
    浏览(64)
  • 大数据技术原理与应用 实验6 Spark数据处理系统的搭建

    熟悉常用的Spark操作。 1.熟悉Spark Shell的使用; 2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。 操作系统:Linux Spark版本: 1.6 Hadoop版本: 3.3.0 JDK版本:1.8 使用Spark shell完成如下习题: a)读取Spark安装目录下的文件README.md(/usr/local/spark/README.md); b)统计包含“Spark”的单词

    2024年02月09日
    浏览(60)
  • Flink:处理大规模复杂数据集的最佳实践深入探究Flink的数据处理和性能优化技术

    作者:禅与计算机程序设计艺术 随着互联网、移动互联网、物联网等新型网络技术的不断发展,企业对海量数据的处理日益依赖,而大数据分析、决策支持、风险控制等领域都需要海量的数据处理能力。如何高效、快速地处理海量数据、提升处理效率、降低成本,是当下处理

    2024年02月13日
    浏览(56)
  • 【数据挖掘与人工智能自然语言处理】自然语言处理和人工智能:如何利用自然语言处理技术进行数据挖掘

    作者:禅与计算机程序设计艺术 随着互联网和大数据时代的到来,数据挖掘已成为各个行业的热门话题。数据挖掘的核心在于发现数据中的有价值信息,而自然语言处理(NLP)技术是实现这一目标的重要手段。本文旨在通过自然语言处理技术进行数据挖掘,为数据挖掘提供一

    2024年02月05日
    浏览(96)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包