朋友们,openai去年9月出了重磅产品whisper,这个是ASR领域,尤其是开源领域的重磅,里面设计的技术将通过论文去讲解,下面从头带大家去学习。
摘要:
在68万小时的多语言和多任务监督中,所得到的模型很好地泛化到标准基准,并且通常与之前的完全监督结果相抗衡,且zero-shot中不需要任何微调 。与人类相比,模型的准确性和稳健性都有所提高。我们正在发布模型和推理代码,作为进一步研究鲁棒语音处理的基础。
介绍:
2020年的wav2vec为语音处理起到了非常大的推动作用,因为他可以从无需人类标记的原始语音中直接的学习,并且很有成效的把无标签数据扩张到了1百万小时,远超1000小时的有监督数据。当对标准基准进行微调时,这种方法已经改进了当前的技术水平,特别是在低数据设置中。
这些预先训练过的音频编码器学习高质量的语音表示,由于它们完全不受监督,它们缺乏等效性能的解码器,将这些表示映射到可用的输出,需要一个微调阶段才能实际执行语音识别。微调依旧很复杂,需要专业的技术人员去做,这也限制了他的应用。
一个在一个数据集上训练时达到“超人”性能的模型,在另一个数据集上评估时仍然会犯许多基本错误,这可能正是因为它利用了那些人类忽略的数据集特定的怪癖。
这表明,虽然无监督的预训练极大地提高了音频编码器的质量,但缺乏同等高质量的预训练解码器,是限制其有用性和鲁棒性的关键弱点。有监督数据有5,140个小时,这对比1百万的无监督数据而言,还是不够。为了解决这个问题,只能适当放宽数据要求,把严格监督改为弱监督数据,这样就可以把1w小时的数据扩展到3w,质与量之间的权衡通常是正确的选择。
尽管到目前为止在语音识别方面还没有得到充分的研究,但最近在计算机视觉方面的工作已经表明,将金标准的众包数据集(如ImageNet (Russakovsky et al., 2015))移动到更大但监督较弱的数据集,可以显著提高模型的抗噪性和泛化性文章来源:https://www.toymoban.com/news/detail-518170.html
然而,这些新的数据集只比现有高质量数据集的总和大几倍,仍然比以前的无人监督的工作小得多。在这项工作中,我们缩小了这一差距,将弱监督语音识别的数量级扩大到68万小时的标记音频数据,我们称我们的方法为Whisper。并且,我们还扩展了语音数据的语言范围,这反而有助于多任务和多语言的模型具备更好的泛化。文章来源地址https://www.toymoban.com/news/detail-518170.html
到了这里,关于Whisper技术导读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!