Whisper技术导读-Toy模板网

这篇具有很好参考价值的文章主要介绍了Whisper技术导读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

朋友们，openai去年9月出了重磅产品whisper，这个是ASR领域，尤其是开源领域的重磅，里面设计的技术将通过论文去讲解，下面从头带大家去学习。

Whisper技术导读,qt,机器学习,自动驾驶

摘要：

在68万小时的多语言和多任务监督中，所得到的模型很好地泛化到标准基准，并且通常与之前的完全监督结果相抗衡，且zero-shot中不需要任何微调。与人类相比，模型的准确性和稳健性都有所提高。我们正在发布模型和推理代码，作为进一步研究鲁棒语音处理的基础。

介绍：

2020年的wav2vec为语音处理起到了非常大的推动作用，因为他可以从无需人类标记的原始语音中直接的学习，并且很有成效的把无标签数据扩张到了1百万小时，远超1000小时的有监督数据。当对标准基准进行微调时，这种方法已经改进了当前的技术水平，特别是在低数据设置中。

这些预先训练过的音频编码器学习高质量的语音表示，由于它们完全不受监督，它们缺乏等效性能的解码器，将这些表示映射到可用的输出，需要一个微调阶段才能实际执行语音识别。微调依旧很复杂，需要专业的技术人员去做，这也限制了他的应用。

一个在一个数据集上训练时达到“超人”性能的模型，在另一个数据集上评估时仍然会犯许多基本错误，这可能正是因为它利用了那些人类忽略的数据集特定的怪癖。

这表明，虽然无监督的预训练极大地提高了音频编码器的质量，但缺乏同等高质量的预训练解码器，是限制其有用性和鲁棒性的关键弱点。有监督数据有5,140个小时，这对比1百万的无监督数据而言，还是不够。为了解决这个问题，只能适当放宽数据要求，把严格监督改为弱监督数据，这样就可以把1w小时的数据扩展到3w，质与量之间的权衡通常是正确的选择。

尽管到目前为止在语音识别方面还没有得到充分的研究，但最近在计算机视觉方面的工作已经表明，将金标准的众包数据集(如ImageNet (Russakovsky et al.， 2015))移动到更大但监督较弱的数据集，可以显著提高模型的抗噪性和泛化性

然而，这些新的数据集只比现有高质量数据集的总和大几倍，仍然比以前的无人监督的工作小得多。在这项工作中，我们缩小了这一差距，将弱监督语音识别的数量级扩大到68万小时的标记音频数据，我们称我们的方法为Whisper。并且，我们还扩展了语音数据的语言范围，这反而有助于多任务和多语言的模型具备更好的泛化。文章来源地址https://www.toymoban.com/news/detail-518170.html

到了这里，关于Whisper技术导读的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！