【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记

这篇具有很好参考价值的文章主要介绍了【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

方法

Whisper在论文中表示使用单模型(single model)来完成多个语音任务(multitask),李沐教授认为优点是设计上比较干净

I. 关于单模型效果的疑问

但是他同时也提出了两个疑问:

  1. 使用单模型会不会跑得不够快(因为保证多任务的性能需要大参数的模型)
  2. 假设同时能做五个任务,假设有一个任务做得比较差,怎么办 [34:42]

2. “多个任务的性能如何取舍呢?”

【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记,whisper,学习文章来源地址https://www.toymoban.com/news/detail-596346.html

到了这里,关于【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于OpenAI的Whisper构建的高效语音识别模型:faster-whisper

    faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理

    2024年02月02日
    浏览(61)
  • OpenAI 开源语音识别 Whisper

            Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。                人工智能公司 OpenAI 拥有 GTP-3 语言模型,并为 GitHub Copilot 提供技术支持的 ,宣布开源了

    2024年02月09日
    浏览(71)
  • 如何使用OpenAI的whisper

    如果上述报错,就改为下面的方法: 模型的默认下载路径在:~/.cache/whisper/large-v2.pt 如果网速不佳,可以先在网速好的服务器上先下载好模型,再拷贝到本机 从下面cpu的结果看,tiny模型的结果不忍直视,而large_model的耗时,也无法忍受。 模型名称 cpu执行时间 结果 gpu执行时

    2024年02月08日
    浏览(48)
  • OpenAI的Whisper蒸馏:蒸馏后的Distil-Whisper速度提升6倍

    Whisper 是 OpenAI 研发并开源的一个自动语音识别(ASR,Automatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景噪音和技

    2024年02月04日
    浏览(36)
  • openai的whisper语音识别介绍

    openAI发布了chatgpt,光环一时无两。但是openAI不止有这一个项目,它的其他项目也非常值得我们去研究学习。 今天说说这个whisper项目 https://github.com/openai/whisper ta是关于语音识别的。它提出了一种通过大规模的弱监督来实现的语音识别的方法。弱监督是指使用不完全或不准确的

    2024年02月09日
    浏览(49)
  • Whisper OpenAI开源语音识别模型

    Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除

    2024年02月16日
    浏览(55)
  • OpenAI-whisper语音识别模型

    Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求

    2024年02月09日
    浏览(61)
  • 超快的 AI 实时语音转文字,比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper

    faster-whisper 这个项目是基于 OpenAI whisper 的模型,在上面的一个重写。 使用的是 CTranslate2 的这样的一个库,CTranslate2 是用于 Transformer 模型的一个快速推理引擎。 在相同精度的情况下,faster-whisper 的速度比 OpenAI whisper 快 4 倍,并且使用更少的内存。 这是 faster-whisper 与 OpenAI

    2024年03月27日
    浏览(51)
  • OpenAI Whisper and ChatGPT 语音助手

    麦克风输入,展示三种结果 输入ASR结果 输出文本 输出TTS结果 gradio==3.19.1 gTTS==2.3.1 openai==0.27.0 openai-whisper==20230124 使用以下命令安装 ffmpeg 需要科学上网,否则连接超时 参考:https://github.com/bhattbhavesh91/voice-assistant-whisper-chatgpt

    2024年02月03日
    浏览(46)
  • 使用OpenAI的Whisper 模型进行语音识别

    原文:https://baijiahao.baidu.com/s?id=1756232395896695428wfr=spiderfor=pc 语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。 该技术用于 Alexa 和各种聊天机器人应用程序等设备。 而我们最常见的就是语音转录,语音转录可以语音转换为文字记录或字幕。

    2024年02月03日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包