《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

这篇具有很好参考价值的文章主要介绍了《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介:

OpenAI的chatGPT非常火爆,其实OpenAI旗下的另一个模型实力也十分强大,它就是开源免费的Whisper语音转文本模型,目前为止它是较为顶尖的语音转文本模型

当前github上也有许多出色的开发者根据此模型开发出桌面版语音转文字应用。较为出色的分别是Buzz和WhisperDesktop

功能:

  • 支持将多种语言的视频或者音频文件,转换成字幕文件、带时间轴的文本、纯文本。
  • 支持多语言音翻译成英文
  • 英文可以使用网页翻译功能翻译成中文

用途:

  • 字幕文件导入剪辑软件可以一键上字幕,生产力MAX
  • 配合PotPlayer能够生成双语字幕,学习英语简直离不开它俩
  • 对于纯外语不带字幕靠听力的视频资料,简直不要太友好
  • 视野开阔的必备工具,经常了解世界顶尖科技的童鞋们应该知道,大佬们的视频基本都是口述讲解,有了它,随时随地快速学习。

优劣势:

  • 准确率极高!超出你使用过的绝大多数在线转写!OpenAI训练的模型就不用多说了吧!基本不需要二次修改!
  • 速度超快!Whisper使用GPU进行转写(仅支持N卡),5分钟的视频还是使用最大的模型,亲测只需要30秒!(没有对比就没有伤害,只有剪过视频的同学才知道其他软件的痛)
  • 永久免费!一些在线转字幕网站收费真的很贵,时间真的很长!
  • 对于GPU性能弱的同学,Buzz使用CPU转写,虽然准但是速度真的很慢,使用最大模型5分钟的视频能需要10分钟。
  • 仅支持本地使用,网页视频我从来不会用这个,网页视频可以使用插件生成双语字幕,也很轻松,这里不做过多介绍。

下面贴出他们的官网:GitHub - chidiwilliams/buzz: Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAI's Whisper.和GitHub - Const-me/Whisper: High-performance GPGPU inference of OpenAI's Whisper automatic speech recognition (ASR) model​​​​​​

使用说明:

仅演示Whisper,Buzz和Whisper仅仅是界面不同,从官网下载后打开软件程序,首先选择模型,模型和程序都在上面的官网中。

《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

点击ok等待结束,然后第一栏选择原音视频的语音,translate若勾选则输出英文,不勾选直接输出原音视频语言。

《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

地址栏第一行选择音视频地址,第二行选择输出地址,若勾选place that file选项则代表输出到原文件夹中。output format选项中选择输出类型:纯文本,带时间轴的文本,字幕srt文件等。

结束语:

汪~到这里教程完全结束了!本人不推荐buzz,由于它使用cpu处理文件,导致它处理速度和其他软件速度不相上下。如果您的电脑为轻薄本,建议使用在线服务,例如讯飞每天有免费额度官网如下:讯飞听见-免费在线录音转文字-语音转文字-录音整理-语音翻译软件

但是您仍然可以使用buzz因为它真的很准确,远超其他软件并且免费。

博主有话说:

算是给看到最后的人的福利吧建议看完


还记得三四年前大概是我大一的时候,剪视频只能用一写普通的模型转换文字,准确率很差,每次几乎每句话都要重新修改,加字幕甚至需要一个小时以上,累得要死。

一两年前,出现了类似讯飞这种语音行业顶尖的企业,准确率大幅提升,我开始用手机语音转文字,再把文字放入剪映中,加字幕不到半小时,但还是很麻烦。

现在,AI训练无数参数生成的模型,准确率高的不用我再检查,一键生成工具能够调用模型,生成处理完成仅用几分钟。


人工智能真的是发展的飞快,世间也是沧海桑田,合理运用工具的人只会效率更高,我深有感触,在最近的这些日子里,我学会了用chatgpt的API总结视频网站,一瞬间爬取字幕,并总结视频。这让我学习教学视频时知道哪些是我想要的,能够快速获取知识点。我学会了一键用chatgpt总结网页,并列举主要内容,这使我在学习不同领域的知识时能够快速获取要点,还有好多。。


有些跑题了,就说到这里,但是这些能够真真切切的提升我的学习效率。有那么一句话真的说的很对,AI不一定会淘汰你,淘汰你的是使用AI工具的人。至此,对大家进行警醒,跟随时代进步,我们才会进步。否则我们就会像上一代长辈不会使用手机一样,被时代淘汰。


人生,是不断的学习的过程,共勉。


以后在我博客中,不会再提及类似的感悟,算是给现在关注我的几十个粉丝们的小福利吧!最后,文章内容全部手打,本文用时6个小时。喜欢的朋友快来关注我吧!汪!(后续的文章可能会越来越精简了)

附图

附图:调用chatgpt的api总结一篇教学文章,文章是随机找的。

《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

 附图:对某个网页视频进行总结。

《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

 还没想好后续写什么,关注我,由浅入深学东西,欢迎私信!文章来源地址https://www.toymoban.com/news/detail-417979.html

到了这里,关于《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Whisper语音识别的实时视频字幕生成 (一): 流式显示视频帧和音频帧

    Whistream(微流)是基于Whisper语音识别的的在线字幕生成工具,支持rtsp/rtmp/mp4等视频流在线语音识别 whishow(微秀)是python实现的在线音视频流播放器,支持rtsp/rtmp/mp4等流式输入,也是whistream的前端。python实现原理如下: (1) SPROCESS.run() 的三个子线程负责:缓存流数据,处理音

    2024年04月13日
    浏览(61)
  • 基于whisper模型的在线添加视频字幕网站(持续更新)

    Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除

    2024年02月03日
    浏览(39)
  • 基于OpenAI的Whisper构建的高效语音识别模型:faster-whisper

    faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理

    2024年02月02日
    浏览(61)
  • 【开源工具】使用Whisper提取视频、语音的字幕

    运行 WhisperDesktop.exe , 启动后加载模型“load model,please wait…”,等待其将模型加载到内存。 2.1 下载模型 刚开始是没有模型的,需要到Hugging Face 2 的仓库里面下载模型并配置相关路径 2.1.1 进入Hugging Face 2 的仓库 点击 ggerganov/whisper.cpp 进入Hugging Face仓库 2.1.2 选择需要下载的模型

    2024年02月09日
    浏览(50)
  • 【开源工具】使用Whisper将提取视频、语音的字幕

    运行 WhisperDesktop.exe , 启动后加载模型“load model,please wait…”,等待其将模型加载到内存。 2.1 下载模型 刚开始是没有模型的,需要到Hugging Face 2 的仓库里面下载模型并配置相关路径 2.1.1 进入Hugging Face 2 的仓库 点击 ggerganov/whisper.cpp 进入Hugging Face仓库 2.1.2 选择需要下载的模型

    2024年02月08日
    浏览(55)
  • whisper实践--基于whisper+pyqt5开发的语音识别翻译生成字幕工具

    大家新年快乐,事业生活蒸蒸日上,解封的第一个年,想必大家都回家过年,好好陪陪家人了吧,这篇文章也是我在老家码的,还记得上篇我带大家基本了解了whisper,相信大家对whisper是什么,怎么安装whisper,以及使用都有了一个认识,这次作为新年第一篇文章,我将介绍一

    2024年02月01日
    浏览(44)
  • Whisper OpenAI开源语音识别模型

    Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除

    2024年02月16日
    浏览(55)
  • OpenAI-whisper语音识别模型

    Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求

    2024年02月09日
    浏览(61)
  • 使用OpenAI的Whisper 模型进行语音识别

    原文:https://baijiahao.baidu.com/s?id=1756232395896695428wfr=spiderfor=pc 语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。 该技术用于 Alexa 和各种聊天机器人应用程序等设备。 而我们最常见的就是语音转录,语音转录可以语音转换为文字记录或字幕。

    2024年02月03日
    浏览(62)
  • OpenAI Whisper 语音识别 API 模型使用 | python 语音识别

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一个 Whisper 的语音识别模型。支持96种语言。 Python 安装 openai 库后,把需要翻译的音频目录放进去,运行程序即可生成音频对应的文字。 以上。

    2024年02月16日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包