WhisperFusion:具有超低延迟无缝对话功能的AI系统

这篇具有很好参考价值的文章主要介绍了WhisperFusion:具有超低延迟无缝对话功能的AI系统。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

WhisperFusion 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。

LLM 和 Whisper 都经过优化,可作为 TensorRT 引擎高效运行,从而最大限度地提高性能和实时处理能力。WhiperSpeech 是通过 torch.compile 进行优化的。

特征

  • 实时语音转文本:利用 OpenAI WhisperLive 将口语实时转换为文本。

  • 大型语言模型集成:添加大型语言模型 Mistral,以增强对转录文本的理解和上下文。

  • TensorRT 优化:LLM 和 Whisper 都经过优化,可作为 TensorRT 引擎运行,确保高性能和低延迟处理。

  • torch.compile:WhisperSpeech 使用 torch.compile 来加速推理,通过将 PyTorch 代码 JIT 编译到优化的内核中,使 PyTorch 代码运行得更快。

入门

  • 我们提供了一个预构建的 TensorRT-LLM docker 容器,该容器将 Whisper 和 phi 转换为 TensorRT 引擎,并且预先下载 WhisperSpeech 模型以快速开始与 WhisperFusion 交互。

 docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest
  • 启动网页图形用户界面

cd examples/chatbot/htmlpython -m http.server

构建 Docker 镜像

我们提供 cuda-architecures 89 和 90 的 docker 映像。如果您有具有不同 cuda 架构的 GPU。例如使用 cuda-架构 86 为 RTX 3090 构建

bash build.sh 86-real

这应该为 RTX 3090 构建 ghcr.io/collabora/whisperfusion:latest 。

项目链接

https://github.com/collabora/WhisperFusion文章来源地址https://www.toymoban.com/news/detail-828849.html

到了这里,关于WhisperFusion:具有超低延迟无缝对话功能的AI系统的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Verilog数字系统设计——10进制计数器,具有异步复位功能

    编程实现10进制计数器,具有异步复位功能,十位和个位用8421BCD码表示,各端口定义如下图所示: 仔细考虑端口定义中每个端口的含义; 要求完成程序编辑、编译、时序仿真; 实验提交Verilog设计文件(.v文件)、仿真波形截图以及对于第3个步骤所提出问题的回答,文件打包

    2024年02月11日
    浏览(28)
  • 无脑利用API实现文心一言AI对话功能?(附代码)

    前言:在当今数字化的时代,人工智能(AI)技术正在不断演进,为开发者提供了丰富的工具和资源。其中, API(应用程序接口) 成为构建强大AI应用的关键组成部分之一。本文将介绍如何利用API来打造一个AI对话网站,使用户能够与智能系统进行交互。 以下内容不作太多解

    2024年02月04日
    浏览(38)
  • 小程序AI智能名片商城系统直连:打造用户与企业无缝对接的新时代!

    在高度不确定性的商业环境中,企业如何快速响应市场变化,实现与用户的零距离接触?答案就是——小程序AI智能名片商城系统直连!这一创新工具不仅为企业打开了与用户直接连接的大门,更为企业提供了持续收集用户反馈、快速迭代产品的强大武器。 传统企业中,与用

    2024年04月26日
    浏览(49)
  • 新版Win11巨变:无缝集成GPT-4!系统级生成式AI工具Copilot来了

    继为Office套件带来AI助手Microsoft 365 Copilot后,微软在今晚的Build 2023大会上宣布,Windows Copilot将全面降临Windows 11操作系统。 Windows Copilot简言之就是Bing AI聊天的Windows桌面版,基于GPT-4打造,它可以帮助你自动化各种任务,包括复制粘贴、截图、管理多窗口等。 按计划,Windows

    2024年02月12日
    浏览(26)
  • 计算机组成原理实验三-----系统总线和具有基本输入输出功能的总线接口实验

        总线是计算机中连接各个功能部件的纽带,是计算机各部件之间进行信息传输的公共通路。 总线不只是一组简单的信号传输线,它还是一组协议。他有两大特征   分时:   同一总线在同一时刻, 只能有一个部件占领总线发送信息 ,其他部件要发送信息得在该 部件发送

    2024年02月01日
    浏览(42)
  • AI人工智能对话系统网页版源码系统 附带完整的搭建教程

    AI人工智能对话系统网页版源码系统的开发背景主要是基于自然语言处理技术和机器学习算法的不断发展。自然语言处理技术使得计算机能够理解和分析人类语言,而机器学习算法则能够让计算机自我学习和改进,不断提高对话系统的智能化水平。 此外,随着互联网的普及和

    2024年02月03日
    浏览(43)
  • 《论文阅读》具有特殊Token和轮级注意力的层级对话理解 ICLR 2023

    前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家带来的是《HIERARCHICAL DIALOGUE UNDERSTANDING WITH SPECIAL TOKENS AND TURN-LEVEL ATTENTION》 出版:ICLR 时间ÿ

    2024年02月15日
    浏览(32)
  • 具有超低功耗性能的R7F102GAC3CSP、R7F102GAC2DSP、R7F102G6C3CSP RL78/G22微控制器 16-bit MCU

    RL78/G22 简介: 除了具有低电流消耗(CPU工作时:37.5μA/MHz;STOP时:200nA)外,RL78/G22微控制器还配备了丰富的电容触摸通道。完备的16-48引脚封装和32KB-64KB闪存,扩充了新一代RL78通用微控制器的产品线。 除了最大工作频率32MHz、广泛的工作电压范围(1.6V-5.5V) 和增强的模拟和

    2024年02月21日
    浏览(30)
  • 大规模AI计算集群的网络环境需求,Infiniband还是超低时延以太网?

    早在2019年向 OpenAI 投资10亿美元的时候起,微软就同意为这家 AI 初创企业构建 一台大型超级计算机 。近期,微软在官博上连发两文,亲自解密了这台超级昂贵的超级计算机以及Azure的重磅升级。负责云计算和AI业务的微软副总裁 Scott Guthrie 表示, 微软在这个项目上花费了数亿

    2024年02月10日
    浏览(28)
  • AI创作系统ChatGPT源码+AI绘画系统+支持OpenAI DALL-E3文生图,可直接对话文生图

    SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。新增支持最新GPT-4多模态模型、OpenAI GPT-4-Turbo-With-Visio

    2024年01月17日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包