用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

这篇具有很好参考价值的文章主要介绍了用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?夕小瑶科技说 原创
作者 | 智商掉了一地 

借助 ChatGPT 强大的理解与生成能力,结合基础语音模型,集成模型 AudioGPT 诞生了!

最近基于 ChatGPT 的二创如雨后春笋一样冒出,上周我们一起看了黑客松优秀作品大赏,这周又有新脑洞横空出世。有篇将 ChatGPT 用于语音理解与生成任务的文章在近日引起热议。

该模型结合了一些音频基础模型来处理具有挑战性的音频任务,并提供了一个模态转换接口,实现了口语对话功能,它擅长在多轮对话中理解和生成语音、音乐、声音以及说话者特写。虽然这是一个集成模型,但它也展现了 AIGC 工具在更多领域中的潜力。

经过语音和文本之间的转换,借助 ChatGPT 强大的语言理解与生成能力,该模型可以实现用自然语言对于语音进行操作,比如风格迁移、语音识别、语音增强等。甚至还能用自然语言直接指挥 AI,让它声情并茂地演唱《小酒窝》,以及合成说话者特写。也许未来将有机会借助这样的插件,使我们不再局限于与 ChatGPT 进行文本式对话,还可以轻松地创造丰富多样的音频内容。

论文题目
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

论文链接
https://arxiv.org/abs/2304.12995

代码地址
https://github.com/AIGC-Audio/AudioGPT

Huggingface demo 地址
https://huggingface.co/spaces/AIGC-Audio/AudioGPT

ChatGPT传送门(免墙,可直接测试):
https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可):<br>
https://gpt4test.com


AudioGPT 支持的任务

AudioGPT 可以借助一些基础模型来理解和生成语音、音乐、声音以及说话者特写的任务,利用 ChatGPT 让生成和理解的结果更自然,其中包括:

音频到文本

  • 音频文本转换(Speech Recognition):将人类语音转换成文本 - 基础模型 Whisper;

  • 音频翻译(Speech Translation):将人类语音翻译成另一种语言 - 基础模型 MultiDecoder;

  • 音频字幕(Audio Caption):将音频描述转换成文本。

音频到音频

  • 音频风格转换(Style Transfer):根据参考样式生成带有对应风格的人类语音 - 基础模型 GenerSpeech;

  • 音频增强(Speech Enhancement):通过降噪等方式提高语音的质量 - 基础模型 ConvTasNet;

  • 语音分离(Speech Separation):分离混合多种语音的不同音频信号 - 基础模型 TF-GridNet;

  • 单声道转立体声(Mono-to-Binaural):将单声道音频转换成立体声 - 基础模型 NeuralWarp;

  • 填补音频空白(Audio Impainting):根据用户提供的 Mask 修复音频中的缺失部分 - 基础模型 Make-An-Audio。

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

音频到事件

  • 音频事件提取(Sound Extraction):根据描述提取音频片段;

  • 声音检测(Sound Detection):预测音频中事件的时间轴 - 基础模型 LASSNet。

音频到视频

  • 语音生成头像视频(Talking Head Synthesis):通过输入的音频生成一个说话的人类头像视频 - 基础模型 GeneFace。

文本到音频

  • 文本语音生成(Text-to-Speech):根据用户输入的文本生成人类语音 - 基础模型 FastSpeech 2。

图像到音频

  • 图像音频生成(Image-to-Audio):根据图像生成对应的音频 - 基础模型 Make-An-Audio。

乐谱到音频

  • 乐谱生成歌声(Singing Synthesis):根据输入的文本、音符和节奏生成歌声 - 基础模型 DiffSinger 和 VISinger。

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

模型速览

支持音频处理的 LLMs 的训练仍然具有挑战性,原因如下:

  1. 数据有限:获得人工标注的语音数据是一个昂贵和耗时的任务,而提供真实世界的口语对话的资源仅有少数可用。此外,与庞大的网络文本数据相比,数据量有限,而多语言的对话数据则更为稀缺。

  2. 浪费计算资源:从头开始训练多模态 LLM 需要大量的计算资源和时间。鉴于已经存在可以理解和生成语音、音乐、声音和说话者特写的音频基础模型,从头开始训练将是一种浪费。

本文提出的 AudioGPT 是一个多模态的人工智能系统。它针对于上述问题,对目前的 ChatGPT 应用进行了补充,具体有两点:

  1. 配备基础模型:处理复杂的音频信息,将 ChatGPT 视为通用接口,解决大量的理解和生成任务。

  2. 连接输入/输出接口(ASR,TTS):支持口语对话。

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?
▲图1 AudioGPT 的概览

如图 1 所示,AudioGPT 的整个处理过程可以分为四个阶段:

  • 模态转换:使用输入/输出接口进行语音和文字之间的模态转换,以缩小口语 LLM 与 ChatGPT 之间的差距。

  • 任务分析:利用对话引擎和提示管理器帮助 ChatGPT 理解用户的意图来处理音频信息。

  • 模型分配:通过结构化参数来控制韵律、音色和语言,ChatGPT 为理解和生成音频基础模型进行分配。

  • 生成回复:在执行音频基础模型后,生成并返回给用户最终的回复。

实验

为了评估多模态 LLM 在人类意图理解和与基础模型合作方面的能力,作者从一致性、能力和健壮性三个方面对 AudioGPT 进行了实验与评估。

一致性设计

如图 2 所示,作者在这里介绍了如何在没有提供特定任务的训练示例的情况下评估 AudioGPT 的理解和解决问题能力。评估过程分为三个步骤:即提供提示、生成描述和人类评估

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

▲图2 一致性概览

评估的详情如表 1 所示:

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

▲表1 用于评估查询-答案一致性的评级

能力

作为处理复杂音频信息的任务执行者,音频基础模型对于处理复杂的下游任务具有重要影响,表 2 中报告了其用于理解和生成语音、音乐、声音和讲话者头像的评估指标和下游数据集。

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

▲表2 AudioGPT 中的音频基础模型评估细节

鲁棒性

作者通过评估多模态 LLM 的鲁棒性来评估它们处理特殊情况的能力,包括长链式查询、不受支持的任务、多模态模型的错误处理以及超越上下文的能力。

为了评估鲁棒性,采用了一个三步的主观用户评分过程。

  1. 人类评注员根据上述四个分类提供提示。

  2. 将提示馈入 LLM 以制定完整的交互会话。

  3. 来自多模态 LLM 的不同受试者组进行对交互会话的评分,以验证其处理特殊情况的能力。

小结

综合来看,尽管 AudioGPT 在解决复杂的音频相关 AI 任务方面表现出色,但也存在一些限制:

  1. Prompt 工程:它需要进行自然语言指令的构建,这需要专业知识和较长的时间,如果不熟悉相关领域,可能会影响指令的效果。

  2. 长度限制:聊天机器人当前仍需要考虑到最大标记长度的限制,这可能会影响对话的连贯性和用户的指示说明。

  3. 能力限制:AudioGPT 的性能与音频基础模型的准确性和有效性密切相关。

这些限制提醒着我们,在看待这些基于 ChatGPT 的新系统时要保持清醒的认识。同时,也让我们意识到 Prompt 工程对于构建更高效和可靠的 AI 系统至关重要,使其更为普遍且易于使用。我们期待未来能够涌现更多具有开创性的 AI 技术,利用其强大的理解与生成能力,丰富我们的生活、改善日常业务的处理效率。我们拭目以待,并期待着 AIGC 相关的技术日渐成熟,可以更好地服务于人类社会~

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?文章来源地址https://www.toymoban.com/news/detail-451566.html

到了这里,关于用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 从ChatGPT出发:大模型与自然语言模型

    2022年11月30日,OpenAI在其博客上发布了ChatGPT的介绍,掀起了大语言模型的一波狂风,席卷了2023年伊始几乎所有的话题。这个能够“理解”人类语言的模型,不仅可以完成接续上下文的查询和交流任务,还能够实现包括代码、论文、周报等在内的撰写工作。 它的能力,远不仅

    2024年02月02日
    浏览(44)
  • ChatGPT:革命性的自然语言处理技术

    自然语言处理(NLP)技术的快速发展已经为我们的日常生活带来了巨大的变革。在这个领域,ChatGPT作为一个突出的代表,正在为我们带来更多的便利和机会。本文将介绍ChatGPT的基本概念、应用领域以及它在未来可能带来的影响。 ChatGPT是一种基于人工智能技术的自然语言处理

    2024年02月09日
    浏览(38)
  • ChatGPT技术原理 第二章:自然语言处理基础

    目录 2.1 语言模型 2.3 词嵌入 2.4 注意力机制 2.5 生成式模型

    2024年02月02日
    浏览(43)
  • ChatGPT+Mermaid自然语言流程图形化产出小试

    本文旨在介绍如何使用ChatGPT和Mermaid语言生成流程图的技术。在现代软件开发中,流程图是一种重要的工具,用于可视化和呈现各种流程和结构。结合ChatGPT的自然语言处理能力和Mermaid的简单语法,可以轻松地将文本描述转化为图形表示,使技术文档更具可读性和易懂性。 在

    2024年02月09日
    浏览(38)
  • ChatGPT无限可能性:自然语言生成的奥秘

    💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 数字化时代:跨越语言和文化障碍 冰岛是北大西洋中部的一个岛国,拥有充满活力的科技产业和蓬勃发展的旅游业。然而,虽然其大约 370,000 名公民中的大多数人会说英语或其他第二语言,但它与美国和欧洲的融合使

    2024年02月06日
    浏览(42)
  • 【自然语言处理】【ChatGPT系列】大模型的涌现能力

    大语言模型的涌现能力 《Emergent Abilities of Large Language Models》 论文地址:https://arxiv.org/pdf/2206.07682.pdf 相关博客 【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答 【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里? 【自然语言处理】【ChatGPT系列】C

    2023年04月11日
    浏览(50)
  • Elasticsearch:如何使用 Elasticsearch 以自然语言提示 ChatGPT

    作者:Enrico Zimuel 这些天每个人都在谈论 ChatGPT。 这种大型语言模型 (LLM) 的一项很酷的功能是能够生成代码。 我们用它来生成 Elasticsearch DSL 查询。 目标是在 Elasticsearch® 中搜索 “给我股票指数中 2017 年的前 10 个文档(Give me the first 10 documents of 2017 from the stocks index.)” 这样

    2024年02月05日
    浏览(43)
  • 自然语言处理 | 大模型|类似chatGPT的开源大模型整理

    最近正在学习chatGPT相关大模型,整理相关资料如下,本文仍在修改中,如有侵权,请联系删除 chatGPT-1: Improving Language Understanding by Generative Pre-Training chatGPB-2: Language Models are Unsupervised Multitask Learners chatGPT-3: Language Models are Few-Shot Learners 模型名称 开发者 模型介绍 介绍资料

    2024年02月02日
    浏览(40)
  • 探索 ChatGPT 中文版:开启自然语言处理新纪元

    ChatGPT 中文版是一款由 OpenAI 推出的自然语言处理模型,它在中文语境下展现出了出色的文本生成和对话交互能力。作为程序员,我们对这一领域的创新和发展充满期待。 ChatGPT 中文版不仅能够回答各种技术问题,还能够生成代码示例,解决编程难题,以及提供有关最新技术趋

    2024年01月17日
    浏览(47)
  • ChatGPT和其他自然语言处理模型有什么不同之处?

    ChatGPT是一种基于变压器神经网络的自然语言生成模型,与传统的语言模型和其他自然语言处理模型相比,具有以下几个显著的不同之处: 1.能够生成连贯、长文本 传统的语言模型(如N-gram模型)通常只能生成短文本,而生成长文本时容易出现重复或不连贯的情况。而ChatGPT使

    2024年02月11日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包