中文版开源Llama 2同时有了语言、多模态大模型,完全可商用

这篇具有很好参考价值的文章主要介绍了中文版开源Llama 2同时有了语言、多模态大模型,完全可商用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

可以说,AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。

7 月 19 日,Meta 终于发布了免费可商用版本 Llama 2,让开源大模型领域的格局发生了巨大变化。

Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体,相比上一代的训练数据增加了 40%,在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现,且支持多个语种。

美中不足的是,Llama 2 语料库仍以英文(89.7%)为主,而中文仅占据了其中的 0.13%。这导致 Llama 2 很难完成流畅、有深度的中文对话。

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

中文版 Llama2 开源大模型创下社区「首个」

好消息是,在 Meta Al 开源 Llama 2 模型的次日,开源社区首个能下载、能运行的开源中文 LLaMA2 模型就出现了。该模型名为「Chinese Llama 2 7B」,由国内 AI 初创公司 LinkSoul.Al 推出

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

仅仅两周时间,该项目在 Hugging Face 上收获过万次下载,并在 GitHub 上获得了 1200 Stars。

据项目介绍,Chinese-Llama-2-7b 开源的内容包括完全可商用的中文版 Llama2 模型及中英文 SFT 数据集,输入格式严格遵循 llama-2-chat 格式,兼容适配所有针对原版 llama-2-chat 模型的优化。

项目地址:

https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

目前,普通用户可以在线体验「Chinese Llama-2 7B Chat」。

试用地址:

https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

比如你能够以英文提问,并让它用中文回答:

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

或者直接中文对话,它也能以中文实现准确、流畅的回答:

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

主打的就是一个中英文灵活切换:

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

有人已上手,表示运行良好:

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

图源:https://twitter.com/roya10x7/status/1682781475458957315?s=20

语言模型之外,继续开源两个中文多模态大模型

在推出首个开源 Llama2 中文语言大模型之后,LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型,并再次率先开源了相关的模型,提供国内开发者免费下载、自由商用。

本次开源的两个中文多模态大模型,包括如下:

  • 由 LinkSoul.Al 团队牵头,北京智源人工智能研究院、北京大学、零一万物等国内头部顶尖人工智能团队通力合作的第一个支持中英双语、语音到文本的多模态开源对话模型 (LLaSM)

  • 第一个基于 Llama 2 的支持中英文双语视觉到文本的多模态模型 (Chinese-LLaVA) 

两个模型都基于 Apache-2.0 协议开源,完全可商用。

LinkSoul.Al 开发团队负责人史业民表示,「放眼全球,目前如何让『模型听世界、看世界』仍然没有可靠的开源模型可用。我们希望能够尽微薄之力,让中国大模型生态距离国际领先标准再近一些。」

语音到文本多模态开源对话模型 (LLaSM)

LinkSoul.AI 开源了可商用的中英文双语语音 - 语言助手 LLaSM 以及中英文语音 SFT 数据集 LLaSM-Audio-Instructions。LLaSM 是首个支持中英文语音 - 文本多模态对话的开源可商用对话模型。

相较以往的传统方案,LLaSM 能够通过便捷的语音输入的交互方式,大幅改善过往以文本为输入的大模型的使用体验,同时有效避免基于 ASR 解决方案的繁琐流程以及可能引入的错误。

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

  项目地址:https://github.com/LinkSoul-AI/LLaSM

  数据集: https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions

下面是 LLaSM 的一个语音 - 文本对话示例。

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

LLaSM 也有相应的文献介绍。

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

模型、代码和数据地址:

https://huggingface.co/spaces/LinkSoul/LLaSM

图像到文本多模态开源对话模型 (Chinese LLaVA)

LinkSoul.AI 开源了可商用的中英文双语视觉 - 语言助手 Chinese-LLaVA 以及中英文视觉 SFT 数据集 Chinese-LLaVA-Vision-Instructions,支持中英文视觉 - 文本多模态对话的开源可商用对话模型。

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

  项目地址:https://github.com/LinkSoul-AI/Chinese-LLaVA

  数据集: https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions

下面是 Chinese LLaVA 的一个视觉 - 文本对话示例。

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

  模型、代码和数据地址:

https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa

多模态模型统一架构解读

大语言模型在很多方面展现了强大的能力,也在一定程度上让人们看到了实现通用人工智能(AGI)的希望。多模态模型提供了不同模态之间信息交互的渠道,使得视觉信息、语音信息等能和文本语义信息互为补充,让大语言模型能听到世界、看到世界,从而向 GI 又前进一步。

因此,训练多模态模型的重点是如何融合互补不同模态间的信息,并充分利用现有大语言模型能力。LinkSoul.AI 开源的语音 - 语言多模态模型和视觉 - 语言多模态模型统一采用下图所示框架

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

首先通过模态编码器编码不同模态数据特征,紧接着在多模态特征对齐的预训练阶段学习模态适配器(Adaptor),将不同模态的输入特征与大语言模型对齐。

然后在端到端的有监督微调(SFT)阶段使用不同模态的指令数据集对模态适配器和大语言模型进行微调。在有监督微调阶段,同时使用跨模态(cross-modal)指令数据和仅文本(text-only)指令数据进行多任务训练。LinkSoul.AI 团队认为多任务训练有助于避免模型产生模态依赖和偏见,并且可以自然地用一个模型实现多种模态。

LinkSoul.AI 团队接下来的工作会把语音 - 视觉 - 文本进一步融合,让大语言模型同时支持语音和视觉模态。

预训练阶段

预训练阶段将模态编码器和大语言模型参数都冻结,使用跨模态的语音 / 视觉 - 文本对进行 Adaptor 的训练,优化目标为对输入的指令(instructions)生成相应的回复(responses)。

具体来讲,对于语音模态,采用 Whisper 作为特征编码器,冻结 Whisper [5] 并提取音频输入的特征。使用公开的中英文自动语音识别(ASR)数据集 Aishell [1]、 LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

对每个数据样本(audio、text_label)依据对应语言随机从预训练语音指令表(见第三节数据部分)中选取一个指令,组成(audio,instruct,text_label)格式的数据,并在训练过程中预测 text_label。

对于视觉模态,采用 CLIP [6] 作为图片特征提取器,并使用 mBART [8] 对 LLaVA [7] 开源的视觉预训练数据进行翻译汉化,生成中文图片文本对。在预训练阶段同时使用中英文数据进行训练,从而让模型更好的支持中文。

有监督微调

预训练阶段将不同模态的特征和大语言模型对齐,有监督微调阶段则仅冻结模态编码器权重,将模态适配器和大语言模型参数打开,使用跨模态指令数据进行微调。

针对目前几乎没有公开语音多模态指令数据这一问题,基于公开数据集 WizardLM [9]、ShareGPT [10]、GPT-4-LLM [11] 构造语音 - 文本多模态指令数据集 LLaSM-Audio-Instructions。以语音输入作为指令,并预测对应的文本输出。

对于视觉模态,同样先通过 mBART [8] 对 LLaVA [7] 开源的视觉指令数据集进行翻译汉化,生成中文的视觉指令数据集,然后类似地进行训练。

数据集

模态转换预训练数据集

先来看 Audio。语音多模态预训练数据集采用公开中英文自动语音识别(ASR)数据集 Aishell [1]、LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

同时构造如下指令集,对每个(audio、text_label)样本依据对应语言随机选择一条指令构造数据样本(instruction、audio、text_label)。

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

表 1:英文简单指令集

中文版开源Llama 2同时有了语言、多模态大模型,完全可商用,智能语音,人工智能,科技,语音识别,深度学习,AIGC

表 2:中文简单指令集

然后是 Vision。对于视觉模态,采用 LLaVA [7] 开源的视觉预训练数据,通过 mBART [8] 翻译进行汉化,生成中文图片文本对,以提升模型的中文能力。

指令微调数据集

同样先来看 Audio。在构建音频数据集的过程中,首先仔细过滤所有对话数据,通过删除那些不适合发声的对话,包括代码、符号、URL 和其他不可读的文本。然后,为确保数据质量,每轮对话中聊天机器人的答案再次被过滤,那些不包含有价值信息的内容将被丢弃。最后,使用 Microsoft Azure [12] 语音合成 API 来生成语音数据。

然后是 Vision。对于视觉模态,采用 LLaVA [7] 开源的视觉指令数据集,通过 mBART [8] 进行汉化,生成中文多模态指令数据,使得模型能够具有中文视觉指令执行能力。

为了便于开源社区快速感受多模态大模型的能力,以及共同推进多模态大模型的研究进展,训练用到的数据在项目中开源,并提供 Hugging Face 仓库下载。

对于 LinkSoul.AI 团队而言,这两个开源可商用的多模态大模型不仅为大模型生态带来了语音和视觉多模态能力,也在大模型多语言方面做出了贡献。

此外在商用场景上,该团队推出的模型都允许完全免费商用,这对于国内个人开发者和初创公司也具有非凡的价值。

参考文献:

[1] Aishell: https://www.openslr.org/33/

[2] LibriSpeech: https://huggingface.co/datasets/librispeech_asr

[3] Magicdata: https://openslr.org/68/

[4] Primewords: https://openslr.org/47/

[5] Whisper: https://huggingface.co/openai/whisper-large-v2

[6] CLIP: https://huggingface.co/openai/clip-vit-large-patch14

[7] LLaVA: https://llava-vl.github.io/

[8] mBART: https://arxiv.org/pdf/2001.08210.pdf, https://huggingface.co/facebook/mbart-large-50-one-to-many-mmt

[9] WizardLM: https://github.com/nlpxucan/WizardLM 

[10] ShareGPT: https://sharegpt.com/

[11] GPT-4-LLM: https://arxiv.org/abs/2304.03277

[12] Microsoft Azure 语音合成 API:https://azure.microsoft.com/en-us/products/ai-services/ai-speech文章来源地址https://www.toymoban.com/news/detail-633662.html

到了这里,关于中文版开源Llama 2同时有了语言、多模态大模型,完全可商用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 多模态表征—CLIP及中文版Chinese-CLIP:理论讲解、代码微调与论文阅读

    我之前一直在使用CLIP/Chinese-CLIP,但并未进行过系统的疏导。这次正好可以详细解释一下。相比于CLIP模型,Chinese-CLIP更适合我们的应用和微调,因为原始的CLIP模型只支持英文,对于我们的中文应用来说不够友好。Chinese-CLIP很好地弥补了这方面的不足,它使用了大量的中文-文

    2024年03月15日
    浏览(30)
  • Sealos 国内集群正式上线,可一键运行 LLama2 中文版大模型!

    2023 年 7 月 19 日,MetaAI 宣布开源旗下的 LLama2 大模型,Meta 首席科学家、图灵奖得主 Yann LeCun 在推特上表示 Meta 此举可能将改变大模型行业的竞争格局。一夜之间,大模型格局再次发生巨变。 不同于 LLama,LLama2 免费可商用 ! LLama2 的能力在 GPT-3 ~ GPT-3.5 之间,对于关注数据隐

    2024年02月12日
    浏览(37)
  • ERNIE-ViLG文心跨模态AI绘画大模型——中文版stable-diffusion

    上期图文教程,我们分享了stable-diffusion AI绘画大模型,且分享了如何使用stable-diffusion的代码实现过程,可以说stable-diffusion绘画模型开创了AI绘画的巅峰。 stable-diffusion模型,你也用AI生成获得一等奖的艺术图 stable-diffusion stable diffusion模型是Stability AI开源的一个text-to-image的扩

    2024年02月09日
    浏览(87)
  • 类ChatGPT的部署与微调(上):LLaMA到Alpaca、Vicuna、BELLE、中文版

    近期,除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇,100篇目录见此:ChatGPT相关技术必读论文100篇),还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)  本文一开始是作为此文《ChatGPT技术

    2023年04月25日
    浏览(27)
  • 类ChatGPT的部署与微调(上):从LLaMA、Alpaca/Vicuna/BELLE、中文版

    近期,除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇,100篇目录见此:ChatGPT相关技术必读论文100篇),还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)  本文一开始是作为此文《ChatGPT技术

    2024年02月04日
    浏览(39)
  • MobaXsterm 开源中文版基本安装和使用

    1.1 MobaXsterm 软件官网 软件简介 MobaXterm 是一个增强型的 Windows 终端。其为 Windows 桌面提供所有重要的远程网络终端工具(如 SSH、X11、RDP、VNC、FTP、SFTP、Telnet、Serial、Mosh、WSL 等),和 Unix 命令(如 bash、ls、cat、sed、grep、awk、rsync 等)。 你可以免费下载和使用 MobaXterm 家庭版

    2024年02月02日
    浏览(25)
  • 类ChatGPT的部署与微调(上):从TRL到LLaMA、Alpaca/Vicuna/BELLE、中文版

    近期,除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇,100篇目录见此:ChatGPT相关技术必读论文100篇),还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)  本文一开始是作为此文《ChatGPT技术

    2023年04月27日
    浏览(30)
  • WordPress语言切换(例如中文版和英文版转换)

    首先打开网站根目录下的 wp-config.php ,然后搜索 define(\\\'WPLANG\\\'   就可以快速定位到语言设置那里 比如简体中文版默认为: 复制代码 代码如下: define(\\\'WPLANG\\\', \\\'zh_CN\\\'); 如果要改为英文版,只需修改为: 复制代码 代码如下: define(\\\'WPLANG\\\', \\\'\\\'); 需要注意的是 ,WordPress官方英文版不包含

    2023年04月23日
    浏览(52)
  • CotEditor for mac 4.0.1 中文版(开源文本编辑器)

    coteditorformac是一款简单实用的基于Cocoa的macOS纯文本编辑器,coteditormac版本可以用来编辑网页、结构化文本、程序源代码等文本文件,使用起来非常方便。 CotEditor for Mac具有正则表达式搜索和替换、语法高亮、编码等实用功能,而CotEditor Mac版也可以帮助用户处理CJK语言,如果

    2024年02月11日
    浏览(34)
  • 【ubuntu 22.04】安装中文版系统、中文语言包和中文输入法

    在系统安装中的键盘布局选择时,选择Chinese - Chinese,此时会自动安装所有的中文语言包和ibus中文输入法 系统安装成功重启后,点击设置 - 区域和语言 - 管理已安装的语言 * 根据提示安装更新后,将汉语(中国)置顶,并点击应用到整个系统,重启执行操作,建议保留英文的

    2024年02月21日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包