一文汇总开源大语言模型,人人都可以拥有自己的ChatGPT

这篇具有很好参考价值的文章主要介绍了一文汇总开源大语言模型,人人都可以拥有自己的ChatGPT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

OpenAI发布的ChatGPT火爆全球以来,全球互联网大厂陆续跟进,纷纷宣布了自家的Chat产品,如Google的Bard,百度的文心一言,阿里的通义千问等等。

这些Chat产品背后都是依赖的大语言模型(Large Language Model)。

如果是做一个垂直领域的Chat产品,有2种方案:

  • 直接使用商业化产品,前提是商业化产品支持对模型做fine-tune(微调)。比如OpenAI就支持对它的基础模型做fine-tune来实现个性化的模型。
  • 使用开源的大语言模型,对开源模型做fine-tune来实现垂直领域的Chat产品。

本文重点介绍有较大参考价值的开源大语言模型,方便大家快速找到适合自己应用场景的开源模型。

开源大语言模型

Model 作者 参数量 训练数据量(tokens) 训练成本
LLaMA Meta 包括 70 亿、130 亿、330 亿、650 亿 4 种参数规模 1.4万亿 2048个A100 GPU
Alpaca Stanford 70亿 52k条问答指令数据,指令数据来源于OpenAI的API返回结果 500美元数据成本+100美元训练成本
Vicuna UC Berkeley, CMU, Stanford, UCSD and MBZUAI 130亿 70k条问答指令数据,指令数据来源于用户分享出来的对话记录 300美元
Koala UC Berkeley 130亿 500k条问答直录功能数据,指令数据来源于网上公开数据集 在公共云计算平台上,预期训练成本不超过100美元。一台 Nvidia DGX 服务器与8个A100 GPU,需要6个小时训练完成2个epochs。
Dolly 2.0 Databricks 120亿 15k条问答指令数据,指令数据来源于Databricks员工 不到30美元
ChatGLM 清华大学KEG 实验室和智谱AI 60亿和1300亿共2种参数规模 4000亿左右,中文和英文token各2000亿 数百万人民币
鹏程·盘古α 鹏程实验室、华为 26亿、130亿和2000亿共3种参数规模 2500亿 2048 块昇腾处理器

开源模型有几个注意点:

  • 第一,LLaMA由Meta开源,LLaMA目前仅用于学术、社会公益项目,不能用于商业化项目。

  • 第二,Alpaca, Vicuna, Koala基于LLaMA衍生而来,是在LLaMA大语言模型基础上做了fine-tune得到的,因此训练成本极低,只需用比较少的指令数据做fine-tune即可。这也是为什么这几个模型的训练成本很低,因为站在了LLaMA这个巨人的肩膀上。另外,这几个模型由于本质上还是LLaMA,受限于LLaMA的license限制,同样不能用于商业化目的。

  • Dolly 2.0是在EleutherAI pythia模型衍生而来,指令微调的数据集称为 databricks-dolly-15k,也已开源发布,包含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的问答数据,专为指令调优大型语言模型而设计。且 databricks-dolly-15k 根据(Creative Commons Attribution-ShareAlike 3.0 Unported License)的许可条款,任何人都可以出于任何目的使用、修改或扩展此数据集,包括商业应用。

  • 国内目前开源的主要就是清华主导的ChatGLM,以及华为和鹏程实验室主导的盘古alpha模型。

训练模型

如果拿大语言模型做训练,而不是简单的指令微调,那训练成本非常高昂,比如ChatGPT训练一次的成本在140万美元左右。

最近微软开源了DeepSpeed,可以加速大语言模型的训练,将ChatGPT 1750亿参数模型的训练成本降低到5120美元左右。

其本质是一个开源深度学习训练优化库,可以加速ChatGPT模型的训练,比目前最快的训练方法快大约15倍,如果想自己训练大语言模型的可以参考下。

总结

GPT模型现在真的是日新月异,很多是基于基础模型,结合问答的指令数据对模型做微调而得到的。

现在很多媒体报道的时候喜欢夸大,大家不要看到冒出一个新的开源模型就觉得多么厉害了,绝大部分都是站在巨人肩膀上做了微调而来的。

上面开源大语言模型的表格也会持续更新,欢迎大家关注下面的开源地址。

开源地址

持续更新的开源大语言模型开源地址: ChatGPT模型教程。

公众号:coding进阶。

个人网站:Jincheng’s Blog。

知乎:无忌。

福利

我为大家整理了一份后端开发学习资料礼包,包含编程语言入门到进阶知识(Go、C++、Python)、后端开发技术栈、面试题等。

关注公众号「coding进阶」,发送消息 backend 领取资料礼包,这份资料会不定期更新,加入我觉得有价值的资料。还可以发送消息「进群」,和同行一起交流学习,答疑解惑。文章来源地址https://www.toymoban.com/news/detail-454612.html

References

  • https://mp.weixin.qq.com/s/7CW4p8RgAF3jYGmgefB_eg
  • https://mp.weixin.qq.com/s/M-ToNk8SABoP2JG0xLUBxQ

到了这里,关于一文汇总开源大语言模型,人人都可以拥有自己的ChatGPT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 龙蜥社区「人人都可以参与开源」- 共筑开源,共创未来!

    开源不仅仅是代码的开放,更是一种共享与合作的精神。通过开源,我们可以汇集全球的智慧和力量,共同解决技术难题,推动科技创新。开源项目的蓬勃发展,已经成为推动人类社会进步的一大动力,无论是在人工智能、区块链、云计算还是物联网等领域,都有着无数开源

    2024年04月17日
    浏览(41)
  • 龙蜥社区「人人都可以参与开源」----自由代码盛会

    目录 一、活动平台 1、赛题-开放原子开源大赛 2、OpenAnolis Community Activity - OpenAnolis龙蜥操作系统开源社区 3、anolis-activity · AtomGit_开放原子开源基金会代码托管平台 二、完成龙蜥任务的学习心得及建议 1、学习心得 2、平台评测  3、优化建议 开发原子开源大赛,就是这个平台

    2024年04月16日
    浏览(53)
  • 龙蜥社区「人人都可以参与开源」—— 走进“龙蜥社区”感受开源魅力

    🎬 鸽芷咕 :个人主页  🔥 个人专栏 : 《linux深造日志》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活!    开源这个我相信各位开发者们或多或少都听说过,简单来讲开源就是源码开放,但是不意味着使用没有限制,具体规定要根据软件的开源协议来决定。

    2024年04月11日
    浏览(57)
  • 龙蜥社区「人人都可以参与开源」——实现开源无界限,共筑创新生态

    目录 前言 龙蜥社区「人人都可以参与开源」 关于AtomGit平台 降低参与门槛,普及开源知识 开放透明的协作环境与流程 建设活跃的社区文化与网络 赋能企业与高校,培育开源新生力量 体验心得 结语 在当今数字化浪潮中,开源软件以其开放性、协作生与的新力,已经成为全

    2024年04月13日
    浏览(44)
  • 龙蜥社区「人人都可以参与开源」——基于开源赛深析AtomGit平台特点

    作为一名参与者,我对于这次任务的体验深感充实而有成就感。整个过程需要进行多个步骤,从报名到最终提交作品,每一步都需要细心操作和确保准确性。 在完成这项任务的过程中,我深刻领悟到了团队协作的重要性。尽管这是一个个人完成的任务,但在整个过程中,我需

    2024年04月14日
    浏览(93)
  • 使用大语言模型集成工具 LangChain 创建自己的论文汇总和查询工具

    Langchain可以帮助开发人员构建由大型语言模型(llm)支持的应用程序。它提供一个框架将LLM与其他数据源(如互联网或个人文件)连接起来。这允许开发人员将多个命令链接在一起,以创建更复杂的应用程序。包括最近比较火爆的AutoGPT等都是使用了Langchain框架进行开发的。所以本

    2024年02月05日
    浏览(43)
  • 开源大语言模型(LLM)汇总(持续更新中)

    随着ChatGPT的火爆,越来越多人希望在本地运行一个大语言模型。为此我维护了这个开源大语言模型汇总,跟踪每天不发的大语言模型和精调语言模型。 我将根据个模型采用的基础大模型进行分类,每个大模型下列出各派生模型。 斯坦福Alpaca:一种指令遵从型 LLaMA 模型。 🏠

    2023年04月17日
    浏览(41)
  • 【AI实战】开源大语言模型LLMs汇总

    大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。来自百度百科 发展历史 2020年9月,OpenAI授权微软使用GPT-3模

    2024年02月12日
    浏览(47)
  • 开源大语言模型是否可以商用的调查报告

    ChatGPT 火起来了,很多企业想用 ChatGPT,但是又由于企业数据的保密性,所以本地部署开源大语言模型是不二之选。 各个企业本地部署大语言模型的第一步,就是调研哪些开源大语言模型可以商用。 本文对模型是否可以商用,主要调查了各个开源模型的许可内容及Model许可内

    2024年02月10日
    浏览(54)
  • 云服务器部署开源ChatGLM-6B,让你也能拥有自己的ChatGPT

    一、背景 最近GPT不仅发布了GPT-4,而且解除封印可以联网了。不得不赞叹AI更新迭代的速度真快,都跟不上节奏了。但是大家也注意到了吧,随着GPT的每次更新,OpenAI对其开放使用的限制也越来越大。之前国内网随便访问GPT3,现在动不动就封号 所以,今天就来教大家部署国内

    2024年02月12日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包