做大模型也有1年多了,聊聊这段时间的感悟!

这篇具有很好参考价值的文章主要介绍了做大模型也有1年多了,聊聊这段时间的感悟!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

自ChatGPT问世以来,做大模型也有1年多了,今天给大家分享这一年后的感悟。

过去一年应该是AI圈最万千瞩目的一年了,大家对大模型、OpenAI、ChatGPT、AI Native、Agent这些词投入了太多的关注,以至于有一年的时间好像经历原本应该两三年才有的科技进步的感觉。

近距离看到了老王和光年从风风火火到突发意外,也亲自参与了所谓的“百模大战”,还经历了被人误解的“llama套壳”风波,真的是无比魔幻的一年。

回望这一年,太多和大家雷同的观点在这里就不赘述了,记录几个听上去有点反共识的点吧(其实很多也慢慢达成共识了)。

喜欢记得点赞支持一下,欢迎文末加入技术讨论

OpenAI 没有想象中那么稳

年初去了趟us,拜访了不少OpenAI、Google、Microsoft做大模型相关的researcher和engineer。从us回来的时候,虽然那时国内的大模型赛道因为老王的朋友圈变得异常热闹,但当时内心真实的感觉是国内和OpenAI的差距是巨大的。

那时GPT4还没有发布,但硅谷那边几乎所有人都知道GPT4早已经训练完了,将会在几周内发布,而且是chatgpt的重大升级;火爆一时的chatgpt是OpenAI 21年的模型,22年中GPT4就已经训练完成了。而国内则是在研究怎么能在一年内追上chatgpt,再加上之前疫情的影响,国内的researcher和国外的交流是比较匮乏的,有种“信息茧房”的感觉。大模型最重要的三要素:算力、数据、人,国内都不是很ready。

不过,当时也看到了OpenAI内部对于AGI和商业化的追求是有明显的差异化的,因为在microsoft的时候有不少research team和product team合作的痛苦经验,深知两个方向所优化的目标是高度不align的。在二月份做了个预测,OpenAI内部关于AGI和商业化的矛盾会在两年内爆发。

年底又去了趟us,回来的时候反而比年初有信心了很多。虽然chatgpt摇摇领先,过去一年,国内虽然说大模型领域一片喧嚣,但不得不说大家的进步是显而易见的,也都训练了很多能力非常不错的基础模型。

可以说,国内头部的大模型都已经和chatgpt3.5 comparable了。年初远远低估了国内的云厂商和大公司决策的效率,也低估了大家在大模型领域的投入。所有大模型公司也都找到了追赶期最关键的因素:提高数据数量和数据质量。客观来说,国内在最近一年的进步是比us要大的。

另一方面,OpenAI也没有看起来那么稳。前半年,GPT4快速发布未来模型能力会快速提升;chatgpt用户数据增长很快;plugin好像要重构所有应用。但现在大家都在讨论“scaling law”还能不能持续下去,GPT5可能带来的能力提升是什么;chatgpt用户量增长几乎平了,productivity类的产品会不会有增长天花板,从推理成本来看chatgpt是否真的能盈利;plugin好像已经证明是个彻底的失败了,好在OpenAI 11月6日的开发者大会紧急推出了GPTS,并放了一些新的feature,但能不能大获成功也是个question;如果OpenAI不能持续保持模型的领先力,会不会被to B传统企业和做产品更强的公司给替代掉。

没有“百模大战”

“百模大战”这个词在过去一年被反复提及,但大家似乎混淆了所谓“模型”的概念。大模型应该分为两类,一类是从头开始训练的基础模型,比如:Yi、QWen、Baichuan、ChatGLM、DeepSeek等等;另一类是continue pretraining和sft类别的模型。

这两类最大的差别就是花费的资源和训练用的数据。前一类现在大家基本上都是2T左右token起,也有3、4T token的数量级的,这类工作即使训练7B的模型也需要几百万的代价,训练30几B的模型更是数千万的成本。先不管大家模型最终效果如何,至少是花了真金白银做出来的,而且这个是一次训练的成本,还有大量的试错和实验,真实花费代价在几倍以上。后一类variance就比较大了,有用几百B数据做continue pretraining的,也有用几百条数据做sft的,花费则是从几十万到几十块不等。

这种情况下,把花费相差5、6个数量级的模型放在一起比较本来就是有失公允的。但如果仔细看“百模大战”里的模型类别,可以发现大多数都是后一类,前一类可能也就十几个,不到二十个。而真正关键的是前一类的基础模型,也是大家真金白银炼出来的模型。

开源和闭源的差距比想象中要大

Recall一下几个核心观点:

  • 大模型开源的只是权重和模型结构,模型结构大家都相差不大,而更重要的数据和训练方法都没有开源

  • 普通开发者很难在大模型预训练过程中参与,更多是在预训练完成后基于模型做posttraining的工作

  • LLaMA对国内大模型的生态没有太大影响(仅针对预训练)

关于这些观点和别人产生讨论最多的是LLaMA到底多国内大模型的繁荣有没有帮助。大家都知道LLaMA数据和训练方法都没有开源,只有权重对基础模型训练是一点用处都没有的,大家更想知道模型是怎么训练的,所以唯一有帮助的只有模型架构了。正好我们不幸经历了一场被人误解的“LLaMA套壳”风波(当然,先对改了张量名但没有修正回去等不规范的开源行为道歉),可以展开讲一讲“借鉴架构”的事情。

首先看一下什么是所谓的LLaMA的架构,或者说这是不是一个可以固化的概念。下面是LLaMA paper中关于architecture的全部篇幅,在双栏paper中只占1/4页。
做大模型也有1年多了,聊聊这段时间的感悟!,大模型理论与实战,人工智能,算法,大模型,LLM

架构说了模型是基于transformer架构,做了三个常用的改进,分别是pre-norm,SwiGlue和RoPE。再回顾看看在ChatGPT发布前,或者说LLaMA发布前大家是怎么训练大模型的,无论是GPTNeoX,BloomZ还是Galectica,基本都是一样的架构,和LLaMA架构基本没有区别。

所以,只要是之前训练大模型的人,大家都知道训练大模型的架构应该是什么样子的。大家不知道的是用高质量的数据原来能训练出一个还不错的模型,因为之前的数据质量问题,用同样架构并没有训练出效果出众的模型。但当LLaMA出来之前大家开始做大模型的时候,但凡稍微有点大模型背景的研究人员早就已经把数据提高到了第一优先级。所以,“借鉴架构”的概念是很难成立的,因为LLaMA本身就不能被称为一种架构,或者说LLaMA出来之前大模型架构已经收敛了。LLaMA更多是给了大家信心和敢于投入的勇气,从这点来说还是有很大帮助的。

中国的 researcher 比想象中要强

经常听到一个观点,世界上做大模型最强的100个人,有95个以上在美国。所以只要从OpenAI挖几个人或者从Google挖几个人,就能做出世界领先的大模型了。

但过去一年有幸接触了几乎所有国内做大模型的团队,也看到了很多原来在其他研究领域做出过突出成就的研究员在大模型赛道上突飞猛进,还有一些有潜力的学生/new graduate在被信任的环境下做出了比那些有经验的“大厂工程师”数倍的成果。所以做大模型还是需要相信最优秀的那批人和相信年轻人。之前大家认为国内的researcher不适合做大模型,只是因为国内没有给大家创造一个可以用几千卡联合训练模型的环境。

但当去年有了这种条件以后,国内的前沿工作者的迭代速度是明显超过国外的,这也是某种意义上国内去年模型能力快速提高地核心原因。毕竟,训练大模型只需要少数非常精英的人,给每人大几千张卡去做实验,剩下的就是做好support就有可能成功。人越多,反而效率越低。这个对管理者的人才识别能力和对人才的信任就是很大的考验。如果现在要问我世界上做大模型最强的100个人,我觉得有一半以上是在中国。

最后,quote 老王的一句话,在AGI的路上,所有参与者都是朋友。很期待中国今年能做出GPT4 comparable的基础模型。

欢迎大家加入交流群,交个朋友,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型技术交流群,本文完整代码、相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:来自CSDN + 技术交流

通俗易懂讲解大模型系列

  • 用通俗易懂的方式讲解:大模型算法工程师最全面试题汇总

  • 用通俗易懂的方式讲解:我的大模型岗位面试总结:共24家,9个offer

  • 用通俗易懂的方式讲解:大模型 RAG 在 LangChain 中的应用实战

  • 用通俗易懂的方式讲解:一文讲清大模型 RAG 技术全流程

  • 用通俗易懂的方式讲解:如何提升大模型 Agent 的能力?

  • 用通俗易懂的方式讲解:ChatGPT 开放的多模态的DALL-E 3功能,好玩到停不下来!

  • 用通俗易懂的方式讲解:基于扩散模型(Diffusion),文生图 AnyText 的效果太棒了

  • 用通俗易懂的方式讲解:在 CPU 服务器上部署 ChatGLM3-6B 模型

  • 用通俗易懂的方式讲解:使用 LangChain 和大模型生成海报文案

  • 用通俗易懂的方式讲解:ChatGLM3-6B 部署指南

  • 用通俗易懂的方式讲解:使用 LangChain 封装自定义的 LLM,太棒了

  • 用通俗易懂的方式讲解:基于 Langchain 和 ChatChat 部署本地知识库问答系统

  • 用通俗易懂的方式讲解:在 Ubuntu 22 上安装 CUDA、Nvidia 显卡驱动、PyTorch等大模型基础环境

  • 用通俗易懂的方式讲解:Llama2 部署讲解及试用方式

  • 用通俗易懂的方式讲解:基于 LangChain 和 ChatGLM2 打造自有知识库问答系统

  • 用通俗易懂的方式讲解:一份保姆级的 Stable Diffusion 部署教程,开启你的炼丹之路

  • 用通俗易懂的方式讲解:对 embedding 模型进行微调,我的大模型召回效果提升了太多了

  • 用通俗易懂的方式讲解:LlamaIndex 官方发布高清大图,纵览高级 RAG技术

  • 用通俗易懂的方式讲解:使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成文章来源地址https://www.toymoban.com/news/detail-797567.html

到了这里,关于做大模型也有1年多了,聊聊这段时间的感悟!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【计算机视觉】最近跑实验的感悟:大模型训练太难了!

    这里大模型训练特指基座大模型的从0开始训练,不包括在2000条数据上SFT这样的小任务。 有人说大模型嘛,简单,给我卡就行,等到老板真给你买来了1000张卡你就知道有多难了,老板说,小王,卡买来了,三个月给我搞出来。 然后你发现,就算有人把正确的代码,数据,参

    2024年02月09日
    浏览(43)
  • 华为OD机试(含B卷)真题2023 算法分类版,58道20个算法分类,如果距离机考时间不多了,就看这个吧,稳稳的

    很多小伙伴问我,华为OD机试算法题太多了,知识点繁杂,如何刷题更有效率呢? 我觉得可以按照“算法和数据结构”去刷,把华为OD机试涉及到的“算法和数据结构”列出来,一个算法刷10道题,那我岂不是无敌了? 首先,了解算法和数据结构有哪些知识点,在后面的刷题

    2024年02月14日
    浏览(38)
  • 聊聊大模型的屏蔽词工程

    转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote 在做微调训练时,鉴于业务场景的需要,可能会存在微调数据集中含有敏感词汇,譬如:自杀、跳楼等。而开源模型可能没有做敏感词汇的屏蔽工程。因此可能就会出现不可预控的现象,而我遇到的是,当我输入敏感词汇时,模

    2024年04月16日
    浏览(45)
  • 重构这段烂代码,差点把我整凌乱了...

    🍀注重实效,不要靠巧合编程。 🍀在构造一个对象的过程中,应避免依赖对象已经设置的field来继续给对象的其他field赋值,而应该基于原始对象的field去判断。   先看这段代码,烂不烂,你可以品一下,多半味道不怎么好。   在不改变业务逻辑的基础上,我重构这段代码

    2024年02月05日
    浏览(82)
  • 聊聊多模态大模型处理的思考

    转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote 多模态:文本、音频、视频、图像等多形态的展现形式。 目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下,审视下多模态大模型的实现方式。 首先就要区分输入与输出,即输入的模

    2024年03月26日
    浏览(52)
  • 聊聊 神经网络模型 传播计算逻辑

    预训练过程就是在不断地更新权重超参数与偏置超参数,最后选择合适的超参数,生成超参数文件。上一篇博客 是使用已有的预训练超参数文件,要训练自己的超参数,需要对神经网络层中前向传播与反向传播计算熟悉,了解计算逻辑,才能不断地更新选择合适的超参数。

    2024年02月05日
    浏览(46)
  • 聊聊大模型的微调实现及其应用

    转载请备注出处: https://www.cnblogs.com/zhiyong-ITNote 模型的微调有多种方式,对于入门的来说,一般都是基于官方的文档微调;最近发现很多开源库,其目的就是支持应用多种微调策略来微调模型,简化模型的微调门槛。比如 ChatGLM-Efficient-Tuning、LLaMA-Factory。其架构逻辑如下: 最

    2024年03月15日
    浏览(49)
  • 大白话聊聊“深度学习”和“大模型”

    1950年图灵发表论文《计算机器与智能》( Computing Machinery and Intelligence),提出了“机器智能”(Machine Intelligent)的概念,并且提出了著名的“图灵测试”的方法来判断机器是否有智能。 1956年,达特茅斯会议,“人工智能”(Artificial Intelligent)概念被首次提出,人工智能作

    2024年02月02日
    浏览(61)
  • 聊聊大模型微调训练全流程的思考

    转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote 参考现有的中文医疗模型:MedicalGPT、CareGPT等领域模型的训练流程,结合ChatGPT的训练流程,总结如下: 在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微调}(SFT)优化模型以更好地遵守特定

    2024年03月18日
    浏览(46)
  • 聊聊心理医疗领域大模型的落地思考

    转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote 近来,工作偏向于心理医疗领域方面的大模型,仅从领域大模型的落地,聊聊个人的一些思考。 准备好花钱买GPU。 首先需要审视斟酌业务领域的特殊性与可行性,我们要做的是心理领域,而心理领域倾向于医患对话,即 询问链

    2024年03月21日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包