卷大模型开源,正确姿势是什么?

这篇具有很好参考价值的文章主要介绍了卷大模型开源,正确姿势是什么?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

阿里大模型开源 csdn

原创:谭婧

从“古”至今,AI的江湖,都是开源引领技术发展。

(此处咬牙切齿表态:不接受反驳)。

虽然Stable Diffusion作为开源的图像生成模型,将图像生成提到了全新境界,但是GPT-4的出现,似乎动摇了人们的信念。

要我说,那些人只是信念不坚定。

眼看Meta公司(原脸书)LLAMA2挽回了不少尊严。

虽然GPT-4依然是地表最强。

你来我往,卷到极致。

谭老师我作为一个“开源党”,只想拍手叫好。

脑海中仰天长啸:开源大模型(LLM)何时赶上GPT-4

为了这个小目标,《开源大模型卷死你系列》,还得更新200集。

我已经开始思考:看剧的时候啃鸭脖,选五香,还是选麻辣?

那些不服气开源模型的小伙伴,我再甩出几个证据:

证据一:

模型的保鲜期(Shelf Life)基本上是一年左右。以 2012 年里程碑模式AlexNet为例,六个月到一年之后就会出现效果接近的开源模型。

证据二:

Meta公司LLaMA系列、伯克利的 Vicuna、斯坦福的 AlpacaDatabricks Dolly,都在展示开源强大的可能性。

GPT系列在演进,

强大的开源模型也在陆续发布,

开源和闭源竞争加剧。

如今,卷得情况怎么样了?

先看图,观察一下这三家“开源大户”:

阿里大模型开源 csdn

阿里大模型开源 csdn

阿里大模型开源 csdn

敢谈微见,再讲几点观察:

第一点

AI开源生态重心转移。

“预训练大模型”成为新的开源生态中心。

也就是说,无论训练什么规模的模型,把“预训练大模型”训练出来这件事成为“开源热门事件”,也可以加之微调,代表着模型结构以此为主流。

预训练模型百花齐放,是大势所趋。

以前,小模型是主流,大家在AI框架(比如Pytorch)上调算法,调来调去,搞算法创新。因为模型小,在框架层面的调用API就可以做算法创新。现在,大家在预训练大模型的基础上创新。准确地说,我们之前的AI生态重心在AI框架的API上。现在情况完全不同了,AI框架变成“幕后英雄”,大模型则变得“大红大紫。

阿里大模型开源 csdn

第二点

500亿以上参数规模的模型开源数量极为稀少,千亿更是罕见。

20231127日,浪潮信息发布“源2.0”大模型,刚刚跨过千亿参数门槛,其中有1026亿参数这个版本。20239月 “鹏城·脑海”(PengCheng Mind)大模型由高文院士团队研发,采用了国产化深度学习框架,参数规模2000亿。这个模型知道的人特别少,是个冷知识。很多人都误以为“源2.0”千亿版本的开源模型是“首个”。而早在两年前,智谱AI的千亿模型(GLM-130B)开源。

扶额苦笑,就算千亿模型开源了,能有算力跑得起来的玩家也是少数。没有办法,算力就是大模型训练的配套刚需。

第三点

10亿到400亿区间,拥挤不堪。

这里简直是“红海赛道”。

我手动画一条横线,把参数规模从小到大(从110000)都标准在线上,再用点分成几个区间。

这个区间段里,写各个厂商,实验室的模型名称,写不下,实在写不下。

我认为,一个比较标志性的事件是百川智能创始人王小川很早就表态520亿参数不会开源。个人观点是百川智能团队作为“开源大户”,肯定能清楚判断出500亿以上参数模型发布数量会很少,这是一个专业且合理的预判。

第四点

互联网厂商分为“强势派”和“无为派”,对开源社区来说,大厂的参与始终都是好事。阿里算是强势派,同时又拥有云底座,对大模型生态有强烈的,建设好的欲望,正处于舍得投入的时期。

此处轻轻扶一把华为,华为有开源大模型,数量较少,鹏城盘古开源较早(2020年),后面节奏没有跟上。再就是基于华为昇腾昇思开源的“紫东太初2.0”的10亿参数(2022年),38亿参数(2023年)的两版模型,均为多模态大模型。

“无为派”就很多了,巨头就那么几家,谁一点模型都没开源,掰着手指头也能数出来。

第五点

没必要盲目追求参数数量,并不是越大越好。美国厂商团队也不比拼参数,都是效果和用途导向。目前,从开发者的反馈来看,投入产出比高的模型尺寸更受欢迎。

阿里大模型开源 csdn

一般说来,开发者选大模型会有几个标准:

第一,模型效果好是基础分,效果不好,说啥也不顶用。

第二,生态好,社区好,再加之配套工具链全。

第三,持续性,开源社区最遗憾的事莫过于“啥也不说,直接停更”。持续投入好比一种保障,所以开源背后的团队,实力越强越好,不能仅靠“用爱发电”。

开源协议是加分项。当然越开放越好,不要暗藏陷阱,在知识产权这块,有些厂商有“暗藏陷阱”的经验。Llama2在商用方面有月活不超过7亿的限制条款。

回到第一点“效果好”这件事情,我亲耳听到多位专家在多个场合表达的观点十分一致:“大模型评测榜单(评测基准)被用得很有问题。

还看到开发者在微信群里吐糟得更为激烈,他们还总结了“套路”:预训练“新”玩法:第一阶段普通预训练,第二部分拿榜单领域数据微调。”

阿里大模型开源 csdn

所以,想通过评测证明一下就直接得出结论“全球最强”,这一做法并不科学。“榜单成绩”再亮眼,刻意刷榜恐怕也会收获“嘘声”,最终还得靠用户反馈说话。

榜单我没有本领做一个,倒是能给大家推荐一个抱抱脸(Huggingface)上的工具,帮助筛选真正适合自己的好用模型,选项做得非常细,我能想到的上面都有了,我没想到的,它也都有了。

阿里大模型开源 csdn

开源社区里会分享出修改和优化的模型,我在抱抱脸社区搜baichuan,能搜出来179个模型,搜Qwen,能搜出来235个模型。

就在今天,阿里又把通义千问开源大模型的上限往上推了一把,高达720亿参数,推特上讨论热烈;

阿里大模型开源 csdn

虽然LLAMA2700亿参数,但对中文场景不够友好。目前,国内还没出现足以叫板Llama 2-70B的优质开源模型,720亿参数确实也属于稀缺尺寸。

阿里是如何选择这次开源发布规模的,720亿和18亿,一小一大两个规模?阿里内部员工告诉我,这次的开源尺寸是通过社区用户的痛点来确定的。

这次,阿里还开源了通义千问音频大模型(Qwen-Audio)。

我还听说,用于读图识物的Qwen-VL-72B模型新升级后的效果很好,暂时还没有开源。至此,通义千问的开源尺寸就很全面了:18亿、70亿、140亿、720亿,四款大语言基座模型。

我又找了业内几位专家了解到,大模型的能力想要快速普及,部署在常用电子设备上更好。比如,笔记本电脑。大模型作为类似Cortana助手背后的“力量”(内置到手机系统里),而不是安装了一个需要上网的应用程序。

有趣的是,有一位名叫“土土”开发者,骨灰级玩家,一位动手能力很强的工程师,从事电力系统控制优化方面工作;他基于通义千问140亿参数版本的开源模型,把上百万字的电力系统知识文档做成了一个检索知识库。

他的个人配置倒是很“奢华”,他说:“在家里买了个服务器,扔三四块显卡上去,下载Qwen,再搞个FRP快速反向代理,从阿里云上买最便宜的30多块钱一个多月的服务,这样就能通过外网访问家里的服务器,在单位上班的时候,也能用Qwen做实验。”

阿里大模型开源 csdn

华东理工大学·X-D Lab(心动实验室)成员颜鑫说:“从可持续性、生态和场景适配这三个维度判断,通义千问成了当下最优解。此前有一家企业找我们合作,我们只用 20 tokens的数据微调了Qwen基座模型,就得到了比另一家用百万级数据微调的模型更好的效果。这不仅证明了通义千问基座模型的能力,也证明了我们实验室有很好的行业know-how。”

开源社区卷卷更健康,活跃的开发者、积极的贡献者,这一把阿里通义千问的诚意我是看到了。希望国产开源大模型早日在开源和闭源两个江湖里“拔类超群”。让我们自己的大模型早日拥有碾压性的优势。

(完)

阿里大模型开源 csdn阿里大模型开源 csdn

《我看见了风暴:人工智能基建革命》,作者:谭婧

阿里大模型开源 csdn

更多阅读

AI大模型与ChatGPT系列:

1. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?

2. ChatGPT:绝不欺负文科生

3. ChatGPT触类旁通的学习能力如何而来? 

4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进

5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将

6. ChatGPT大模型用于刑侦破案只能是虚构故事吗?

7. 大模型“云上经济”之权力游戏

8.  云从科技从容大模型:大模型和AI平台什么关系?为什么造行业大模型?

9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场?

10. 深聊京东科技何晓冬丨一场九年前的“出发”:奠基多模态,逐鹿大模型

11. 老店迎新客:向量数据库选型与押注中,没人告诉你的那些事

12. 微调真香,漫画科技博主竟然在用国产大模型生成系列漫画女主角

13. 大模型“搅局”,数据湖,数据仓库,湖仓选型会先淘汰谁?

14. 大模型用于腾讯广告,难在哪?

15. 搞掂大模型,如何榨干每一滴算力?

16. 假如你家大模型还是个二傻子,就不用像llya那样操心AI安全

长文

1. 深聊科大讯飞刘聪丨假如对大模型算法没把握,错一个东西,三个月就过去了

2. 深聊武汉人工智能研究院张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)

3. 深聊武汉人工智能研究院王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)

4. 为何重视提示工程?

5. 跳槽去搞国产大模型,收入能涨多少?

6. AI咆哮后,一个赚大钱的AI+Data公司估值居然430亿美元?

7. 抢滩大模型,抢单公有云,Databricks和Snowflake用了哪些“阳谋”?

8. 大模型下一场战事,为什么是AI Agent?

漫画系列

1. 是喜,还是悲?AI竟帮我们把Office破活干完了

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛气症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML:攒钱买个“调参侠机器人”?

10. AutoML:你爱吃的火锅底料,是机器人自动进货

11. 强化学习:人工智能下象棋,走一步,能看几步?

12. 时序数据库:好险,差一点没挤进工业制造的高端局

13. 主动学习:人工智能居然被PUA了?

14. 云计算Serverless:一支穿云箭,千军万马来相见

15. 数据中心网络:数据还有5纳秒抵达战场

16.  数据中心网络:迟到不可怕,可怕的是别人都没迟到

17.  漫画:大模型用于腾讯广告,难在哪?

AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨燎原火,贾扬清(二)

3.搞 AI 框架那帮人(三):狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人(四):AI 框架前传,大数据系统往事

注:(三)和(四)仅收录于《我看见了风暴》。文章来源地址https://www.toymoban.com/news/detail-834291.html

到了这里,关于卷大模型开源,正确姿势是什么?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 下载huggingface上模型的正确姿势

    更多、更及时内容欢迎留意 微信公众号 : 小窗幽记机器学习 之前下载huggingface上模型的时候,要么是用类似如下脚本的方式下载: 要么是在 Files and versions 中点击目标文件逐一下载: 那么是否有更方便的方式,一行命令直接下载整个模型文件?有的,使用 git lfs 即可。 L

    2024年02月11日
    浏览(36)
  • 自定义redission装配和集成分布式开源限流业务组件ratelimiter-spring-boot-starter的正确姿势

    自定义redission装配和集成分布式开源限流业务组件ratelimiter-spring-boot-starter的正确姿势   由于使用了redisson-spring-boot-starter,在自定义redisson装配的时候会被redisson-spring-boot-starter里面的start默认装配了,同时在使用开源分布式限流组件ratelimiter-spring-boot-starter的时候,这个里面

    2024年02月07日
    浏览(38)
  • 符号化的正确姿势

    将 .ips crash report 文件拖放到 Xcode Window Devices and Simulators View Device Logs 中, 然后导出 .crash 符号化文件. 使用条件: crash report 对应的 Archive 包是在本机构建的 symbolicatecrash 是一个 exec (可执行文件), Xcode自带, iOS 15 之前的系统产生的 crash report, 可以直接被整个符号化, 文件路径可以

    2024年02月13日
    浏览(57)
  • Kali字典正确使用姿势

    终端输入wordlists,可以查看自带字典。ls -al 查看具体路径 /usr/share/wordlists/目录下带了rockyou的字典。2009年一家名叫rockyou的公司遭到了黑客攻击,他们的密码列表以明文存储,黑客下载了所有的密码列表并且公开。rockyou.txt包含14341564个唯一密码,用于32603388个帐户。 rockyou.t

    2024年02月06日
    浏览(33)
  • 软路由的正确组网姿势(上篇)

    相信很多小伙伴儿已经在自己的设备上刷好了 OpenWrt 系统,成功拥有了人生第一台软路由。那么接下来就要考虑如何将它连接到自己的家庭网络中,也就是组网的问题。只有正确组网,它才能实现你期望的那些功能。 软路由可以作为主路由或旁路由使用 ,也就是对应两种不

    2024年02月04日
    浏览(27)
  • Hive更改字段类型的正确姿势

    step1 更改表名 step2 创建一个和原来表结构相同的名字 step3 原来数据按分区动态插入

    2024年02月15日
    浏览(30)
  • 这才是 玩转Github 的正确姿势

    GitHub各位应该都很熟悉了,全球最大的开源社区,也是全球最大的同性交友网站~~,但是大部分同学使用GitHub应该就是通过别人的开源链接,点进去下载对应的项目,而真正使用Github来查找开源项目的还是少数, 面试总得有几个和所求岗位相关的项目,如果应届生、转行的童

    2024年02月03日
    浏览(30)
  • springboot整合netty的正确姿势

    近期做一些物联网方面项目,使用到了tcp协议,之前公司做过socket短连接,网上找了一个简单的demo,很早便学习到nio方面知识,学习了《netty从入门到精通》这本书,同时也根据网上视频做了几个demo,但学习不太深入,刚好物联网项目,就直接使用netty,前期直接使用这个框

    2024年02月05日
    浏览(28)
  • Android中正确使用Handler的姿势

    在Android中,Handler是一种用于在不同线程之间传递消息和任务的机制。以下是在Android中正确使用Handler的一些姿势: 1. 在主线程中创建Handler对象 在Android中,只有主线程(也称为UI线程)可以更新UI。因此,如果您需要在后台线程中执行某些任务并更新UI,则需要使用Handler将任

    2024年02月11日
    浏览(33)
  • vue3+WebRTC拉流(正确姿势)

    最近我要改老项目的一个vr实时同步画面的问题,后端返回我的是一个前缀为webrtc:// ** .flv 的视频链接,于是我开始与这个链接进行长达两天的斗争,下面是斗争结果,各位同志过目 提示:以下是本篇文章正文内容,下面案例可供参考 WebRTC(Web Real-Time Communication)是一种用于

    2024年02月02日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包