我的大模型观:我眼中的LLM和AIGC

这篇具有很好参考价值的文章主要介绍了我的大模型观:我眼中的LLM和AIGC。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


今年,大模型火的一塌糊涂。最近几个月paper with code上,前几名的论文几乎都是生成模型和LLM。参加AI相关的会议,也是千篇一律的LLM。国内的大厂争先恐后的发布自己的大模型,比如百度的文心、360的智脑、讯飞的星火等等,呈现出百花齐放百家争鸣的繁荣现象。。北京市推出了首批的大模型应用案例,从政府层面得到了对大模型的肯定。
我的大模型观:我眼中的LLM和AIGC,人工智能,深度学习,原力计划

结合最近论文和实践,我对大模型有了一些自己的看法:

大模型是有智能的。

虽然不愿意承认这点,但是大模型的表现确确实实的展现出了智能。比如chat paper这样的应用,利用大模型读paper,提取paper的关键内容;医疗大模型 ——HuatuoGPT(华佗GPT)使语言模型具备像医生一样的诊断能力和提供有用信息的能力;ChatLaw作为法律大模型在2000道司法考试上得到了1733的分数等等。这些现象足以证明大模型能够理解人类的表达意图,是有智能的。甚至,有人已经发出了硅基生命将会统治碳基生命的言论,早早做起了投降派。

其实,3年前的CLIP给人留下了深刻的印象,通过对4亿的文本——图像对进行训练出来的多模态模型,零样本迁移在ImgetNet数据集上超越了ResNet50,同时在物体检测也有着不俗的表现。CLIP打破了计算机视觉的原有范式,真正做了对文本和图像的理解 论文翻译详见:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/125452516。

CLIP的成功证明提高模型的参数规模和数据规模,可以产生意想不到的智能。

也许,大模型是一场骗局?

数据集一般分为训练集、验证集和测试集,这三个数据集是不重复的。训练ChatGPT的数据集有几个PB,几乎是人类已知数据的总和,很难保证数据集不重复。而且我们对ChatGPT的提问也几乎包含在这些数据集里。ChatGPT更像一个经过压缩的数据库,我们的提问就变成了查询和检索,只不过这样的检索效率很高,大大超越了现有的搜索引擎。

如果是这样,大语言模型的智能是非常有限的,也需没有智能。我们用小模型能不能做到呢?比如1B或者更小的模型。

今年高考题放出来后,FlagEval 大模型评测团队从 2023年高考考卷中整理了 147 道客观题(其中语文 20道,英语 44道,历史 31道,数学 9道,物理 8道,政治 21道,生物 14道)形成 Gaokao2023 V1.0 评测集。经过测试,GPT-4 和 GPT-3.5-turbo 正确率分别为 60.4%、42.5%。750×60%=450分。陆奇博士说ChatGPT的能力达到了斯坦福大学本科生的水平。貌似高考450分很难上斯坦福吧!面对新问题,ChatGPT的表现并不理想。

当然,ChatGPT在很多其他领域的表现也不尽人意,出现了幻想!

大语言模型的能力来源于数据还是模型?这需要去验证,也许不需要1750亿这样的大模型就能达到现有ChatGPT能力。这个问题只能有OpenAI去回答。

从头训练or微调

对于有卡的人或者公司来说,这不是个问题。但是对于很多小点的公司和个人不得不考虑二者的成本和收益比。微调,特别是量化微调可以大大减少训练成本,我们在基座模型上使用消费级的显卡就可以完成。QLORA足以在单个48GB GPU上微调65B参数模型,同时保留完整的16位微调任务性能。邱锡鹏团队实现了在8×RTX 3090的机器上对65B模型进行全参数微调。这些方法大大降低了大模型的训练门槛。

组织专业的数据在已有的模型上微调,,可以提升大模型在专有领域的能力,但是带来的后果是模型其他能力的退化,比如多轮对话能力在微调之后有可能丧失了,出现了灾难性的遗忘!

上周和众多的专家交流后,我得到了答案。在组织数据的时候,可以将专有领域的数据和训练基座模型的原有数据融合去训练,有能力做全参数训练的,可以做全参数微调,如果没有的可做一些量化微调。不过训练成本会变的很大,还是不适合个人玩家。

我想象中的大模型架构

一个通用的大语言模型很难满足人们的需求,随着专有领域蓬勃发展,专有领域小模型在各自的领域吊打ChatGPT.。所以,我对大模型的架构思考了良久!我认为大模型的整体架构应该是个模型集。如下图:
我的大模型观:我眼中的LLM和AIGC,人工智能,深度学习,原力计划

通用的大模型承担中心处理的角色,它有很强的语言交互能力和多轮对话的能力。在实际生活中,人们很难一句话描述出自己的需求,往往需要多轮的沟通,等待双方的认知对齐后才能得出正确的需求。在得出正确的需求后,大模型会给出答案。我们可以根据置信度或者用户的反馈来判断回答的合理性。如果不满足则,有大模型发起对专业模型调用推理的请求,让专业的模型对问题做出回答。

如果用木桶理论来说明。大模型的能力遵循木桶理论,是各方面的能力都具备,但不一定精通的通用模型。而专业模型则是新木桶原理,尽量去发挥自己的长处,在自己的专属领域达到极致。
我的大模型观:我眼中的LLM和AIGC,人工智能,深度学习,原力计划

大厂的大模型

各大厂陆续发布了自己的大模型,呈现出百花齐放百家争鸣的繁荣景象。但是我们也不能不忽略一个问题,目前,还没有一款模型能够达到ChatGPT和GPT-4的水平。尽管,有些模型在评测上宣称达到了ChatGPT90%以上的能力,但是在实际使用中给人的体验非常差。

还有一个问题,大模型评测没有具体的标准,很多厂家都是选用人为的评估,或者使用ChatGPT评估,潜意识中认为ChatGPT就是最好的。由于缺乏统一的评测标准,大模型的真是价值无法得到准确的验证。这个是亟待解决的。

其实,通用的大模型只能由大厂来完成,中小厂根本不具备训练大模型的能力,更别说去部署成服务供大家使用。然而,我们需要这么多大模型吗?

我觉得不需要的,悲观的说,世界上只需要一个通用大模型就够了或者说国内有一个通用的大模型就够了。就像曾经的诸子百家,流传下来的寥寥无几,大模型也是这样的道理。作为大厂,有实力又有责任去完成这个通用大模型。

在此,希望大厂之间能够联合起来,把数据、算力、算法集中起来,去打造一个我们中国自己的AI大模型。
我的大模型观:我眼中的LLM和AIGC,人工智能,深度学习,原力计划

中小厂和个人开发该何去何从?

对于中小厂和个人,很难完成大模型的全流程,最好把有限的资源和精力放在专业领域模型或者说垂直领域大模型。制作专业的数据集,在现在开源的基座模型微调就可以得到非常专业的垂直大模型,很多初创公司和个人开发者就能完成。

目前,开源的一些垂直领域大模型,在自己的领域可以吊打ChatGPT也证明这个方向是可行。文章来源地址https://www.toymoban.com/news/detail-517998.html

到了这里,关于我的大模型观:我眼中的LLM和AIGC的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包