03-为啥大模型LLM还没能完全替代你?

这篇具有很好参考价值的文章主要介绍了03-为啥大模型LLM还没能完全替代你?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 不具备记忆能力的

它是零状态的,我们平常在使用一些大模型产品,尤其在使用他们的API的时候,我们会发现那你和它对话,尤其是多轮对话的时候,经过一些轮次后,这些记忆就消失了,因为它也记不住那么多。

2 上下文窗口的限制

大模型对其input和output,也就是它的输入输出有数量限制。为了保护它的,这计算能力或保护相当于一个带宽概念,如说openAI之前只有32k。最新上下文窗口扩张到128k,大概相当于一本《Clean Code》,这个角度来说,这个问题其实已被解决。

但其他很多模型上下文窗口还是比较小,就有很多限制。如不可发一长段prompt或提示词,也不可不停在那对话,你就需要注意计算你整个窗口token消耗,避免被截断,可能就没有办法去输入和输出。

3 实时信息更新慢,新旧知识难区分

基于预训练的模型,拿大量数据来在神经网络的训练,然后形成模型,它的知识库就依赖于拿去训练的这些材料。

底模数据较小时,就会出现幻觉,胡乱回答。

4 无法灵活的操控外部系统

很多大模型只可对话,但无法作为一个外脑去操作外部的一些系统。虽然chatgpt出现插件机制和插件开发工具。但实际使用后,它还是相当于提供一个非常标准的东西,定制开发或更深度融合较难。

比如想用大模型作为一个外脑操控智能家居系统、操控汽车,都需要有一些连接器和框架帮助。

5 无法为领域问题提供专业靠谱的答案

你问他一些泛泛而谈的东西,他都能回答很好,但是你一旦问他一个非常专业问题,他就回答不上来,因为这块儿的专业问题,他可能不涉及。虽然他回答的答案是看起来是像一个人在回答,但一眼就能看出来那个答案不对。

针对这些问题,业界基本提出两种解决方案,但也都不能完全解决。

6 解决方案

6.1 微调(Fine-tunning)

主要解决的就是专业问题,专业知识库问题,包括知识更新问题。

就是把这些数据喂给我们的大模型啊,再做一次训练。基本上一次训练也无法解决这个知识感知信息问题,它只能更新它的数据库。成本较高。因为相当于把你的数据问喂给OpenAI,然后全量训练一次,成本相当高。

适用场景

做一些自有的大量数据的行业模型。所谓行业模型,如某专业领域的公司,积累的大量数据,如制药公司在制药过程积累大量制药数据,你希望这个数据以AI智能方式指导你的工作,就可用这种方式。把你的这个数据去喂给喂给大模型,对它再做一次调教。

这涉及一个概念

MaaS

module as a service,模型即服务。通过这个微调在大模型基础上灌入行业数据,实现这种行业模型,就适合手里拥有大量行业数据的。

这也只能解决领域数据专业性和知识库更新问题,无法解决操作外部系统、记忆能力、窗口扩张。

6.2 提示词工程(prompt engineering)

通过上下文提示词设计引导。在LLM基础上把这种专业数据通过:

  • Embedding嵌入
  • prompt提示词

这两个工具实现精准的专业回答,同时可实现:

  • 实时系统的感知
  • 操作外部系统
  • 记忆增强
  • 窗口控制扩张

好处明显,无需训练,不用去在LLM上面做训练。

适用场景

适合数据样本比较少的这种场景。如你有一本书,你希望说从这本书上去得到一些信息,但是你又不想去读它,你希望有个机器人,你问他问题,他直接从书里面找到答案。这种就可以把书的数据作为专业数据,然后嵌入到我们的这个LLM,然后再通过prompt方式去引导,得到一个精确的答案。

这过程中间甚至还可把这些答案,和我的打印机系统连接,可直接打印。

两种方式都可解决大模型问题,但适用场景不同,各自擅长点也不一样,很多时候,两者结合用效果较好。

微调,现在已经把门槛降到很低了,可直接把。把你想要微调的数据直接upload上去就可,但闭源大模型的数据安全的问题,数据所有性问题和成本问题。

提示词工程适合开源大模型,如chatglm,在本地部署大模型,再做这种词嵌入和提示词引导,就可本地实现专业行业模型。但底层LLM可能没用强大的,可能只是一个6b13b,它可能在语言组织或说一些智能度上稍低。代表就是 langchain。

7 总结

03-为啥大模型LLM还没能完全替代你?

大模型的这几个问题都有,有两套这样的解决方案:

  • Model as aSerivce 模型即服务通过“微调”技术,在LLM基础上灌入行业数据,实现行业模型
  • promptengineering提示词工程,通过上下文提示词设计31号LM输出精确答案

都有自己的优劣点,然后都有自己适用的场景。所以用什么方案呢?其实是看我们这个这个整个的这个项目的情况,专栏偏向第二种提示词工程, 即langchain框架的方式。

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都技术专家,多家大厂后端一线研发经验,在分布式系统、和大数据系统等方面有多年的研究和实践经验,拥有从零到一的大数据平台和基础架构研发经验,对分布式存储、数据平台架构、数据仓库等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化
  • 活动&优惠券等营销中台建设
  • 交易平台及数据中台等架构和开发设计
  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化

目前主攻降低软件复杂性设计、构建高可用系统方向。

参考:

  • 编程严选网

本文由博客一文多发平台 OpenWrite 发布!文章来源地址https://www.toymoban.com/news/detail-855775.html

到了这里,关于03-为啥大模型LLM还没能完全替代你?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChartGPT会完全替代人类工作吗?

    这个问题我问过了,不会,至少目前不会。O(∩_∩)O 今天试用了一下最近爆火的机器学习产物–ChartGTP,内心颇受震撼,下面介绍一下具体的使用场景,文末会附上注册的方式。 ChartGPT是由OpenAI出版的一款智能文字交互窗口软件,通过大模型训练的方式实现智能化的窗口问答

    2024年02月09日
    浏览(24)
  • AI会完全替代Java程序员吗?

    作为一个 Java 开发的从业人员,以我自己对GPT的使用来说, AI 现阶段想要完全取代程序员,那是完全不可能的。 当然,随着算力以及数据的训练越来越多,以后不好说,个人觉得大部分基础代码完全可以使用 AI 生成, 但是当涉及到非常复杂的业务的时候,AI 还是很难做到(

    2024年01月22日
    浏览(29)
  • 基于LangChain的LLM应用开发3——记忆

    此情可待成追忆,只是当时已惘然。我们人类会有很多或美好或痛苦的回忆,有的回忆会渐渐模糊,有的回忆午夜梦醒,会浮上心头。 然而现在的大语言模型都是没有记忆的,都是无状态的,大语言模型自身不会记住和你对话之间的历史消息。根本用不着“时时勤拂拭”,天

    2024年02月08日
    浏览(31)
  • StarCoder 2:GitHub Copilot本地开源LLM替代方案

    GitHub CoPilot拥有超过130万付费用户,部署在5万多个组织中,是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力,而且正在永久性地改变数字原住民开发软件的方式,我也是它的付费用户之一。 低代码/无代码平台将使应用程序创建、工作流

    2024年03月10日
    浏览(72)
  • CYUSB3014设计方案|替代CYUSB3014芯片|方寸微T630可完全替代兼容CYPRESS CYUSB3014

    CYUSB3014 设计方案 | 替代 CYUSB3014 芯片 | 方寸微 T630 可完全替代兼容 CYPRESS CYUSB3014 赛普拉斯 CYPRESS CYUSB3014 是一款 USB 3.0 PHY 芯片,广泛应用于视频转接类接口设计,比如各种摄像机、采集卡、扫描仪、医疗成像设备、视频监控等产品   方寸微 T630 ,也是一款 USB 3.0 PHY 芯片,完

    2024年02月04日
    浏览(32)
  • 在LLM的支持下使游戏NPC具有记忆化的方法

    问题 使用GPT这样的LLM去处理游戏中的NPC和玩家的对话是个很好的点子,那么如何处理记忆化的问题呢。 因为LLM的输入tokens是有限制的,所以伴随着问题的记忆context是有窗口大小限制的,将所有的记忆输入LLM并不现实。 所以这里看到了stanford的一项研究,利用ChatGPT做的生成智

    2024年02月16日
    浏览(29)
  • 使用openeuler 22.03替代CentOS 7.9,建立虚拟机详细步骤

    进入浏览器搜索网址下载openeuler 22.03镜像文件 https://mirrors.huaweicloud.com/openeuler/openEuler-22.03-LTS-SP3/ISO/x86_64/openEuler-22.03-LTS-SP3-x86_64-dvd.iso 打开VMware Workstation新建一个虚拟机:         自定义虚拟机位置                     加入下载好的openeuler镜像文件           使用root用户

    2024年02月19日
    浏览(41)
  • 【人工智能】大模型时代,程序员需要具备哪些技能才能胜任?

    目录 一、深度学习算法和模型 二、计算机视觉和自然语言处理 三、数据处理和管理

    2024年02月07日
    浏览(42)
  • 阿里云X森马 AIGC T恤设计大赛;SD新手入门完全指南;揭秘LLM训练中的数学;LLM高质量阅读清单 | ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 比赛官网:https://developer.aliyun.com/adc/series/activity/aigc_design 阿里云携手服装品牌森马,推出了本次 AIGC T 恤设计大赛。开发者、设计师、AI绘画爱好者,都可以使用阿里云函数计算快速部署 Stable D

    2024年02月11日
    浏览(41)
  • ARM 版 OpenEuler 22.03 部署 KubeSphere v3.4.0 不完全指南

    作者:运维有术 知识点 定级: 入门级 KubeKey 安装部署 ARM 版 KubeSphere 和 Kubernetes ARM 版 KubeSphere 和 Kubernetes 常见问题 实战服务器配置 (个人云上测试服务器) 主机名 IP CPU 内存 系统盘 数据盘 用途 ks-master-1 172.16.33.16 6 16 50 200 KubeSphere/k8s-master ks-master-2 172.16.33.22 6 16 50 200 KubeSph

    2024年02月08日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包