基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式

这篇具有很好参考价值的文章主要介绍了基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者:寒斜

AIGC 持续火爆全球,越来越多的场景开始接入并体现非凡的价值。其中应用广泛的场景之一就是智能知识问答,它改变了人们学习的方式,从阅读式到问答式,让知识的获取更加精准有效。开源软件拥有着广泛的求知群体,AIGC+ 社区的结合是学习型社区未来演进方向上的一个新颖的尝试,今天我们结合 RocketMQ 学习社区的实践来跟大家聊聊构建该类场景的经验以及遇到的一些挑战。

基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式

学习社区的新范式

学习社区本身的诉求是希望能够快速传播知识、提升影响力,而社区开发者则是希望更快、更及时、更准确的获得专业知识。

以往从社区获取知识的方式有两种:

  • 翻阅社区的文档和社区提供的源代码进行自主学习;
  • 和社区的技术大牛进行交流,获取答案。

两种方式都存在一定的问题, 第一种自学的成本较高,为了更好的理解相关的基本概念,需要根据快速入门文档一步一步操作,然后继续深入了解其他的知识点,想要获取更关注的知识成本较高,而且因个体理解的差异,社区传播知识的效果也不一定能够令人满意;第二种虽然可以准确获得想要的知识,对个体知识的掌握也好于第一种,但是社区专家的解答往往不是实时的,所以不论是对于开发者的学习,还是对社区知识的传播来说效率都不高。

现在有了第三种方式:基于大语言模型的专业知识问答,社区开发者可以随时随地进行专业知识提问,享受 24 小时专家服务, 对于学习社区而言,传播自身知识的效率也变得更高了。

专有语料库的智能问答技术基本原理

基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式

如图所示, 专有语料库的智能问答系统分为两个部分:

  1. 语料库的录入,管理员将专业的社区资料进行上传,智能问答系统会对文档进行切片,然后通过 embedding 算法将其转化为向量数据,存储下来等待检索;

  2. 问题解答,用户输入的问题经过向量转化后通过近似搜索算法跟向量数据库的内容做比对,得到近似值答案后,结合提示词模版以及用户问题一同输入给大语言模型,大语言模型做归纳总结后返回给用户。所以系统的完整功能既包含直接的答案输出(根据大模型能力结果可能不准确,主要是“幻答”),也包含根据向量近似值检索出来的原文列表。后者作为辅证,帮助学习者判断答案的正确与否。

生产的挑战

相较于技术方案的论证,真正想把智能问答能力发布到生产有着非常多的挑战,下面来跟大家共同探讨一下。

安全

安全始终是 AIGC 类服务最需要关心的问题,没有之一。主要包含以下几点:

  • 数据安全
  • 内容安全,包含输出和输出
  • 系统安全

数据安全主要是指使用大模型服务,尤其是境外服务会导致数据跨境,这是不能被允许的;

内容安全主要是用户输入以及结果输出不能包含涉黄涉恐的内容;

系统安全则是攻击者可以通过提示词诱导导致一些机密信息的泄露。以上的安全问题都是需要被严重关切。

安全问题解决方案

数据安全的解法就是使用完全合规的大模型服务或者完全托管开源的模型实现 100% 私有化,RocketMQ 学习社区是基于开源的 chatlm6b 问答系统方案并且使用阿里云多款产品组合,从而实现模型服务和业务逻辑一体化的 AI 应用。

chatlm6b 问答系统方案:

https://github.com/imClumsyPanda/langchain-ChatGLM

内容安全,针对输入内容做安全算法过滤, 阿里云的绿网服务能够很好的支撑这一点,规避使用者输入不合规的问题,输出结果的约束则是通过提示词工程完成-仅允许回答领域内的问题。

系统安全,应对提示词注入(PI)的风险,则可以考虑采用启发式方法,在恶意输入到达前将其过滤或者使用专用 LLM 来分析传入的提示并识别潜在的攻击。

相关的解决方案可以参考:https://rebuff.ai/

服务高可用

社区的智能问答系统上线之后,必然要面对更多的访问请求。模型推理本身无法并行,意味进入模型推理的请求需要排队处理,如何快速拉起更多的模型服务,应对并发请求,是线上生产面临的现实问题;此外如何应对单点服务故障以及如何对数据进行容灾备份,都是生产服务必须考虑的问题。

成本/效率/体验的平衡

如何更快的交付业务服务,如何实现体验和成本的平衡,也是摆在实际生产中的问题。

如果你选择了模型自托管,有两种使用 GPU 的方案,第一种是自己买卡搭建服务,第二种是租赁云厂商的服务器。第一种需要很强的技术背景,并且需要处理好服务的高可用,第二种则需要对 GPU 的消耗进行精打细算,任何一家云厂商提供的 GPU 服务费用都不低。除此之外随着业务交付时间的临近,处理非业务的技术问题也会增加业务交付的风险,业务研发投入的减少也会影响服务的使用体验。

一句话总结就是,实现成本、效率、体验三者的平衡绝非易事。

RocketMQ 学习社区的探索

RocketMQ 学习社区的构建,采用的是阿里云 Serverless 架构,实现百分之百的私有化,并且尽最大可能得解决安全问题。通过 Serverless 实现成本/效率/体验的平衡以及服务的高可用。此外在网络层面使用了更安全的 vpn 内网服务,更大程度的杜绝系统关键信息泄露,同时还保留了切换商业模型服务的能力,方便在后续切换时获得更加精准的问题答案。

RocketMQ 学习社区 Serverless 架构方案

基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式

专业安全团队安全水位评估结果

基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式

基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式

开源模型地址

https://github.com/imClumsyPanda/langchain-ChatGLM

总结

除了以上的生产挑战,我们也遇到了非常多的工程化研发中的细节问题,比如 Serverless 架构的模型服务部署,端到端的性能调优,后续会跟大家一一拆解,做更详细的文章分享。

我们相信,大模型的出现在持续的改变这个世界,随着基于专业语料库的智能问答技术的成熟,更广泛的行业如教育,医疗,法律等也都会被惠及。开源社区也会迎来崭新的方向,今天把我们的实践跟大家做分享,也希望能有更多的同学参与其中,一起共创,将开源社区传播知识的能力放大,惠普更多的开发者。

RocketMQ 学习社区体验地址

RocketMQ 学习社区是国内首个基于 AIGC 提供的知识服务社区,欢迎大家点击体验(建议PC端体验完整功能):https://rocketmq-learning.com/**

PS:RocketMQ 社区以 RocketMQ 5.0 资料为主要训练内容,持续优化迭代中,回答内容均由人工智能模型生成,其准确性和完整性无法保证,且不代表 RocketMQ 学习社区的态度或观点。

点击此处,立即体验 RocketMQ 学习社区文章来源地址https://www.toymoban.com/news/detail-485288.html

到了这里,关于基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【开源与项目实战:开源实战】83 | 开源实战三(下):借Google Guava学习三大编程范式中的函数式编程

    现在主流的编程范式主要有三种,面向过程、面向对象和函数式编程。在理论部分,我们已经详细讲过前两种了。今天,我们再借机会讲讲剩下的一种,函数式编程。 函数式编程并非一个很新的东西,早在 50 多年前就已经出现了。近几年,函数式编程越来越被人关注,出现

    2024年02月11日
    浏览(38)
  • 设计模式学习笔记 - 开源实战三(下):借助Google Guava学习三大编程范式中的函数式编程

    现在主流的编程范式主要有三种,面向过程、面向对象和函数式编程。在理论部分,已经介绍了前面两种编程范式。本章再讲讲剩下的编程范式,函数式编程。 函数式编程并非是一个很新的东西,早在 50 年前就已经出现。近几年,函数式编程越来越被人关注,出现了很多新

    2024年04月22日
    浏览(45)
  • 【开源】基于JAVA的智慧社区业务综合平台

    基于JAVA+Vue+SpringBoot+MySQL的智慧社区业务综合平台,包含了业务类型模块、基本业务模块、预约业务模块、业务分析模块、工作反馈模块和社区新闻模块,还包含系统自带的用户管理、部门管理、角色管理、菜单管理、日志管理、数据字典管理、文件管理、图表展示等基础模块

    2024年01月23日
    浏览(40)
  • 龙蜥社区「人人都可以参与开源」——基于开源赛深析AtomGit平台特点

    作为一名参与者,我对于这次任务的体验深感充实而有成就感。整个过程需要进行多个步骤,从报名到最终提交作品,每一步都需要细心操作和确保准确性。 在完成这项任务的过程中,我深刻领悟到了团队协作的重要性。尽管这是一个个人完成的任务,但在整个过程中,我需

    2024年04月14日
    浏览(83)
  • 从热爱到深耕,全国Top10开源软件出品人探索“开源云上行”

    本文分享自华为云社区《【先锋开发者云上说】从热爱到深耕,全国Top10开源软件出品人探索“开源云上行”》,作者:华为云社区精选。 《2022-2023 中国开源开发者调查报告》中有数据显示:只有2%的开发者从未使用过开源,49%的开发者表示参与过开源;63%的开发者从未在开

    2024年02月05日
    浏览(81)
  • ModaHub魔搭社区:非结构化数据范式转变和示例

    目录 范式转变——非结构化数据 非结构化数据示例 既然我们对结构化数据和半结构化数据有了清晰的理解,现在让我们开始谈谈非结构化数据。与结构化数据和半结构化数据不同,非结构化数据可以采取任何形式,可以有任意大小或尺寸,并需要大量的运行时间来转换和索

    2024年02月13日
    浏览(31)
  • 【开源】基于Vue.js的社区买菜系统的设计和实现

    项目编号: S 011 ,文末获取源码。 color{red}{项目编号:S011,文末获取源码。} 项目编号: S 011 ,文末获取源码。 基于Vue+SpringBoot+MySQL的 社区买菜系统 包含 菜品分类模块、菜品档案模块、菜品订单模块、菜品收藏模块、收货地址模块 ,还包含系统自带的用户管理、部门管理

    2024年02月04日
    浏览(33)
  • ModaHub魔搭社区:基于 Amazon EKS 搭建开源向量数据库 Milvus

    目录 01 前言 02 架构说明 03 先决条件 04 创建 EKS 集群 05 部署 Milvus

    2024年02月12日
    浏览(38)
  • ModaHub魔搭社区:基于阿里云 ACK 搭建开源向量数据库 Milvus

    目录 一、准备资源 二、集群创建: 本集群基于Terway网络构建 二、连接刚刚创建的ACK集群 三、部署Milvus数据库 四、优化Milvus配置 简介: 生成式 AI(Generative AI)引爆了向量数据库(Vector Database)市场,基于大模型的各种应用场景会需要使用到向量数据库。 其中,Milvus 是一

    2024年02月12日
    浏览(42)
  • Amazon CodeWhisperer——探索高效编程范式

    在CSDN上看到的Amazon活动就去看了看,整个体验过程还是非常Nice的,我使用的是VSCode测试的,语言选择了python,在测试AI代码提示的过程中感受到了很多的快捷之处,再次留下个印记,也算给大家提供一个提升高效编码的方案。 活动主页:亚马逊云科技开发者社区 在正式说明

    2024年02月06日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包