AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊

这篇具有很好参考价值的文章主要介绍了AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一周SOTA:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊

1. LMSYS Org发布LongChat,上下文碾压64K开源模型

最近UC伯克利主导的LMSYS Org发布了大语言模型排位赛,刷新了大家对当下比较出名的开源和「闭源」聊天机器人的认识。

传送门:UC伯克利LLM排行榜再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一

6月29日,来自LMSYS Org的研究人员发布了两个支持16k token上下文长度的开源大模型LongChat-7B和LongChat-13B,并测试了几个支持长上下文能力的几个大模型的实际表现。

目前支持长上下文的开源大模型已经有支持65K的 MPT-7B-storyteller 和32K的ChatGLM2-6B,闭源大模型比如 Claude-100K and GPT-4-32K,但LMSYS Org的研究人员还是选择通过测试来印证它们是「李鬼」还是「李逵」。

如何迅速有效地确认一个新训练的模型是否能够真地有效处理预期的上下文长度?

为了解决这个问题,研究团队可以基于需要LLM处理长上下文的任务进行评估,例如文本生成、检索、摘要和长文本序列中的信息关联。

研究人员们设计了一个名为LongEval的长上下文测试套件,包括两个难度不同的任务,提供了一种简单快捷的方式来衡量和比较长上下文的性能。

任务一:粗粒度主题检索
研究团队使用主题检索任务来模拟长对话中讨论会在多个主题之间跳转的场景。

这个任务会要求聊天机器人检索由多个主题组成的长对话中的第一个主题,测试模型是否能够定位长下文中的一段文本并将其与正确的主题名称相关联。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

任务二:细粒度检索

为了进一步测试模型在长对话中定位和关联文本的能力,研究人员引入了更精细的行检索测试(Line Retrieval test)。在这个测试中,聊天机器人需要精确地从长文档中检索一个数字,而不是从长对话中检索一个主题。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

LMSYS Org的研究人员考虑了4款开源和2款闭源大模型。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

图注:表1:模型规格

根据粗粒度的主题检索测试结果(如下图),可以发现:

  • 开源的长上下文模型的性能似乎没有宣传的那么好。例如,Mpt-7b-storywriter声称其上下文长度为84K,但即使在其声称的上下文长度(16K)的五分之一时,也只能勉强达到50%的准确率。
  • ChatGLM2-6B在长度为 6K 时无法可靠地检索到第一个话题(仅46%的准确率),当在大于 10K 的上下文长度上进行测试时,其准确率几乎为0%。
  • LongChat-13B-16K模型能可靠地检索到第一个主题,其准确率与gpt-3.5-turbo相当。
  • 闭源的商业长上下文模型很能打,在长距离主题检索任务上,gpt-3.5-16K 和 Anthropic Claude 的基准测试几乎都达到了完美的性能。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

图注:(任务一:粗粒度主题检索)在长距离主题检索任务上比较LongChat与其他模型

更细粒度的行检索测试中,可以发现:

  • Mpt-7b-storywriter的表现甚至比粗粒度的情况更差,准确率从约50%下降到约30%。
  • ChatGLM2-6B也出现下降,在最短长度(5K上下文长度)上表现不佳(准确率为32%)。
  • 相比之下,LongChat-13B-16K表现可靠,在12K上下文长度内实现了接近gpt-3.5/Anthropic-claude的能力。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

图注:(任务二:细粒度检索)长距离行检索任务的准确率

LongChat 通过压缩旋转嵌入技术,对从 ShareGPT 收集的用户共享对话分别微调 llama-7b、llama-13b 得到。评估结果表明,LongChat-13B 的远程检索准确性比其他长上下文模型高出 2 倍,包括 MPT-7B-storywriter(65K)、MPT-30B-chat(8K)和 ChatGLM2-6B(32k)。

LongChat模型在长距离检索任务上表现良好,但这是否会导致人类偏好显著下降呢?

研究人员使用了GPT-4评分的MT-bench测试LongChat是否仍然符合人类的偏好。结果发现:

  • LongChat-13B-16K 与其最接近的替代模型Vicuna-13B相比,确实在MT-Bench分数上略有下降,但在可接受的范围内,这表明这种长距离能力并没有显著牺牲其短距离能力。
  • LongChat-13B-16K 与其他相同规模的模型(Baize-v2-13B, Nous-Hermes-13B, Alpaca-13B)相比也具有竞争力。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

图注:表2. LongChat-13B与其他类似规模的模型比较MT-bench得分

2. 北大团队发布法律大模型 ChatLaw

北大团队发布了首个中文法律大模型落地产品ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。

ChatLaw 是一个法律大型语言模型,可以集成外部知识库,并基于姜子牙-13B 和 Anima-33B 进行训练,具有较强的逻辑推理能力。

目前开源了三个模型型号:ChatLaw-13、ChatLaw-33B、ChatLaw-Text2Vec。

  • ChatLaw-13B 是学术 demo 版,中文表现良好,但在逻辑复杂的法律问答方面效果不佳,需要使用更大参数的模型。
  • ChatLaw-33B 是学术 demo 版,逻辑推理能力大幅提升,但由于语料库过少,会出现英文数据。
  • ChatLaw-Text2Vec 使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型,可以将用户提问信息和对应的法条相匹配。

论文地址:https://arxiv.org/abs/2306.16092
开源地址:https://github.com/PKU-YuanGroup/ChatLaw
官方地址:https://www.chatlaw.cloud/

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

Q1_batch.mp4

ChatLaw 法律大型语言模型

3. 扁鹊:指令与多轮问询对话联合微调的医疗对话大模型

扁鹊是一个中文医疗对话模型,当前发布两个版本 扁鹊-1.0 和 扁鹊-2.0。相比常见开源医疗问答模型,扁鹊更注重多轮交互中用户描述不足的情况,定义了询问链并强化了建议和知识查询能力。

  • 扁鹊-1.0 是一个经过指令与多轮问询对话联合微调的医疗对话大模型,使用超过 900 万条样本的中文医疗问答指令与多轮问询对话混合数据集训练得到。
  • 扁鹊-2.0 则基于扁鹊健康大数据 BianQueCorpus,选择 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到,并扩充了药品说明书指令、医学百科知识指令以及 ChatGPT 蒸馏指令等数据,强化了模型的建议与知识查询能力。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

开源地址:https://github.com/scutcyr/BianQue
HuggingFace地址:https://huggingface.co/spaces/scutcyr/BianQue

该项目由华南理工大学未来技术学院-广东省数字孪生人重点实验室发起的,开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ;(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat)

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

图注:中文领域生活空间主动健康大模型基座ProactiveHealthGPT

模型开源链接如下:

扁鹊 (BianQue):https://github.com/scutcyr/BianQue
灵心 (SoulChat):https://github.com/scutcyr/SoulChat

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊,聊天机器人,AI,开源项目,人工智能,语言模型,自然语言处理

参考:
https://lmsys.org/blog/2023-06-29-longchat/
https://www.zhihu.com/question/610072848/answer/3101663890
https://www.chatlaw.cloud/
https://www.163.com/dy/article/I70BJ9U00552UJUX.html
https://github.com/scutcyr/BianQue
https://www.ppmy.cn/news/52419.html?action=onClick文章来源地址https://www.toymoban.com/news/detail-528670.html

到了这里,关于AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LLaMA3-70B: Meta AI 的最新自然语言处理模型

    近期,Meta AI 发布了其最新的自然语言处理模型 LLaMA-70B,这是一个基于 transformer 结构的语言模型,具有70亿个参数。LLaMA-70B 的发布标志着 Meta AI 在自然语言处理领域的又一重大突破。作为自然语言处理领域的最新成果,LLaMA-70B 具有许多特点和优势,本文将对其进行详细介绍

    2024年04月29日
    浏览(58)
  • 基于chinese-llama-plus北大团队推出法律大模型,数据与模型全部开源,模型合并使用全流程

    上篇分享了一个法律的大模型,lawGPt,目前看回答一些基本的法律问题还是可以的,昨天又发现,北京大学也开源了一个法律大模型,lawyer-llama,通过在大规模法律语料中进行训练,系统学习中国的法律知识体系使得模型可以掌握中国的法律知识并应用于中国的法律实务。

    2024年02月11日
    浏览(26)
  • 【AI人工智能】LLM 开源中文大语言模型集合

    整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。 目录 1. Model 2. Application 3. Dataset 4. Evaluation 5. Tutorial 6. R

    2024年02月09日
    浏览(42)
  • 【AI 开源框架】BMTools 是一能让语言模型使用扩展工具的开源仓库

    BMTools 是一能让语言模型使用扩展工具的开源仓库,其也是开源社区构建和共享工具的一个平台。在这个仓库中,您可以: (1) 通过编写 Python 函数轻松构建插件, (2) 使用外部的 ChatGPT-Plugins。 本项目受到开源项目LangChain的启发,针对开源工具的使用(例如ChatGPT-Plugins)进行了

    2024年02月08日
    浏览(34)
  • 全网最新版ChatGLM-6B开源模型环境详细部署及安装——如何在低显存单显卡上面安装私有ChatGPT GPT-4大语言模型

    ChatGPT的爆火让许多公司和个人都想要开发自己的大型语言模型,但是,由于算力和语言模型开发能力等诸多方面的限制,许多人最终都只能在开发的早期阶段止步不前。然而,近期清华大学知识工程和数据挖掘小组(Knowledge Engineering Group (KEG) Data Mining at Tsinghua University)发布

    2024年02月05日
    浏览(44)
  • OpenAI推出GPTBot网络爬虫:提升AI模型同时引发道德法律争议

    OpenAI 推出的网络爬虫GPTBot旨在通过从互联网上收集文本数据来提高其语言模型,特别是为未来的GPT-5做准备。 GPTBot的设计原则包括不收集需要付费访问的信息、不收集能追踪到个人身份的数据(PII),并且不会包含违反OpenAI政策的内容。这意味着GPTBot在执行其任务时,会严格

    2024年04月13日
    浏览(26)
  • LaWGPT基于中文法律知识的大语言模型_初步安装

    准备代码,创建环境 国内网络环境问题。你可以把requirements.txt里面的github.com替换成kgithub.com(这是一个github镜像网站) 启动 web ui(可选,易于调节参数) 首先,执行服务启动脚本: bash scripts/webui.sh 其次,访问 http://127.0.0.1:7860 : 安装有问题

    2024年02月13日
    浏览(46)
  • 【AI实战】开源且可商用的 40B 大语言模型 Falcon 40B

    官网 https://www.tii.ae/news/uaes-technology-innovation-institute-launches-open-source-falcon-40b-large-language-model Abu Dhabi-UAE: 25 May, 2023 – The Technology Innovation Institute (TII), a leading global scientific research center and the applied research pillar of Abu Dhabi’s Advanced Technology Research Council (ATRC), today strengthened its gro

    2024年02月07日
    浏览(29)
  • 【AI实战】开源可商用的中英文大语言模型baichuan-7B,从零开始搭建

    baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。 GitHub: https://github.c

    2024年02月09日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包