【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

这篇具有很好参考价值的文章主要介绍了【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

概述

中文英文模型,GPT-4性能是当着无愧的王者,但无法使用。中文评测平台榜单比较混乱,看个人使用习惯。
模型汇总: https://github.com/wgwang/LLMs-In-China

申请后直接使用大模型

  • 遇事不决- ChatGPT: https://chat.openai.com/
  • 百度-文心一言:https://yiyan.baidu.com/
  • 360智脑:https://chat.360.cn/
  • 阿里-通义千问:https://qianwen.aliyun.com/
  • 清华-chatGLM:chatglm.cn
  • 科大讯飞-星火:https://xinghuo.xfyun.cn/

开源可本地部署

中文:清华60亿参数 ChatGLM2-6B : https://github.com/THUDM/ChatGLM2-6B

通识数据集测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

自媒体报道

百度文心大模型3.5(ERNIE 3.5)
中文能力突出,部分超过 GPT-4 的表现;综合能力稍逊于GPT-4,但是平均能力超过chatgpt

【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

SuperCLUE:中文通用大模型综合性基准

评测地址:https://github.com/CLUEbenchmark/SuperCLUE
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

C-Eval:中英测评(清华上交提出)

论文:一个用于基础模型评估的多层次多学科的中文评估套件
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

当前排名(23.06.27)

该榜展示了,GPT-4在困难问题, 科学技术工程数学(STEM)上的强大准确的回答能力。
而chatglm在人文和社会科学方面遥遥领先。
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

数据集内容

具体的科目 如下图:

4个圈分别表示:
人文学科(humanities)
社会科学(Social Science)
STEM是科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)四门学科英文首字母的缩写。
这些科目的不同颜色表示四个难度水平:中学、高中、大学和专业水平(professional)。
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

数据量与试题示例

【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

论文中的测评结果

测评方式,API或者开源模型(weights)
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

AGIEval:微软 中英文评测

论文:AGIEval(一个以人为本的): A Human-Centric Benchmark for Evaluating Foundation Models.

该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试、包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛等

数据集内容

律师资格考试 (lawyer qualification exams)、
国家公务员考试 (civil servant exams)
GRE(Graduate Record Examination)是美国研究生入学考试)
GMAT(Graduate Management Admission Test)是经企管理类研究生入学考试)。
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

人类与国外主流模型差异

GPT-4
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

MMLU : 英文试题

测量大规模多任务语言理解:2009. Measuring Massive Multitask Language Understanding
该测试涵盖了57个任务,包括基础数学(elementary mathematics)、美国历史、计算机科学、法律等等。
用以测量模型是否,具备广泛的世界知识和问题解决能力

部分测评结果

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM

试题内容

图来自论文
STEM是科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)四门学科英文首字母的缩写。

【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE),AI自然语言相关,AICG,AI开放平台,C-Eval,中文大语言模型,superCLUE,AGIEval,chatgpt,文心一言,ChatGLM文章来源地址https://www.toymoban.com/news/detail-520031.html

到了这里,关于【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包