为什么需要评测?模型选型 模型能力提升 真实应用场景效果评测
我们需要测什么?知识推理语言 长文本智能体多轮对话 情感认知价值观
怎么样测试大语言模型?自动化客观评测 人机交互评测 基于大模型的大模型评测
普通用户: 了解诶模型的特色能力和实际效果
开发者:监控模型能力变化,指导优化模型生产
管理机构:减少大模型带来的社会风险
产业界:找出最适合产业应用的模型,赋能真是场景
客观评测
主观评测
提示词工程:问题的不同问法
主流大模型评测框架
OpenCompass能力框架
Meta官方推荐
平台架构
100+数据集
任意模型
任务切分
多种输出方案
前沿探索MMBench
垂直领域 法律 医疗
挑战文章来源:https://www.toymoban.com/news/detail-809053.html
文章来源地址https://www.toymoban.com/news/detail-809053.html
到了这里,关于大模型实战营Day6 OpenCompass 大模型评测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!