新测试基准发布,最强开源Llama 3尴尬了

这篇具有很好参考价值的文章主要介绍了新测试基准发布,最强开源Llama 3尴尬了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

如果试题太简单,学霸和学渣都能考90分,拉不开差距……

随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试

大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard,引起广泛关注。

Llama 3的两个指令微调版本实力到底如何,也有了最新参考。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

与之前大家分数都相近的MT Bench相比,Arena-Hard区分度从22.6%提升到87.4%,孰强孰弱一目了然。

Arena-Hard利用竞技场实时人类数据构建,与人类偏好一致率也高达89.1%

除了上面两个指标都达到SOTA之外,还有一个额外的好处:

实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词,减轻潜在的数据泄露

并且新模型发布后,无需再等待一周左右时间让人类用户参与投票,只需花费25美元快速运行测试管线,即可得到结果。

有网友评价,使用真实用户提示词而不是高中考试来测试,真的很重要。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

新基准测试如何运作?

简单来说,通过大模型竞技场20万个用户查询中,挑选500个高质量提示词作为测试集。

首先,挑选过程中确保多样性,也就是测试集应涵盖广泛的现实世界话题。

为了确保这一点,团队采用BERTopic中主题建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)转换每个提示,使用 UMAP 降低维度,并使用基于层次结构的模型聚类算法 (HDBSCAN) 来识别聚类,最后使用GPT-4-turbo进行汇总。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

同时确保入选的提示词具有高质量,有七个关键指标来衡量:

  • 具体性:提示词是否要求特定的输出?

  • 领域知识:提示词是否涵盖一个或多个特定领域?

  • 复杂性:提示词是否有多层推理、组成部分或变量?

  • 解决问题:提示词是否直接让AI展示主动解决问题的能力?

  • 创造力:提示词是否涉及解决问题的一定程度的创造力?

  • 技术准确性:提示词是否要求响应具有技术准确性?

  • 实际应用:提示词是否与实际应用相关?

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

使用GPT-3.5-Turbo和GPT-4-Turbo对每个提示进行从 0 到 7 的注释,判断满足多少个条件。然后根据提示的平均得分给每个聚类评分。

高质量的问题通常与有挑战性的话题或任务相关,比如游戏开发或数学证明。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

新基准测试准吗?

Arena-Hard目前还有一个弱点:使用GPT-4做裁判更偏好自己的输出。官方也给出了相应提示。

可以看出,最新两个版本的GPT-4分数高过Claude 3 Opus一大截,但在人类投票分数中差距并没有那么明显。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

其实关于这一点,最近已经有研究论证,前沿模型都会偏好自己的输出

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

研究团队还发现,AI天生就可以判断出一段文字是不是自己写的,经过微调后自我识别的能力还能增强,并且自我识别能力与自我偏好线性相关

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

那么使用Claude 3来打分会使结果产生什么变化?LMSYS也做了相关实验。

首先,Claude系列的分数确实会提高。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

但令人惊讶的是,它更喜欢几种开放模型如Mixtral和零一万物Yi,甚至对GPT-3.5的评分都有明显提高。

总体而言,使用Claude 3打分的区分度和与人类结果的一致性都不如GPT-4。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

所以也有很多网友建议,使用多个大模型来综合打分

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

除此之外,团队还做了更多消融实验来验证新基准测试的有效性。

比如在提示词中加入“让答案尽可能详尽”,平均输出长度更高,分数确实会提高。

但把提示词换成“喜欢闲聊”,平均输出长度也有提高,但分数提升就不明显。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

此外在实验过程中还有很多有意思的发现。

比如GPT-4来打分非常严格,如果回答中有错误会狠狠扣分;而Claude 3即使识别出小错误也会宽大处理。

对于代码问题,Claude 3倾向于提供简单结构、不依赖外部代码库,能帮助人类学习编程的答案;而GPT-4-Turbo更倾向最实用的答案,不管其教育价值如何。

另外即使设置温度为0,GPT-4-Turbo也可能产生略有不同的判断。

从层次结构可视化的前64个聚类中也可以看出,大模型竞技场用户的提问质量和多样性确实是高。

lmsys org则开源了arena-hard。这是一个全新高质量大模型评估基准。,llama

这里面也许就有你的贡献。

Arena-Hard GitHub:
https://github.com/lm-sys/arena-hard
Arena-Hard HuggingFace:
https://huggingface.co/spaces/lmsys/arena-hard-browser
大模型竞技场:
https://arena.lmsys.org

参考链接:
[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04-19-arena-hard/

—  —

点这里👇关注我,记得标星哦~文章来源地址https://www.toymoban.com/news/detail-859899.html

到了这里,关于新测试基准发布,最强开源Llama 3尴尬了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 最强英文开源模型LLaMA架构探秘,从原理到源码

    导读: LLaMA 65B 是由Meta AI(原Facebook AI)发布并宣布开源的真正意义上的千亿级别大语言模型,发布之初(2023年2月24日)曾引起不小的轰动。LLaMA的横空出世,更像是模型大战中一个搅局者。虽然它的效果(performance)和GPT-4仍存在差距,但GPT-4毕竟是闭源的商业模型,LLaMA系列

    2024年02月04日
    浏览(41)
  • Meta Llama 3强势来袭:迄今最强开源大模型,性能媲美GPT-4

    前言 Meta的最新语言模型Llama 3已经发布,标志着在大型语言模型(LLM)领域的一次重大突破,其性能在行业内与GPT-4相媲美。此次更新不仅提升了模型的处理能力和精确性,还将开源模型的性能推向了一个新的高度。 Huggingface模型下载: https://huggingface.co/meta-llama AI 快站模型免

    2024年04月26日
    浏览(50)
  • Text-to-SQL小白入门(五)开源最强代码大模型Code Llama

    本文介绍了Code Llama大模型的基本概括,包含了论文的摘要、结果、结论以及核心方法,对于了解和实践Code Llama有一定帮助。 上一篇介绍了指令进化大模型WizardLM,留了一个坑,补上Code Llama论文学习,可以作为下游任务的基座模型,比如Text2SQL。目前DB-GPT-Hub分支refactor支持了

    2024年02月06日
    浏览(35)
  • Meta LlaMA 2 最强的AI大语言模型!完全免费开源了!!附最新下载方式

    1.Text generation web UI 【点击下载】 2.语言模型下载: 【官方链接】 ,普通GPU建议选择Llama-2-7b-chat模型,如果你的GPU比较强,建议选择Llama-2-13b-chat 或者 Llama-2-70b-chat 模型, 需要注意的是:下载是需要官方审核的,但是非常容易,我注册后大概只等了5分钟左右就收到审核通过信

    2024年02月13日
    浏览(58)
  • 全球最强开源AI大模型来了!Databricks称DBRX吊打Llama 2和GPT-3.5

    美国AI初创公司Databricks公布,在语言理解、编程和数学方面,其将开源的模型DBRX的测试得分均高于GPT-3.5、Mixtral、Meta的Llama 2-70B、马斯克旗下xAI的Grok-1。作为混合专家模型,DBRX的输出token速度高Llama 2一筹。 全球最强大的开源人工智能大语言模型将要易主 美国AI初创公司Data

    2024年04月12日
    浏览(49)
  • Llama 3下月正式发布,继续开源!

    4月10日,Techcrunch消息,Meta在本周伦敦举办的一场活动中确定,下个月将正式发布Llama 3并且继续开源。 Meta全球事务总裁Nick Clegg表示,我们希望在下个月,甚至更短的时间内,正式推出新一代基础模型Llama 3。它将有很多个版本,而且功能也各不相同。 根据Meta的AI副总裁Joel

    2024年04月14日
    浏览(45)
  • AI日报:最强大模型Llama 3发布;Midjourney推社交新功能Room;超强AI视频自动剪辑工具Captions;手机上可以玩大模型了

    新鲜AI产品 点击了解 :https://top.aibase.com/ 1、最强大模型Llama3 正式发布 已达GPT4 级别 Llama3是Meta公司最新发布的开源模型,拥有80亿和700亿参数规模,预计7月正式发布。该模型具备多模态能力,集成了新的计算机编码功能,将被应用于Meta智能眼镜等设备。与前代Llama2相比,在

    2024年04月27日
    浏览(64)
  • 免费商用 Meta 发布开源大语言模型 Llama 2

    Meta 和微软深度合作,正式推出下一代开源大语言模型  Llama 2 ,并宣布免费提供给研究和商业使用。   Llama 2 论文地址:Llama 2: Open Foundation and Fine-Tuned Chat Models 据介绍,相比于 Llama 1, Llama 2 的训练数据多了 40%,上下文长度是 Llama 1 的 2 倍 ,并采用了分组查询注意力机制。

    2024年02月15日
    浏览(43)
  • Meta发布升级大模型LLaMA 2:开源可商用

    论文地址 :https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/  Github 地址 :https://github.com/facebookresearch/llama LLaMA 2介绍       Meta之前发布自了半开源的大模型LLaMA,自从LLaMA发布以来,基于它的扩展模型就层出不穷,尤其是羊驼系列,我最近正在总结这

    2024年02月16日
    浏览(35)
  • 国内最大Llama开源社区发布首个预训练中文版Llama2

    \\\" 7月31日,Llama中文社区率先完成了国内 首个真正意义上的中文版Llama2-13B大模型 ,从模型底层实现了Llama2中文能力的大幅优化和提升。毋庸置疑,中文版Llama2一经发布将开启国内大模型新时代! | 全球最强,但中文短板 Llama2是当前全球范围内最强的开源大模型,但其中文能

    2024年02月13日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包