号称「碾压」LLaMA的Falcon实测得分仅49.08

这篇具有很好参考价值的文章主要介绍了号称「碾压」LLaMA的Falcon实测得分仅49.08。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作为开源模型界的扛把子,LLaMA 一直备受瞩目。

这是一组由 Meta 开源的大型语言模型,共有 7B、13B、33B、65B 四种版本。其中,LLaMA-13B 在大多数数据集上超过了 GPT-3(175B),LLaMA-65B 达到了和 Chinchilla-70B、PaLM-540B 相当的水平。

2 月份发布以来,开源社区一直在 LLaMA 的基础上进行二创,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型,生物学羊驼属的英文单词都快被用光了。

不过,也有人对 LLaMA 发起了挑战。5 月底,阿联酋阿布扎比的技术创新研究所(TII)开源了一个 400 亿参数的因果解码器模型「Falcon-40B」,该模型在 RefinedWeb 的 1 万亿个 token 上进行了训练,并使用精选数据集增强。刚一发布,「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位,「碾压」了参数规模 1.5 倍的「LLaMA-65B」,也优于 MPT、RedPajama 和 StableLM 等开源大模型。

后来,Falcon-40B Instruct 版本占据了排行榜首位,Falcon-40B 则退到了第三,而 LLaMA-65B 已经掉到了第六位。

不过,仔细看过数据之后,围观者产生了疑问:为什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 这项分数是 48.8,明显低于官方数据 63.4?

号称「碾压」LLaMA的Falcon实测得分仅49.08

HuggingFace 的 Open LLM 排行榜。地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

号称「碾压」LLaMA的Falcon实测得分仅49.08

LLaMA 论文中的 MMLU 数据。MMLU 是 Massive Multitask Language Understanding 的缩写,是一个基准数据集,旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获取的知识。它由一系列学术科目中类似考试的问题组成,用于测试模型对于世界理解的能力。

还有人表示,在测 Falcon-40B 时,他们也复现不了排行榜上的分数。

号称「碾压」LLaMA的Falcon实测得分仅49.08

面对这样的争议,Karpathy 等大牛选择了谨慎观望。

爱丁堡大学博士生符尧等则选择自己测一遍。

简而言之,他们在 Chain-of-thought Hub 上重新写了开源的 LLaMA eval 代码,然后在同样的设定下,用官方 prompt,fp16,HF 默认代码,公平比较了 Falcon 和 LLaMA 在 MMLU 上的表现。

「没有花哨的 prompt 工程和解码,一切都是在默认设置下进行的。」符尧在推文中写道。

6 月 8 日,他们公布了第一批结果:LLaMA 65B 的 MMLU 得分为 61.4,比较接近官方数字(63.4),明显高于其 Open LLM Leaderboard 分数 48.8,且远高于 Falcon-40B 的 Leaderboard 分数 52.7。

号称「碾压」LLaMA的Falcon实测得分仅49.08

初步来看,「你大爷还是你大爷」。不过,这还不是 LLaMA 65B 的真实实力。在 6 月 10 日凌晨公布的第二波结果中,符尧解释说,他们在第一波测评中发现了一个「long prompt」引起的 bug,这个 bug 导致 LLaMA 在高中欧洲历史和高中美国历史上得到 0 分。在修复了这个 bug 后,LLaMA 得分变成了 63.64,与论文中报道的数字基本相同。

号称「碾压」LLaMA的Falcon实测得分仅49.08

公平起见,使用相同的脚本,他们也测出了 Falcon-40B 的得分:49.08,低于 Leaderboard 分数 52.7,只比 LLaMA 13B 好一点。

号称「碾压」LLaMA的Falcon实测得分仅49.08

号称「碾压」LLaMA的Falcon实测得分仅49.08

由此,这次所谓的「碾压」事件彻底反转。

符尧团队的这一尝试也吸引了 HuggingFace 研究科学家 Nathan Lambert 的注意,后者决定重写 Open LLM Leaderboard 的代码。

号称「碾压」LLaMA的Falcon实测得分仅49.08

不过,符尧专门指出,他们不打算在 LLaMA 和 Falcon 之间挑起战争:「两者都是伟大的开源模型,并为该领域做出了重大贡献!Falcon 还具有更简单的许可证优势,这也赋予了它强大的潜力!」

为了方便大家检查代码和开源结果,符尧公布了相关地址:https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU   文章来源地址https://www.toymoban.com/news/detail-485968.html

到了这里,关于号称「碾压」LLaMA的Falcon实测得分仅49.08的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 被Chatgpt碾压的打工人与大学生,准备反击!

    最近一段时间,chatgpt可谓如火如荼,它的出现引发各行各业的震动,有人利用它实现了一夜暴富,有企业将它纳进人才招聘的技能要求中,国内各大厂商也纷纷下场推出自家的AI大模型,从第一代到GPT-4,所有发生的一切都在告诉我们: AI时代已来,且GPT正在日渐成为新一代

    2024年02月06日
    浏览(35)
  • 昨天OpenAI GPT-4,今天微软Copilot,轮番上阵碾压谁?

    来源:《飞哥说AI》公众号 作者|高佳 创意|李志飞 微软Copilot横扫Office全系产品,正式改名为Microsoft 365 ,其野心昭然。 微软全家桶自带AI智能驾驶模式,意味着 Windows 全AI系列新品将火速渗透各行各业。扑面而来的科技革命,正以小时为单位进展。 「为了构建Copilot,我们

    2024年02月12日
    浏览(43)
  • 号称取代 Elasticsearch,太猛了!

    Manticore Search 是一个使用 C++ 开发的高性能搜索引擎,创建于 2017 年,其前身是 Sphinx Search 。Manticore Search 充分利用了 Sphinx,显着改进了它的功能,修复了数百个错误,几乎完全重写了代码并保持开源。这一切使 Manticore Search 成为一个现代,快速,轻量级和功能齐全的数据库,

    2024年02月14日
    浏览(42)
  • 银行面试十大得分要点(一)

    银行面试的常见形式包括结构化、半结构化和无领导讨论,从如信银行考试中心了解到,结构化和半结构化面试一级维度有四个:态度气场、思维思路、语言声音、心理素质,二级维度有十六个;无领导面试一级维度有八个:组织管理、团队沟通、思维思路、心态情绪、语言

    2024年02月06日
    浏览(49)
  • 华为云排名仅为第二?市场占有率营收被阿里双碾压

    8月23日,任正非发表了一篇内部讲话《整个公司的经营方针要从追求规模转向追求利润和现金流》,提到“把活下来作为最主要纲领,边缘业务全线收缩和关闭,把寒气传递给每个人”。 “寒气论”一出,在目前经济环境下举步维艰的企业主或多或少都感受到了这一股“寒意

    2024年02月02日
    浏览(32)
  • 10倍提升效率,号称取代Elasticsearch?

    官网 Manticore Search – easy-to-use open-source fast database for search 介绍 对于小型数据集,比Elasticsearch快15倍 对于中等大小的数据,比Elasticsearch快5倍 对于大型数据,比Elasticsearch快4倍 在单个服务器上进行数据导入时,最大吞吐量比Elasticsearch快最多2倍 主要特点 强大而快速的全文搜

    2024年02月13日
    浏览(33)
  • 大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼

    2023开年以来,大模型进入疯狂内卷状态,大模型的发布都要以“天”为单位进行迭代。 之前,尝试了 从0到1复现斯坦福羊驼(Stanford Alpaca 7B) ,下面我们来尝试从0到1复现Vicuna训练及推理。 继斯坦福羊驼(Stanford Alpaca)之后,UC伯克利、CMU、斯坦福等机构的学者,联手发布

    2024年02月08日
    浏览(44)
  • 倾向得分匹配(PSM)的原理以及应用

    该文章主要介绍倾向得分匹配(PSM, Propensity Score Matching)方法的原理以及实现。这是一种理论稍微复杂、但实现较为容易的分析方法,适合非算法同学的使用。可用于(基于观察数据的)AB实验、增量模型搭建等领域。 文章主要分为四部分:前置知识(因果推断)介绍、倾向

    2024年02月06日
    浏览(33)
  • R2决定系数(R2 得分)详细计算

    定义       R2决定系数是对线性模型评估的一种评价指标,其值最大为1,最小为0,当值越接近于1,则说明模型越好;值越接近于0,则模型越差。 计算过程 使用 y i {text{y}}_i y i ​ 表示真实的观测值,使用 y _ overset{_}{mathop y} y _ ​ 表示真实观测值的平均值,使用 y i ^

    2024年02月04日
    浏览(41)
  • 久菜盒子:stata-广义倾向得分匹配

    广义倾向得分匹配(Generalized Propensity Score Matching,GPSM)是一种常用的处理非随机样本选择偏差的方法。以下是GPSM在Stata中的一个示例代码: 导入数据集,假设要处理的变量是y和treat: use\\\"data.dta\\\", clear 生成倾向得分,假设使用logistic回归模型生成倾向得分: logistic treat x1 x2

    2024年02月06日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包