GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战

这篇具有很好参考价值的文章主要介绍了GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战,人工智能,算法,chatgpt

斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?” 研究表明,随着时间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。

研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。

他们使用了一个包含 500 个问题的数据集评估模型,测试模型必须确定给定的整数是否是素数。结果表明,GPT-4(2023 年 3 月版)在识别质数方面表现非常出色,正确回答了其中的 488 个问题,准确率达 97.6%。但 GPT-4 (2023 年 6 月版)在这些问题上的表现却非常糟糕,只答对了 12 个问题,准确率仅为 2.4%。

而与之相反,GPT-3.5(2023 年 6 月版)在这项任务中的表现则要比 GPT-3.5(2023 年 3 月版)好得多。

GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战,人工智能,算法,chatgpt

研究团队还使用了 Chain-of-Thought(思维链)来帮助模型进行推理,提出 “17077 是一个质数吗?一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 否,还没有生成解题的中间步骤。

GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战,人工智能,算法,chatgpt

与 3 月份相比,GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比,GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误,质量明显下降。

对于 GPT-4,可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%;GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加,其中 GPT-4 增加了 20%。

GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战,人工智能,算法,chatgpt

GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战,人工智能,算法,chatgpt

视觉推理方面,GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询,3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低:GPT-4 为 27.4%,GPT-3.5 为 12.2%。且在某些特定问题上,GPT-4 在 6 月份表现要比在 3 月份差。

GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战,人工智能,算法,chatgpt

研究人员认为,这些结果表明,相同 的 LLM 服务的行为会在相对较短的时间内发生重大变化,凸显了对 LLM 质量进行持续监控的必要性。

“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司,我们建议他们对其应用程序进行类似的监控分析。”文章来源地址https://www.toymoban.com/news/detail-657386.html

到了这里,关于GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 超详细|ChatGPT辅助论文降重教程100%降至13%

    对比分析,发现ChatGPT中文的同义词替换,多是替换名词,例如无人车替换成了自动驾驶车辆。其他专有名词基本没有替换,这种降低效果有限,需要配合其他指令。 降重系统一般是14个连续的字比对相似度,所以,改变语序可能会产生一定的效果,需要后面检测看情况。 扩

    2024年02月06日
    浏览(35)
  • 字节跳动年营收超5400亿:接近腾讯 估值降至2200亿美元

    雷递网 雷建平 4月8日 消息称,字节跳动2022年营收约800亿美元(约5496亿元人民币),较上年同期的617亿美元增长30%;同期字节跳动在2020年营收为343亿美元,2021年较2020年增长80%。 同期,腾讯2018年、2019年、2020年、2021年、2022年营收分别为3126.94亿元、3772.89亿元、4820.64亿元、

    2024年02月15日
    浏览(35)
  • 冠达管理:有色金属迎顺周期行情 板块估值降至历史低位

    近期,A股地产链相继迸发,家居用品、房地产服务等细分板块持续反弹。沉寂多时的地产链上游——有色金属板块相同遭到资金青睐。证券时报·数据宝统计,8月28日以来,有色金属指数累计上涨近6%,跑赢同期上证指数。 从个股来看,有色金属股票8月28日以来平均上涨5.4

    2024年02月10日
    浏览(36)
  • 氢氟酸市场分析:未来发展空间巨大

    氢氟酸行业准入门槛高,生产要求严格。近年来国务院、工信部、发改委、国家安全生产监督管理总局等部委和部门出台了一系列条例和准则来规范行业发展,相关氢氟酸的生产、贮藏、运输等环节均受到国家严格管控与限制。我国电子氢氟酸起步较晚,具有UPSS级及以上氢氟

    2024年01月21日
    浏览(44)
  • AlexNet的出现推动深度学习的巨大发展

           尽管 AlexNet(2012) 的代码只比 LeNet(1998 )多出几行,但学术界花了很多年才接受深度学习这一概念,并应用其出色的实验结果。        AlexNet(由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同设计)在架构上相对于早先的LeNet-5等浅层神经网络并没有显著增加代码行数

    2024年02月19日
    浏览(31)
  • Apache Doris 巨大飞跃:存算分离新架构

    作者:马如悦 Apache Doris 创始人 历史上,数据分析需求的不断提升(更大的数据规模、更快的处理速度、更低的使用成本)和计算基础设施的不断进化(从专用的高端硬件、到低成本的商用硬件、到云计算服务),这两大因素推动数据仓库的架构大体经历了三个时代:软硬一

    2024年02月14日
    浏览(34)
  • 物联网潜在的巨大价值在于大数据分析

    物联网潜在的巨大价值在于大数据分析 从数据里去挖掘市场或者用户的精准需求。 往小的说,后台可以统计用户家里各各插座一年甚至更久的用电情况,这些数据也可以通过app或者小程序展现给用户。 用户可以很直观看到自己一年的用电情况,哪个家电最耗电等等。 还有一

    2024年02月14日
    浏览(32)
  • Stable Diffusion 3 来了 —— 充满了巨大的改进

    图片由 Stability AI 提供 AI 历史上最重要的一周还没有结束。就在 OpenAI 宣布了可以生成令人惊叹的视频的 Sora 和 Google 公布了支持高达 150 万个上下文窗口的 Gemini 1.5 之后,Stability AI 今天展示了 Stable Diffusion 3 的早期预览。 Stable Diffusion 3 是来自 Stability AI 的最新、能力最强的文

    2024年04月12日
    浏览(27)
  • 游戏和内容创作者福音,Intel蝰蛇峡谷Nuc12SNKi7迷你主机:双十一降价来袭,从9999降至5999

    引言 随着双十一购物节的到来,各大品牌纷纷推出了一系列优惠活动,其中备受关注的Intel蝰蛇峡谷Nuc12SNKi7迷你主机也迎来了降价。这款迷你主机以其独特的外观、卓越的性能以及灵活的应用场景,在市场上备受瞩目。此次双十一活动期间,这款迷你主机的价格从6999元直降

    2024年02月08日
    浏览(36)
  • Inscribe:应用非定向资产交易协议 布局巨大铭文赛道

    随着比特币出现了一定的回调,铭文市场也出现了50%以上的跌幅,但是从市场的长期发展来看,铭文市场空间巨大,仍然是未来千亿级的蓝海市场,那么这样的回调阶段正式各类优质项目深度BUILD 扩展自己产品生态提升竞争力的关键时期,Inscribe作为新一代的DRC-20生态项目,

    2024年02月03日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包