代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

这篇具有很好参考价值的文章主要介绍了代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

Github链接:

https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder

论文链接:

https://arxiv.org/abs/2306.08568

作为大语言模型(LLM)最重要也最具挑战性的能力之一,代码生成与补全同时吸引了 AIGC 学术界与工业界广泛研究和关注。根据 OpenAI 相关技术报告,GPT4 在 HumanEval 经典代码生成与补全任务中取得了惊人的成绩,一次通过率高达 85% 以上!

与此同时,在开源领域,由 Huggingface BigCode Project 主导发布的 StarCoder 更进一步提升了开源模型在这一领域的表现,达到了新的先进水平。

然而,我们依然注意到,目前最佳开源模型 InstructCodeT5+ 在 HumanEval 任务上的通过率也仅约为 35%,仍远低于包括 ChatGPT、Bard、Claude 等在内的一众闭源模型性能。

显然,与开放域通用对话能力相比,闭源与开源 LLM 在代码生成方面的差距尤为明显,又因为代码生成对于准确度与逻辑推理能力的严苛标准,因此追赶和提升难度也更高。

最近,WizardLM 团队开源了一款全新的代码大模型——WizardCoder,它打破了闭源模型的垄断地位,显著超越 Anthropic Claude 与谷歌 Bard,成为新时代的开源领军者。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

距离 WizardLM 宣布团队开源 WizardCoder 仅 5 天,该模型即获得了大模型社区广泛的关注与认可。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

甚至有知名软件工程师在 Python 与 JavaScript 语言上试用 WizardCoder 一天后,认为不必再继续使用 GPT-4。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

也有网友调侃,本周 WizardCoder 的出现使他感受到了与阅读 CVPR 推文和整理自家花园一样的快乐。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

而在 YouTube, 顶流 AI 博主 Aitrepreneur 也制作了专业的评测视频,高度赞誉 WizardCoder。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

WizardCoder性能详情

具体地,在代码补全任务中,WizardCoder 经过了四个专业评测(HumanEval, HumanEval+, MBPP, 与 DS-1000)。

令人惊叹的是,它在 HumanEval 和 HumanEval+ 两个任务上的表现仅次于千亿级别的巨无霸模型 GPT3.5/4,位列第三名,同时显著领先 Claude 和 Bard,尽管 WizardCoder 的参数量远远小于以上四者。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

除了与闭源模型的 PK,WizardCoder 还与当前的开源代码模型进行了对比。毫无疑问,在 HumanEval 和 MBPP 这两个代码补全任务中,WizardCoder 依然以惊人的优势超越了现有的开源模型 SOTA。

其中在 HumanEval 任务中,WizardCoder 的 pass@1 指标提升了 22.3 个百分点,在 MBPP 任务中,pass@1 指标提升了 8.2 个百分点。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

除了之前以上评测,WizardCoder 还接受了数据科学领域相关的代码补全和代码插入任务的挑战 DS-1000。这些任务要求模型熟悉并巧妙运用各种数据科学库,如 numpy 和 pytorch,来完成代码。

实验结果表明,在几乎所有的相关任务中,WizardCoder 依然远超当前开源模型的最高水平(SOTA),持续展现出卓越的性能。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

与此同时,在 Huggingface 社区中,网友们利用编程面试问题数据集 CanAiCode对 WizardCoder 进行了评测。结果显示 WizardCoder 取得了惊人的 98.5% 准确率,位居第二位,它仅比 ChatGPT 多做错了一道题,得分遥遥领先第三名(且同为 Wizard 家族的 WizardLM-30B)。这进一步证明了 WizardCoder 在编程领域的强大实力。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

WizardCoder是怎样炼成的

我们仔细研究了相关论文,希望解开这款强大代码生成工具的秘密。与其他知名的开源代码模型(例如 StarCoder 和 CodeT5+)不同,WizardCoder 并没有从零开始进行预训练,而是在已有模型的基础上进行了巧妙的构建。它选择了以 StarCoder 为基础模型,并引入了 Evol-Instruct 的指令微调技术,将其打造成了目前最强大的开源代码生成模型。

2.1 Evol-Instruct算法

这个算法可以追溯到该团队之前的另外一个开源大模型 WizardLM。

手动创建、收集和筛选高质量指令数据需要巨大的工作量,但 Evol-Instruct 提出了一种高效的方法,利用 LLM(语言模型)而不是人类来创建各种复杂度级别的大量指令数据。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

通过利用该算法生成的指令数据集,WizardLM 仅以 130 参数量成为了 AlpacaEval 开源大模型排行榜中的冠军。

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

2.2 Code Evol-Instruct

与 WizardLM 不同,WizardCoder 在 Evol-Instruct 的基础上进行了代码领域的适配。其思路是不再采用分叉进化的方式,而是从一个简单的初始指令开始,逐步线性演化为更复杂的指令。

对应的进化 prompt 为:

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

根据代码领域的相关特性,包括代码调试和时空复杂度,研究者们在进化操作中引入了 5 项限制。这些限制对应的 prompt 如下:

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

WizardLM团队的开源工作

Wizard 团队在GitHub 及 Huggingface 平台上向公众开源了一系列基于 Evol-Instruct 算法的指令微调大模型,其中包括 WizardLM-7/13/30B-V1.0 和 WizardCoder-15B-V1.0,Wizard 团队以其持续研究和分享优质的 LLM 算法赢得了业界的广泛赞誉,让我们满怀期待地希望他们未来贡献更多的开源成果。

模型链接:

https://huggingface.co/WizardLM

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

参考文献

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

[1] GPT-4: https://openai.com/gpt-4

[2] Claude: https://www.anthropic.com/index/introducing-claude

[3] WizardLM: https://github.com/nlpxucan/WizardLM

[4] WizardCoder: https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder

[5] HumanEval: https://github.com/openai/human-eval/tree/master

[6] MBPP: https://github.com/google-research/google-research/tree/master/mbpp

[7] DS-1000: https://ds1000-code-gen.github.io/

[8] CanAiCode: https://huggingface.co/spaces/mike-ravkine/can-ai-code-results

更多阅读

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT文章来源地址https://www.toymoban.com/news/detail-515054.html

到了这里,关于代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 飞机大战python代码

    下面附有源代码,一个简单运用python的应用。 图片可自己自由调配 部分模块需要去从python的软件包去下载,可以去从清华和北大还有阿里的云仓库中获取镜像链接,下载速度会快点。 源代码如下并有详细注释:

    2024年02月03日
    浏览(15)
  • python飞机大战实战演练代码

    # 以下是飞机大战的精灵组函数

    2024年02月08日
    浏览(22)
  • python人机大战小游戏代码

    2024年02月14日
    浏览(18)
  • Python代码下的飞机大战

    飞机大战项目 本项目的优点就是,不需要你创建很多复杂的文件夹,单个操作台就可以完成飞机大战游戏的基础版本。如果你感兴趣,就快去试一试吧!素材链接也在下面喽,快去开启你的游戏之旅吧! 素材链接:链接:https://pan.baidu.com/s/1Mb5w-_I-oUi-W0n0jHFYXw 百度网盘提取码

    2024年04月10日
    浏览(19)
  • 用 Python 实现植物大战僵尸代码!

    plant_frozen_time_list[0] 是太阳花的冷却时间。 植物卡片类 每个植物卡片是一个单独的Card类,用来显示这个植物。 checkMouseClick函数:判断鼠标是否点击到这个卡片; canClick:判断这个卡片是否能种植(有没有足够的点数,是否还在冷却时间内); update 函数:通过设置图片的透

    2024年04月23日
    浏览(18)
  • 微信小程序飞机大战游戏步骤及代码

    步骤: 1. 准备游戏资源:准备游戏所需的图片、音效等资源。 2. 创建游戏场景:使用微信小程序的API创建游戏场景,可以使用wx.createCanvasContext()方法创建游戏场景。 3. 加载游戏资源:使用wx.loadImage()方法加载游戏所需的图片资源,使用wx.playBackgroundAudio()方法加载游戏所需的

    2024年02月12日
    浏览(21)
  • 300行代码,教你用Python写个飞机大战

     闲赋在家,甚是无聊,便萌发了研究经典小游戏:飞机大战的念头,想必大家可能玩过微信的这款小游戏,给我的感觉是这款游戏怎么可以做得这么好呢,操作简单,容易上手,简直是“老少皆宜”啊~ 既然这款游戏这么棒,能否自己动手用 Python 来实现呢?事实证明是可以

    2024年02月04日
    浏览(22)
  • 谷歌AI机器人Bard新增生成、调试和代码解释功能

    据悉,这次谷歌开发的AI聊天机器人Bard目前竟然可以帮助软件开发人员编程,包括生成代码、包括生成代码、调试和代码解释。 另据谷歌研究产品负责人Paige Bailey介绍说,编码一直是谷歌从用户那里收到的最重要的请求之一,也正是基于这种需求逐渐对Ai机器人进行升级。目前

    2024年02月13日
    浏览(17)
  • python+pygame之飞机大战-第一版源代码分析

    目录 一、源代码 二、源代码梳理分析: (一)代码的主要结构 1、引用需要的模块 2、定义的类 3、定义main()函数:主程序 (二)代码分析收获 最好的学习方法是学习别人的代码,加上自己以前比较喜欢雷电这款游戏,所以就从飞机大战入手了,从网上下的源代码和图片素材

    2023年04月10日
    浏览(16)
  • C++飞机大战(注释较多,新手可读懂,附全代码)

      学了c++,总想用c++写点东西,便想到了飞机大战,话不多说,直接开始写!!         这个不用多说~直接上代码         这个我也不用多说了~直接手绘!         要移动,至少得写个清屏函数吧……         那还得输出地图         首先,你得先让子弹出现  之

    2024年02月05日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包