集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder

这篇具有很好参考价值的文章主要介绍了集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Stability AI又有新动作!程序员又有危机了? 3月26日,Stability AI推出了先进的代码语言模型Stable Code Instruct 3B,该模型是在Stable Code 3B的基础上进行指令调优的Code LM。

deepseek-coder,人工智能,llama

Stability AI 表示,Stable Code Instruct 3B 在代码完成准确性、对自然语言指令的理解以及处理多种编程语言方面都优于同类模型,在 3B 规模下提供最先进的性能,并且性能媲美Codellama 7B Instruct以及DeepSeek-Coder Instruct 1.3B

GPT-3.5研究测试:

https://hujiaoai.cn

GPT-4研究测试:

https://higpt4.cn

deepseek-coder,人工智能,llama

先让我们来感受一下Stable Code Instruct 3B的效果吧~

deepseek-coder,人工智能,llama

在线试用
https://huggingface.co/spaces/stabilityai/stable-code-instruct-3b
Hugging Face地址
https://huggingface.co/stabilityai/stable-code-instruct-3b
技术报告
https://static1.squarespace.com/static/6213c340453c3f502425776e/t/6601c5713150412edcd56f8e/1711392114564/Stable_Code_TechReport_release.pdf

从效果图以及Stability AI的介绍可以看出Stable Code Instruct 3B有以下几个功能特点:

  1. 自然语言理解 :Stable Code Instruct 3B可以理解以自然语言为主的编程指令,并有效执行生成高质量代码。

  2. 支持多种编程语言 :Stable Code Instruct 3B不仅支持Python、Javascript、Java、C、C++和Go等语言,还支持其他广泛采用的语言如SQL、PHP和Rust

  3. 多样化编程任务:Stable Code Instruct 3B不仅精通代码生成,还擅长FIM(填充中间)任务、数据库查询、代码翻译、解释和创作。

  4. 更强的代码理解能力:Stable Code Instruct 3B在训练集最初未包括的语言(如Lua)中也能够表现出较强的测试性能。这种熟练程度可能源于其对底层编码原理的理解。

让我们再来看看Stable Code Instruct 3B的实现方法吧~

方法

训练数据

Stable Code Instruct收集了一系列公开访问的大规模数据源。这些来源包括广泛的代码库、广泛的技术文档集合(例如:readthedocs)、以数学为重点的文本和全面的网络数据集,以在预训练阶段学习丰富的内部表达,超越单纯的代码理解。模型旨在显著提升在数学理解、逻辑推理和处理软件开发相关的复杂技术文本方面的能力。

deepseek-coder,人工智能,llama

模型架构

Stable Code是建立在Stable LM 3B基础上构建的,并且该模型是一个causal decoder-only transformer,架构上与Llama类似,但和Llama有以下几点区别:

  1. 位置嵌入:采用了旋转位置嵌入(Rotary Position Embeddings),应用于头嵌入维度的前25%,以提高吞吐量

  2. 归一化方法:使用了具有学习偏置项的LayerNorm进行归一化处理,而不是采用RMSNorm

  3. 偏置调整:除了键、查询和值投影的偏差,Stable Code 从前馈网络和多头自注意力层中删除了所有偏差项

    deepseek-coder,人工智能,llama

模型训练

  1. 计算基础设施和设置

    deepseek-coder,人工智能,llama

  • Stable Code在32个Amazon P4d实例上进行训练,包含256个NVIDIA A100 (40GB HBM2) GPUs。采用ZeRO阶段1的分布式优化方法,消除了对模型分片的需求。

  • 采用的全局批量大小为4,194,304个令牌。在表中的设置下,设备的性能达到大约222 TFLOPs/s,或71.15%的模型浮点操作利用率(MFU)。

  1. 多阶段训练

  • 采用了在其他强大的代码语言模型(如CodeGen、Stable Code Alpha、CodeLLaMA和DeepSeekCoder)中流行的分阶段训练方法。

  • 训练分为几个阶段,包括代码数据预训练、中间填充(FIM)训练、长上下文持续训练和指令微调。

    deepseek-coder,人工智能,llama

  1. 模型初始化

  • 代码模型大多遵循两种主要训练方法之一:使用代码和相关文本从头开始训练的模型(例如,CodeGen、Stable code Alpha、Deepsseek Coder),以及利用基础语言模型的持续预训练的模型。

  • 预训练的语言模型(如Stable LM 3B)初始化的模型往往表现优于从头开始训练的模型。这证实了自然语言与代码之间的正面交叉转移可以增强模型的能力。

  1. 中间填充(FIM)训练

  • 为了解决代码中的左到右因果顺序不总是成立的问题(例如,函数调用和声明的顺序可以是任意的)

  • 将文档随机分为三个部分:前缀、中间部分和后缀,然后将中间部分移动到文档的末尾。在重新排列之后,遵循相同的自回归训练过程。

  • 在预训练的两个阶段中都应用了FIM。为了在长上下文训练阶段考虑FIM,我们确保只允许在单个文件的范围内应用FIM,以避免引入不现实的情景到训练目标中。

微调和对齐

在预训练之后,Stable Code Instruct通过由监督微调(SFT)和直接偏好优化(DPO)组成的微调阶段进一步提高了模型的对话能力

  1. 监督微调

  • 使用了Hugging Face上公开可用的几个数据集进行SFT微调:OpenHermes、Code Feedback和CodeAlpaca。这些数据集合计提供了大约500,000个训练样本。

  • SFT模型训练了三个周期,使用余弦学习率调度器。在达到5e-5峰值学习率之前,实施了占训练持续时间10%的热身阶段。

  • 设置全局批量大小为512个序列,并将输入打包成最多4096个令牌的序列。

  1. 直接偏好优化

  • 继SFT之后,我们应用了DPO,这是一种关键技术,对近期高性能模型(如Zephyr-7B、Neural-Chat-7B和Tulu-2-DPO-70B)的成功起到了关键作用。

  • 我们整理了大约7,000个样本的数据集,使用了来自UltraFeedback和Distilabel Capybara DPO-7k Binarized的数据,并仅保留了与代码相关的样本。

  • 为提高模型安全性,我们添加了来自Bai等人的Helpful and Harmless RLFH数据集,以及HH-Anthropic数据集的无害子集。编译了大约15,000个高关联性的安全相关数据点。

结论

本文介绍了Stable Code Instruct,一种新的代码语言模型,该模型不仅支持多样的编程语言,更在3B规模的模型上提供最先进的性能。随着技术的进步,将会有更多高性能的代码模型被推出,未来写代码的工作是否会变得更加轻松呢?是否程序员就业会面临危机呢?Stable Code Instruct的出现为我们勾勒了一个充满无限可能的未来。

deepseek-coder,人工智能,llama

deepseek-coder,人工智能,llama文章来源地址https://www.toymoban.com/news/detail-855606.html

到了这里,关于集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大模型集体失控!南洋理工新型攻击,主流AI无一幸免

    西风 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 业界最领先的大模型们,竟然集体“越狱”了! 不止是GPT-4,就连平时不咋出错的Bard、Bing Chat也全线失控,有的要黑掉网站,有的甚至扬言要设计恶意软件入侵银行系统: 这并非危言耸听,而是南洋理工大学等四所高校提出的一

    2024年02月03日
    浏览(41)
  • “超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用!”

    目标 :基于 pytorch 、 transformers 做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案; 数据 : 从开源社区,整理了海量的训练数据,帮助用户可以快速上手; 同时也开放训练数据模版,可以快

    2024年02月11日
    浏览(32)
  • Stability AI推出Stable Diffusion XL 1.0,文本到图像模型

    Stability AI宣布推出Stable Diffusion XL 1.0,这是一个文本到图像的模型,该公司将其描述为迄今为止“最先进的”版本。 Stability AI表示,SDXL 1.0能生成更加鲜明准确的色彩,在对比度、光线和阴影方面做了增强,可生成100万像素的图像(1024×1024)。而且还支持在网页上直接对生成

    2024年02月15日
    浏览(43)
  • OpenAI全新发布文生视频模型:Sora!

    OpenAI官网原文链接:https://openai.com/research/video-generation-models-as-world-simulators#fn-20      我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空Patche

    2024年02月19日
    浏览(40)
  • 百度发布全新 AI 互动式搜索:百度简单搜索

    本心、输入输出、结果 编辑:简简单单 Online zuozuo 地址:https://blog.csdn.net/qq_15071263 10月17日,百度世界大会2023即将开幕,此次活动将举办一场主论坛及七场分论坛 百度简单搜索 是百度通过大模型重构的第一个产品,也是首个A1互动式搜索一一简单搜索 主要能力 🔍 百度新搜

    2024年02月07日
    浏览(36)
  • 对标ChatGPT生态: 智谱全新大模型 GLM-4 发布

    🍁 展望:关注我, AI 和 编程 学习之旅上,我与您一同成长! 今天上午,在北京举办 2024年度技术开放日 Zhipu DevDay,国内当前估值最高的AI大模型独角兽智谱AI发布了 新一代基座大模型GLM-4 。 性能比上一代提升接近60%,整体评测结果进阶GPT-4,支持更长的上下文、更强的多模

    2024年01月17日
    浏览(56)
  • 《实战AI低代码》:普元智能化低代码开发平台发布,结合专有模型大幅提升软件生产力

    在7月6日举办的“低代码+AI”产品战略发布会上,普元智能化低代码开发平台正式发布。该平台融合了普元自主研发的专有模型,同时也接入了多款AI大模型的功能。它提供了一系列低代码产品,包括中间件、业务分析、应用开发、数据中台和业务流程自动化等,旨在简化企业

    2024年02月16日
    浏览(76)
  • JetBrains 2023.2全新发布!IDEA、PyCharm等支持AI辅助

    日前JetBrains官方正式宣布旗下IDE系列今年第二个重要版本——v2023.2全新发布, 涵盖了 IntelliJ IDEA、PyCharm、WebStorm等一众知名产品,接下来我们一起详细了解一下他们的更新重点吧~ IntelliJ IDEA v2023.2——引入AI辅助开发 IntelliJ IDEA 2023.2版本引入了AI Assistant,通过一组由 AI 提供

    2024年02月11日
    浏览(76)
  • DeepSeek 发布全新开源大模型,数学推理能力超越 LLaMA-2

    自从 LLaMA 被提出以来,开源大型语言模型(LLM)的快速发展就引起了广泛研究关注,随后的一些研究就主要集中于训练固定大小和高质量的模型,但这往往忽略了对 LLM 缩放规律的深入探索。 开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域,对于推进自然语言处理

    2024年02月02日
    浏览(59)
  • RDIF.vNext全新低代码快速开发框架平台发布

    RDIF.vNext ,全新低代码快速开发集成框架平台,给用户和开发者最佳的.Net框架平台方案,为企业快速构建跨平台、企业级的应用提供强大支持。 RDIF.vNext的前身是RDIFramework框架,RDIF(Rapid develop Integrate Framework, vNext代表全新下一代),全新设计,全新开发,代码量减少50%,运行的

    2023年04月11日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包