Code Llama: Open Foundation Models for Code

这篇具有很好参考价值的文章主要介绍了Code Llama: Open Foundation Models for Code。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《Code Llama: Open Foundation Models for Code》的翻译。

摘要

我们发布了Code Llama,这是一个基于Llama 2的大型代码语言模型系列,提供了开放模型中最先进的性能、填充功能、对大型输入上下文的支持,以及编程任务的零样本指令跟随能力。我们提供多种风格以涵盖广泛的应用程序:基础模型(Code-Lama)、Python专业化(Code-LAMA-Python),以及分别具有7B、13B和34B参数的指令遵循模型(CodeLlama-Directive)。所有模型都是在16k个token的序列上训练的,并在高达10万个token的输入上显示出改进。7B和13B代码Llama和代码Llama-指令变体支持基于周围内容的填充。Code Llama在几个代码基准测试中达到了开放模型中最先进的性能,在HumanEval和MBPP上的得分分别高达53%和55%。值得注意的是,Code Llama-Python 7B在HumanEval和MBPP上的性能优于Llama 2 70B,我们所有的模型在MultiPL-E上的性能都优于其他所有公开可用的模型。我们在允许研究和商业使用的许可证下发布Code Llama。

1 引言

2 Code Llama:专业化Llama2用于代码

3 结果

4 负责任的人工智能与安全

5 相关工作

6 讨论

我们发布了一系列代码专用的Llama 2模型,称为code-Lama,其中有三个主要变体,我们发布了三种大小(7B、13B和34B参数):code-Lama、code-Lama-Python和code-Lama-Directive。考虑到现实世界的应用,我们训练了7B和13B模型来支持填充,并训练了所有模型来利用大型上下文。我们测试了它们在高达10万个token的推理中的稳定性(图4a)。大型上下文微调和填充是以标准基准从左到右的代码生成基准为代价的(表10),这些基准都是基于短序列(即函数级别)。尽管如此,我们的30B模型在标准python完成基准测试的公共模型中是最先进的,与参数数量相似的模型相比,我们的其他模型具有竞争力。在多语言基准测试中,即使是我们最小的模型(Code Llama 7B)也优于其他所有公共模型。
Code Llama-instruction模型经过训练,可为Code Llama提供零样本指令能力。在这次进一步的微调中,我们在一定程度上提炼了Llama 2-Chat,我们不仅专注于更直接的帮助(图5c),还试图提供一个更安全的模型来使用和部署(第4节)。如图14所示,遵循指令和过于安全可能会在评估中花费一些分数(例如,表2中34B模型的HumanEval)。LLM需要进一步的工作来理解其指令中的上下文和细微差别。文章来源地址https://www.toymoban.com/news/detail-730155.html

到了这里,关于Code Llama: Open Foundation Models for Code的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LLaMA:Open and Efficient Foundation Language Models

    在大规模数据下训练的大模型,已经展示了很好的表现,当模型足够大的时,模型会出现一个 涌现 的能力,如下图: 最近的一项研究表明,在有限的算力下,表现最好的模型不是参数最大的,而是小一点模型搭配了更多数据。 这项工作的重点是训练一系列语言模型,通过对

    2024年02月09日
    浏览(40)
  • LLaMA Open and Efficient Foundation Language Models

    来源Meta AI github地址: facebookresearch/ llama 论文:LLaMA: Open and Efficient Foundation Language Models 模型:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research 包括: LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B 一、摘要 我们介绍了LLaMA,这是一组从7B到65B参数范围内的基础语言模型。我们

    2024年02月11日
    浏览(72)
  • LLaMA: Open and Efficient Foundation Language Models笔记

    一个基础语言模型的集合,参数范围从7B到65B 在数万亿的token上训练的模型,不依赖于专有的和不可访问的数据集 大多数基准测试中优于GPT-3 (175B) LLaMA65B与最好的模型Chinchilla-70B和PaLM-540B具有竞争力 全部模型开源!! 最近的工作表明,对于给定的计算预算,最佳性能不是由最

    2024年02月09日
    浏览(50)
  • AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月09日
    浏览(62)
  • LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月12日
    浏览(47)
  • 文献阅读:LLaMA: Open and Efficient Foundation Language Models

    文献阅读:LLaMA: Open and Efficient Foundation Language Models 1. 文章简介 2. 模型训练 1. 训练数据 2. 模型结构 3. 模型训练 1. Optimizer 2. 效率优化 3. 效果评估 1. 经典任务下效果 1. Commen Sense Reasoning 2. Closed-book Question Answering 3. Reading Comprehension 4. Mathematical reasoning 5. Code generation 6. Massive M

    2024年02月09日
    浏览(112)
  • 论文笔记--LLaMA: Open and Efficient Foundation Language Models

    标题:LLaMA: Open and Efficient Foundation Language Models 作者:Touvron, Hugo, et al. 日期:2023 期刊:arxiv preprint   文章利用公开数据集训练并发布了一系列大语言模型LLaMA,在多个NLP下游任务中性能超过了GPT-3和PALM等模型。 English CommonCrawl(67%): 训练集的大部分构成为2017~2020年间的Com

    2024年02月09日
    浏览(58)
  • LLaMA(Open and Efficient Foundation Language Models )论文解读(二)

    此篇博客主题:LLAMA模型数据、训练时长、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t

    2024年02月16日
    浏览(48)
  • Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

    继2023年2月开源Llama之后,2023年7月Meta又开源了模型参数从70 亿到 700 亿不等的Llama 2,并同时开源了针对对话场景优化的LLaMA2-CHAT。LLama2 论文描述了微调和提高LLM安全性的方法以及在模型开发过程中的一些的观察。 论文摘要翻译:在这项工作中,我们开发并开源了 Llama 2,这是

    2024年02月09日
    浏览(51)
  • 一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

    返回论文和资料目录 LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源的代码在github上可以很方便获得

    2024年02月09日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包