【AI开源大模型】Salesforce XGen-7B 支持长序列建模:在 8K 输入序列长度上训练的LLM

这篇具有很好参考价值的文章主要介绍了【AI开源大模型】Salesforce XGen-7B 支持长序列建模:在 8K 输入序列长度上训练的LLM。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

TLDR

Why XGen-7B with 8K Sequence Length为什么选择具有 8K 序列长度的 XGen-7B

Pre-training Data 预训练数据

Training Details 培训详情

Results on Standard Benchmarks标准基准的结果

(i) MMLU (一) MMLU

(ii文章来源地址https://www.toymoban.com/news/detail-704234.html

到了这里,关于【AI开源大模型】Salesforce XGen-7B 支持长序列建模:在 8K 输入序列长度上训练的LLM的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Mistral 7B 比Llama 2更好的开源大模型 (三)

    Mistral 7B 比Llama 2更好的开源大模型 Mistral 7B是一个70亿参数的语言模型,旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型(Llama 2),在推理、数学和代码生成方面也优于最好的发布34B模型(Llama 1)。Mistral 7B模型利用分组查询注意力(G

    2024年02月05日
    浏览(30)
  • Gemma谷歌(google)开源大模型微调实战(fintune gemma-2b/7b)

    Gemma-SFT(谷歌, Google), gemma-2b/gemma-7b微调(transformers)/LORA(peft)/推理 v1, 20240222, transformers==4.38.0时候, 微调只跑通了gemma-2b-it(因为只计算了output的loss, 且使用的是fp16), 同时该版本transformers实现有些问题, 比如说1.tokenizer要加bos, 2.RoPE计算精度问题(float32), 3.激活函数gelu_pytorch_tanh; v2,

    2024年04月11日
    浏览(40)
  • 基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)

    到目前为止,我们已经看到了ChatGPT的能力及其所能提供的强大功能。然而,对于企业应用来说,像ChatGPT这样的封闭源代码模型可能会带来风险,因为企业自身无法控制他们的数据。尽管OpenAI公司声称用户数据不会被存储或用于训练模型,但是这并不能保证数据不会以某种方

    2024年02月15日
    浏览(32)
  • Meta AI发布SeamlessM4T模型,支持转录和翻译近100种语言|已开源

    Meta AI 近期的重磅动作频频不断,短短一个多月的时间接连发布了一系列开源大模型,下面我们看看都有哪些有影响力的产品。 2023 年 7 月 14 日 Meta AI 隆重推出 CM3leon,这是一款首个多模态模型,可实现最先进的文本到图像生成性能,计算效率是竞争模型的 5 倍。 2023 年 7 月

    2024年02月11日
    浏览(25)
  • 【AIGC】BaiChuan7B开源大模型介绍、部署以及创建接口服务

    baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。 huggingface github 系统:centos7.8.2003 GPU:

    2024年02月09日
    浏览(36)
  • AI大模型参数介绍中的5B、7B是何意?

    AIGC大模型参数的5B、7B是指模型中可训练参数的数量。这里的 “B”表示10亿(Billion),即10^9 。因此,5B表示50亿个可训练参数,7B表示70亿个可训练参数。这些参数是神经网络中的权重和偏置,它们在训练过程中通过反向传播算法进行更新,以使模型能够更好地拟合训练数据

    2024年02月04日
    浏览(31)
  • 开源模型应用落地-qwen1.5-7b-chat-LoRA微调(二)

            预训练模型提供的是通用能力,对于某些特定领域的问题可能不够擅长,通过微调可以让模型更适应这些特定领域的需求,让它更擅长解决具体的问题。         本篇是开源模型应用落地-qwen-7b-chat-LoRA微调(一)进阶篇,学习通义千问最新1.5系列模型的微调方式

    2024年04月09日
    浏览(59)
  • 开源模型应用落地-qwen1.5-7b-chat-LoRA微调代码拆解

        本篇文章将解析 QWen1.5 系列模型的微调代码,帮助您理解其中的关键技术要点。通过阅读本文,您将能够更好地掌握这些关键技术,并应用于自己的项目中。     开源模型应用落地-qwen1.5-7b-chat-LoRA微调(二)     LoRA (Low-Rank Adaptation) 用于微调大型语言模型 (LLM)。  是一

    2024年04月13日
    浏览(28)
  • 开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(一)

    一、前言      基于真实生产级项目分享,帮助有需要的同学快速构建完整可交付项目     项目流程包括(去掉业务部分):   开源模型测试,包括baichuan、qwen、chatglm、bloom   数据爬取及清洗   模型微调及评估   搭建AI交互能力   搭建IM交互能力   搭建违禁词识别能力

    2024年02月02日
    浏览(43)
  • 开源模型应用落地-qwen1.5-7b-chat与sglang实现推理加速的正确姿势(一)

         SGLang is a structured generation language designed for large language models (LLMs). It makes your interaction with LLMs faster and more controllable by co-designing the frontend language and the runtime system。简单来说就是,SGLang简化了LLM程序的编写并提高了执行效率,SGLang可以将常见的LLM任务加速高达5倍。    

    2024年04月12日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包