最强开源中英双语大模型发布,340亿参数超越Llama2-70B !

这篇具有很好参考价值的文章主要介绍了最强开源中英双语大模型发布,340亿参数超越Llama2-70B !。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

  Aquila2模型全系开源地址:

  • https://github.com/FlagAI-Open/Aquila2

  • https://model.baai.ac.cn/

  • https://huggingface.co/BAAI

Aquila2-34B在代码生成、考试、理解、推理、语言四个维度的22个评测基准上,霸占了多个榜单TOP 1。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

 相较于大模型榜单分数,业内更看重对推理、泛化等重要模型实际能力的潜心提升,在支撑智能体(AI agent)、代码生成、文献检索等场景方面取得一系列成绩。

值得注意的是,智源不仅Aquila2模型系列全部开源,而且还同步开源了Aquila2的创新训练算法,包括FlagScale框架和FlagAttention算子集,以及语义向量模型BGE的新版本。

最强开源中英双语大模型

1. Aquila2-34B 基座模型与对话模型全面领先

通过架构升级、算法创新、数据迭代,新一代悟道·天鹰模型 Aquila2 在中英文综合能力方面进一步突破:Aquila2-34B 基座模型取得了22个评测基准的领先综合排名,包括语言、理解、推理、代码、考试等多个维度 。

同时,Aquila2 基础模型以最强开源基座模型综合性能,为下游模型提供强大支撑,经指令微调得到了优秀的的 AquilaChat2 对话模型系列。

AquilaChat2-34B 成为当前最强开源中英双语对话模型,在主观+客观综合评测中全面领先 。

AquilaChat2-7B 也取得同量级中英对话模型中综合性能最佳成绩。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

图:SFT 模型评测结果

(详细数据集评测结果见官方开源仓库介绍)

大模型的推理(Reasoning)能力是实现通用人工智能(AGI)的关键能力,AquilaChat2-34B 在 IRD 评测基准中排名第一,超越 LLama2-70B、GPT3.5等模型,仅次于 GPT4。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

智源团队整理了评测基准 Integrated Reasoning Dataset(IRD)考察模型在归纳推理、演绎推理、溯因推理和因果推理维度上的推理结果和过程的准确性,并对主流对话模型进行了全面评测。

2. 高效扩充模型上下文窗口长度至 16K

AquilaChat2-34B-16K 以 Aquila2-34B 为基座,经过位置编码内插法处理,并在 20W 条优质长文本对话数据集上做了 SFT,将模型的有效上下文窗口长度扩展至 16K。

在 LongBench 的四项中英文长文本问答、长文本总结任务的评测效果显示,AquilaChat2-34B-16K 处于开源长文本模型的领先水平,接近 GPT-3.5 长文本模型。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

图:长文本理解任务评测

长度外延能力不足是制约大模型成文本能力的普遍问题。智源团队对多个语言模型处理超长文本的注意力分布做了可视化分析,发现所有的语言模型均存在固定的相对位置瓶颈,显著小于上下文窗口长度。

为此,智源团队创新提出 NLPE(Non-Linearized Position Embedding, 非线性位置编码)方法,在 RoPE 方法的基础上,通过调整相对位置编码、约束最大相对长度来提升模型外延能力。在代码、中英文Few-Shot Leaning、电子书等多个领域上的文本续写实验显示,NLPE 可以将 4K 的 Aquila2-34B 模型外延到 32K 长度,且续写文本的连贯性远好于 Dynamic-NTK、位置插值等方法。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

 图:NLPE与主流Dynamic-NTK外延方法在Base模型上的能力对比(ppl值越低越好)

此外,在长度为 5K~15K 的 HotpotQA、2WikiMultihopQA 等数据集上的指令跟随能力测试显示,经过 NLPE 外延的 AquilaChat2-7B(2K)准确率为 17.2%,而 Dynamic-NTK 外延的 AquilaChat2-7B 准确率仅为 0.4%。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型图:NLPE与主流Dynamic-NTK外延方法在SFT模型上的能力对比

同时,智源团队开发了适配长文本推理的分段式Attention算子 PiecewiseAttention ,高效地支持 NLPE 等面向 Attention Map 的优化算法,进一步减少显存占用、提升运算速度。

3. 强大的泛化能力,适应各类真实应用场景

强大的泛化能力对于大语言模型至关重要,它意味着模型能够有效地应对未见过的数据与新任务,而不仅仅仅在标准测试中表现出色、但在实际应用中表现不佳,陷入“高分低能”的陷阱。

悟道·天鹰团队通过三个真实应用场景验证了 Aquila2 模型的泛化能力。

3.1  利用 AquilaChat2 强大推理能力打造智能体(AI agent)

在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的复杂世界和大量开放的任务,为智能体提供了丰富的交互接口,进而成为近几年开放式学习研究的重要测试环境。

智源研究院与北京大学团队提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法—— Plan4MC。Plan4MC 可以使用内在奖励的强化学习训练智能体的基本技能,使得智能体可以利用大语言模型 AquilaChat2 的推理能力进行任务规划。

以下视频展示了智能体利用 AquilaChat2 进行自动完成多轮对话交互,将游戏“当前环境状态”、“需要完成的任务”等信息输入AquilaChat2模型,AquilaChat2 反馈给角色“下一步使用什么技能”等决策信息,最终完成了Minecraft 游戏中设定的任务“伐木并制作工作台放在附近”的任务。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

3.2 通过 Aquila2+BGE2 链接向量数据库

基于传统向量库的检索方式在一些简单问题场景下表现良好,但面对复杂的、需要深度理解的问题时,其效果有限。

Aqiula2+BGE2 的引入改变了这一局面(BGE是智源团队开源的语义向量模型), 彻底解锁了一些仅基于传统向量库的检索方法不能解决的复杂检索任务,例如检索某个作者关于某个主题的论文,或针对一个主题的多篇论文的生成总结文本。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型3.3 AquilaSQL:最优“文本-SQL语言”生成模型

AquilaSQL 可以充当“翻译员”,将用户发出的自然语言指令准确翻译为合格的 SQL 查询语句,极大地降低数据查询分析的门槛。

在实际应用场景中,用户还可以基于AquilaSQL进行二次开发,将其嫁接至本地知识库、生成本地查询 SQL,或进一步提升模型的数据分析性能,让模型不仅返回查询结果,更能进一步生成分析结论、图表等。

基于 Aquila 基座模型优秀的代码生成能力,AquilaSQL 经过SQL语料的继续预训练和SFT 两阶段训练,最终以67.3%准确率超过“文本-SQL语言生成模型”排行榜 Cspider 上的SOTA模型,而未经过SQL语料微调的 GPT4模型准确率仅为 30.8%。

  AquilaSQL 开源仓库地址:

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila/Aquila-sql

下面是一个复杂查询任务示例:“从包含汽车销量(car_sales)、汽车颜色(car_color)的两个数据表中筛选销量大于100并且颜色为红色的汽车”。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

图:AquilaSQL 生成多表查询语句

「全家桶」级别开源,Aquila2 创新训练算法同步开放

作为中国大模型开源生态的代表机构,智源早在 2022 年即开始前瞻性布局,着力打造FlagOpen飞智大模型技术开源体系。

不止于明星模型,智源毫无保留地持续贡献大模型全栈技术开源开放,带来一系列包括算法、数据、工具、评测方面的明星开源项目,真诚拥抱与回馈全球社区。

秉承开源传统,Aquila2 系列模型不仅全面采用商用许可协议,允许公众广泛应用于学术研究和商业应用;还将相关创新训练算法、最佳实践全面彻底开放,以期促进全球大模型生态繁荣。

1. FlagScale 高效并行训练框架

FlagScale 是 Aquila2-34B 使用的高效并行训练框架。提供一站式语言大模型的训练功能。

智源团队将 Aquila2 模型的训练配置、优化方案和超参数通过 FlagScale 项目分享给大模型开发者,在国内首次完整开源训练代码和超参数。

FlagScale 基于 Megatron-LM 扩展而来,提供了一系列功能增强,包括分布式优化器状态重切分、精确定位训练问题数据以及参数到Huggingface转换等。经过实测,Aquila2 训练吞吐量和 GPU 利用率均达到业界领先水平[1][2]。

英语口语练习哪家ai数据模型好,开源,人工智能,palm,深度学习,语言模型

图:FlagScale 训练吞吐量与GPU利用率

(数据来源和估算公式见文末)

FlagScale 开源代码仓库:

https://github.com/FlagOpen/FlagScale 

此外,FlagScale 采用了多种并行技术如数据并行、张量并行和 1F1B 流水线并行等,加速训练过程,并使用 BF16 进行混合精度进行训练。在性能优化方面,FlagScale 采用了 FlashAttn V2、计算与通信重叠、梯度累积等技术,显著提升了计算效率。

未来,FlagScale 将继续保持与上游项目 Megatron-LM 最新代码同步,引入更多定制功能,融合最新的分布式训练与推理技术以及主流大模型、支持异构AI硬件,力图构建一个通用、便捷、高效的分布式大模型训练推理框架,满足不同规模和需求的模型训练任务。

2. FlagAttention 高性能 Attention 开源算子集

FlagAttention 是首个支持长文本大模型训练、使用 Triton语言开发的高性能Attention开源算子集,针对大模型训练的需求,对 Flash Attention 系列的 Memory Efficient Attention 算子进行扩展。

目前已实现分段式 Attention 算子——PiecewiseAttention。

FlagAttention 开源代码仓库:

GitHub - FlagOpen/FlagAttention: A collection of memory efficient attention operators implemented in the Triton language.

PiecewiseAttention 主要解决了带旋转位置编码 Transformer 模型(Roformer)的外推问题。大模型推理时的序列长度超出训练时最大序列长度时,距离较远的 token 之间 attention weight 异常增高。而 Flash Attention 对 Attention Score 的计算采用分段式的处理时无法做到高效实现,因此智源团队自研了分段式 PiecewiseAttention 算子,大模型开发者可利用该开源算子实现更灵活的 Attention 计算方式。

简单来说,PiecewiseAttention 具备如下特性:

  • 通用性:对使用分段式计算 Attention 的模型具有通用性,可以轻松迁移至 Aquila 之外的大语言模型。

  • 易用性:FlagAttention 基于 Triton 语言实现并提供 PyTorch 接口,构建和安装过程相比 CUDA C 开发的 Flash Attention 更加便捷。

  • 扩展性:同样得益于 Triton 语言,FlagAttention 算法本身的修改和扩展门槛较低,开发者可便捷地在此之上拓展更多新功能。

注:Triton 是 OpenAI 开源的编程语言,方便开发者编写高效的 GPU 代码。

基于 Triton 开发的 FlagAttention 具备更好的开源开放能力,轻松适配各种 AI 硬件,目前已在英伟达及天数智芯硬件上完成支持[3]。未来,FlagAttention项目将继续针对大模型研究需求,支持其他功能扩展的 Attention 算子,进一步优化算子性能,并适配更多异构AI硬件。

3. BGE2 新一代语义向量模型

新一代BGE语义向量模型将随 Aquila2 同步开源。BGE2 中的 BGE - LLM Embedder 模型集成了“知识检索”、“记忆检索”、“示例检索”、“工具检索”四大能力,首次实现了单一语义向量模型对大语言模型主要检索诉求的全面覆盖。结合具体的使用场景,BGE - LLM Embedder将显著提升大语言模型在处理知识密集型任务、长期记忆、指令跟随、工具使用等重要领域的表现。

 BGE2 开源地址

paper: 

https://arxiv.org/pdf/2310.07554.pdf

model: 

https://huggingface.co/BAAI/llm-embedder

repo: https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/llm_embedde

快速上手 Aquila2 系列模型

Aquila2 模型权重&代码仓库:

  • 使用方式一(推荐):通过 FlagAI 加载 Aquila2 系列模型

    https://github.com/FlagAI-Open/Aquila2

  • 使用方式二:通过 FlagOpen 模型仓库单独下载权重

    https://model.baai.ac.cn/

  • 使用方式三:通过 Hugging Face 加载 Aquila2 系列模型

    https://huggingface.co/BAAI

Aquila2 全系列兼容多个大模型生态开源项目:

  • LoRA/QLoRA:轻量化的模型微调训练技术,既加速了大模型训练,同时也降低了显存占用。

  • vLLM :支持构建高吞吐量的大语言模型服务,支持流式输出,支持单机多卡、分布式并行推理。

  • llama.cpp:支持非GPU端和4-bit 量化,进一步降低开发者的的使用门槛。

 

参考资料

[1] LLAMA2吞吐量估算公式:total tokens / (total GPU hours * 3600) ,根据Llama 2: Open Foundation and Fine-Tuned Chat Models论文:1)7B的total tokens为2.0 T, total GPU hours 为184320,代入公式得3014 Tokens/sec/GPU;2)34B的total tokens为2.0 T, total GPU hours 为1038336,代入公式得535 Tokens/sec/GPU。

[2]根据https://github.com/InternLM/InternLM#training-performance可知InternLM 7B的1024卡能达到3625 Tokens/sec/GPU。

[3]当前仅在英伟达RTX3090 和 A100 以及天数的 MR-V100上进行验证。

 文章来源地址https://www.toymoban.com/news/detail-819754.html

到了这里,关于最强开源中英双语大模型发布,340亿参数超越Llama2-70B !的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DeepSeek 发布全新开源大模型,数学推理能力超越 LLaMA-2

    自从 LLaMA 被提出以来,开源大型语言模型(LLM)的快速发展就引起了广泛研究关注,随后的一些研究就主要集中于训练固定大小和高质量的模型,但这往往忽略了对 LLM 缩放规律的深入探索。 开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域,对于推进自然语言处理

    2024年02月02日
    浏览(49)
  • 中英双语大模型ChatGLM论文阅读笔记

    论文传送门: [1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling [2] Glm-130b: An open bilingual pre-trained model Github链接: THUDM/ChatGLM-6B GLM-130B 和 GPT-3 175B(davinci) 相比,参数量减少,但性能提升了。 INT4 quantization without post training INT4量化是一种将模型的权重和激活从使用

    2024年02月02日
    浏览(30)
  • 中英双语对话大语言模型:ChatGLM-6B

    ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优

    2024年02月12日
    浏览(28)
  • 离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope

    离线生成双语字幕整合包,一键生成中英双语字幕,基于AI大模型 制作双语字幕的方案网上有很多,林林总总,不一而足。制作双语字幕的原理也极其简单,无非就是人声背景音分离、语音转文字、文字翻译,最后就是字幕文件的合并,但美中不足之处这些环节中需要接口api的

    2024年02月21日
    浏览(28)
  • [AI Meta Llama-3] 最强开源大模型Llama 3发布!

    最强开源大模型Llama 3发布!我们看下重点: 今天,我们介绍Meta Llama 3,这是我们最先进的开源大型语言模型的下一代。 Llama 3模型很快将在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、戴尔、英特尔、NVIDIA和高

    2024年04月23日
    浏览(36)
  • 阿里云开源通义千问720亿参数模型,性能超越大部分商用闭源大模型

    12月1日,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型。未来,企业级、科研级的高性能应用,也有了开源大模型这一选项。 通

    2024年02月03日
    浏览(32)
  • 开源文生图大模型Playground v2.5发布:超越SD、DALL·E 3和 Midjourney

    前言 在AI技术迅速发展的今天,文生图模型成为了艺术创作、设计创新等领域的重要工具。Playground v2.5的发布,不仅在技术上取得了突破,更在开源文化的推广与实践上迈出了重要一步。 Huggingface模型下载: https://huggingface.co/ playgrounda i AI 快站模型免费加速下载: https://aif

    2024年03月16日
    浏览(30)
  • 新测试基准发布,最强开源Llama 3尴尬了

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 如果试题太简单,学霸和学渣都能考90分,拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款 更难、更有区分度的基准测试 。 大模型竞技场背后组织LMSYS推出下一代基准测试 Arena-Hard ,引起广泛关注。 Ll

    2024年04月27日
    浏览(22)
  • 开源双语对话语言模型 ChatGLM-6B 本地私有化部署

    本文首发于:https://www.licorne.ink/2023/08/llm-chatglm-6b-local-deploy/ ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGL

    2024年02月10日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包