只有27亿参数,性能却高25倍!微软发布Phi-2

这篇具有很好参考价值的文章主要介绍了只有27亿参数,性能却高25倍!微软发布Phi-2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

12月13日,微软在官方网站正式发布了,27亿参数的大语言模型—Phi-2。

Phi-2是基于微软的Phi-1.5开发而成,可自动生成文本/代码、总结文本、数学推理等功能。

虽然Phi-2的参数很小,性能却优于130亿参数的Llama-2和70亿参数的Mistral,以及谷歌最新发布的Gemini Nano 2。

值得一提的是,Phi-2没有进行过RLHF(人类反馈强化学习)和指令微调只是一个基础模型,但在多个任务评测中,其性能可以媲美或超过25倍参数的模型。

目前,微软已经开源了Phi-1.5和Phi-1,帮助开发者们深度研究和应用小参数模型。

Phi-1.5开源地址:https://huggingface.co/microsoft/phi-1_5

Phi-1开源地址:https://huggingface.co/microsoft/phi-1

Phi-1.5论文地址:https://arxiv.org/abs/2309.05463

phi-1.5 github,microsoft,人工智能,aigc

目前,大模型界有一个很怪的现象,就是出的模型参数越来越大,几百亿参数只能算刚入门,上千亿的比比皆是,有的模型甚至已经达到上万亿。

参数高的模型并非不好,而是要看应用场景。对于像微软、OpenAI、百度、科大讯飞这样的基础模型服务商来说,参数越高覆盖能力就越广,例如,ChatGPT已经进化到多模态,除了生成文本,还能生成图片听懂声音等。

phi-1.5 github,microsoft,人工智能,aigc

Phi-2评测数据

但参数高的模型同样也有很多缺点:过拟合,如果训练数据较差会出现能力不升反降的现象;算力成本巨大,用户每一次的提问都像是在“燃烧金钱”;预训练时间长,每一次模型的迭代需要耗费大量训练时间。

调优困难,高参数的模型拥有庞大且难控制的神经元,想进行部分功能调优和控制非常困难,最近变懒的GPT-4便是最好的案例。

所以,微软开发Phi系列模型的主要目的是研究,小参数模型如何在保证功能的前提下,也能与大参数的模型相媲美甚至超越,这对于企业和应用者来说是一个双赢的局面。

Phi-2简单介绍

Phi-2和Phi-1.5一样采用了24层的Transformer架构,每个头的维度为64,并使用了旋转嵌入等技术来提升模型性能。

Phi-2只是一个基础模型,没有进行过人类反馈强化学习和指令微调。但在文本生成、数学推理、代码编程方面丝毫不比大参数的模型差,甚至比他们更好。

phi-1.5 github,microsoft,人工智能,aigc

训练数据和流程方面,Phi-2使用了1.4T超高质量的“教科书级”数据进行了预训练,并非是网络爬取的杂乱、黑箱数据。微软表示,这也是小参数模型比大参数模型性能高的关键原因之一。

Phi-2 在 96 个 A100 GPU上一共训练了14天。

Phi-2实验数据

微软在MMLU、BBH、PIQA、WinoGrande、ARC easy、Challenge、SIQA和GSM8k等主流测试平台对Phi-2进行了测试。

phi-1.5 github,microsoft,人工智能,aigc

数据显示,在各种聚合基准上的测试超过了,Mistral -7B和Llama-2-13B。

值得一提的是,在多步推理测试任务中,例如,编码和数学,Phi-2的性能超过了700亿参数的Llama-2。

本文素材来源微软官网、Phi-1.5论文,如有侵权请联系删除文章来源地址https://www.toymoban.com/news/detail-763536.html

到了这里,关于只有27亿参数,性能却高25倍!微软发布Phi-2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI大模型日报#0424:全球首个AI基因编辑器、出门问问上市、微软开源Phi-3 Mini、昆仑万维年收49亿

    导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 爱诗科技完成A2轮超亿元融资,蚂蚁集团领投 摘要:  爱诗科技完成A2轮超亿元融资,成为视频大模型领域融资规模最大的中国创业公司。其视频生成产

    2024年04月25日
    浏览(66)
  • 果然来了!GPT-4.5贵有贵的道理?微软Phi-2精准超越谷歌;LLM怪诞心理学;斯坦福创业课精华笔记;新手LLM训练系统指南 |ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! https://www.reddit.com/r/OpenAI/comments/18i5n29/anyone_hear_of_gpt45_drop_today 12月14日,美国 Reddit 论坛用户贴出了一张截图,显示的是 OpenAI GPT-4.5 定价信息,疑似遭到了提前「泄露」。 从这张截图看, GPT-4.5 具

    2024年02月03日
    浏览(62)
  • GPT-4发布!能打败ChatGPT的只有OpenAI自己!

    众所周知,chatGPT的对话生成模型用的是GPT3.5,而今发布的GPT4相比GPT3,又有了巨大的升级: 输入仅文本 = 输入文本和图像,具备了强大的识图能力 文字输入限制3k字 = 2.5w字 准确率、对细节的理解能力大幅提升 openai也对GPT4的能力做了一系列测试,发现GPT-4 在各种专业测试和

    2024年02月03日
    浏览(61)
  • C++大学教程(第九版)5.25去除break语句 5.27去除cintinue语句

    (去除break和continue)break和continue 语句遭到质疑的原因是它们的非结构化性。实际上,break和continue 语句总能用结构化的语句取代。请详述如何从程序的一条循环语中去除break语句,并用某种结构化的手段替代。提示:break 语句用于在循环体内离开一个循环。另一个离开的办法是让

    2024年01月21日
    浏览(32)
  • Hive执行计划之只有map阶段SQL性能分析和解读

    目录 目录 概述 1.不带函数操作的select-from-where型简单SQL 1.1执行示例 1.2 运行逻辑分析 1.3 伪代码解释 2.带普通函数和运行操作符的普通型SQL执行计划解读 2.1 执行计划解读 2.2 伪代码解释逻辑 可能所有的SQLboy刚接触SQL语句的时候都是select xxx from xxx where xxx。在hive中,我们把这

    2024年02月08日
    浏览(51)
  • Error(25) 解决node: /lib64/libm.so.6: version `GLIBC_2.27‘ not found (required by node)

    问题 tips: 建议不要轻易改这个,感觉有坑… 一般正常服务器也不会出现这个问题,我这里是由于局域网的虚拟机出现此问题;建议操作前存个快照。 解决 解决中文乱码问题 今日分享语句: 心若向阳,做什么都会是美好的。

    2024年02月11日
    浏览(55)
  • Python教程(25)——Python中参数类型详解

    当我们在编写函数时,会定义一些占位符,这些占位符就是参数,参数是函数定义中用于接收外部传递值的占位符,这个会帮助我们在函数被调用时接收外部传递的值。在Python当中,有各种各样类型的参数,主要有位置参数、默认参数、参数、可变位置参数、可变关键

    2024年01月18日
    浏览(42)
  • 微软丢出王炸:微软发布重磅更新Windows Copilot

    在今天凌晨结束的微软 Build 2023 大会上,微软发布了重磅更新Windows Copilot. 微软此前把 GPT-4 接入Office 套件而推出的 Copilot,将全面集成到 Windows 系统。    Windows Copilot 注册直通: https:/forms.office.com/pages/responsepage.aspx?id=v4i5cVGGr0GRay180BHbR54CdsokulNm8L3Fedhou1UNIM5T09YTI04WINPWIFBMIJQSFYXQT

    2024年02月09日
    浏览(46)
  • mysql 27day 深入理解MySQL:架构、性能优化与最佳实践

    MySQL是一个流行的开源关系型数据库管理系统,深受开发者喜爱,广泛应用于各种网站和应用程序中。在本文中,我们将探索MySQL的内部架构,讨论常见的性能瓶颈,并提供一些针对性的优化建议。无论你是一名初学者还是有经验的数据库管理员,本文都将为你提供宝贵的My

    2024年02月03日
    浏览(52)
  • 普及100Hz高刷+1ms响应 微星发布27寸显示器:仅售799元

    不论办公还是游戏,高刷及低响应时间都很重要,微星现在推出了一款27寸显示器PRO MP273A, 售价只有799元,但支持100Hz高刷、1ms响应时间,还有FreeSync技术减少撕裂。 PRO MP273A的100Hz高刷新率是其最大的卖点之一,相比传统60Hz显示器,它可以为办公和娱乐带来更流畅的视觉效果

    2024年02月14日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包