OpenAI大模型生态与ChatGLM ||学习大模型我们需要掌握些什么?

这篇具有很好参考价值的文章主要介绍了OpenAI大模型生态与ChatGLM ||学习大模型我们需要掌握些什么?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

首先我们来看OpenAI系列模型:
OpenAI 并不只有一个模型,而是提供了涵盖文本、码、对话、语音、图像领域的一系列模型。

语言类大模型

其中语言类大模型包括: GPT-3、GPT-3.5、GPT-4系列模型。
并且,OpenAI在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型 (基座模型),用于不同场景的应用;其中,A、B、C、D模型的全称分别是ada(埃达·洛夫莱斯)、babbage(查尔斯·巴贝奇)、curie(居里夫人)和davinci(达芬奇),四个模型并不是GPT-3的微调模型,而是独立训练的四个模型;四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增:虽不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型却是目前OpenAI大模型生态中功能最丰富、API种类最多的四个模型。
为了更好的满足更多的适用场景训练不同规模的模型是目前业内的基本共识。
谷歌PaLM2 Models同时发布了四项大模型:
Gecko (壁虎) 、Otter(水獭) 、Bison (野牛) 、Unicorn(独角兽) ,其中最小的Gecko模型可以在移动端运行,并计划在下一代安卓系统中集成。

图像多模态大模型:

  • 最新版为OpanAI的 DALL-E(达利) v2,是DALL-E模型的第二版训练版,能够根据描述生成图像;
  • DALL-E模型为基于GPT-3开发的模型,总共包含120亿个参数,不难看出DALL-E对图像的理解能力源于大语言模型;
  • 那为啥图像大模型要基于GPT-3来训练呢?OpenAl将大语言模型的理解能力“复制”到视觉领域的核心方法:将图像视作一种一种语言,将其转化为Token,并和文本Token一起进行训练

语音识别模型:

  • 最新版为Whisper v2-large model,是Whisper模型的升级版,能够执行多语言语音识别以及语音翻译和语言识别;
  • Whisper模型是为数不多的OpenAl的开源模型,该模型通过68万小时的多语言和多任务监督数据进行的训练,目前提供了原始论文进行方法介绍;
  • whisper模型可以本地部署,也可以像其他OpenAl大模型一样通过调用API进行在线使用,并且根据官网介绍,Whisper在线模型会有额外运行速度上的优化,通过调用API进行使用,效率更高(当然也需要支付一定的费用)

文本向量化模型:

  • Embedding文本嵌入模型,用于将文本转化为词向量,即用一个数组(向量) 来表示一个文本,该文本可以是短语、句子或者文章;
  • 最新一代Embedding模型是基于ada模型微调的text-embedding-ada-002模型;
  • 通过将文本转化为词向量,就可以让计算机进一步的“读懂文本”,通过词向量的计算和分析和相似度计算,可以对其背后的文本进行搜索、聚类、推荐、异常检测和分类等;

审查模型:

Moderation模型,旨在检查内容是否符合 OpenAl的使用政策。这
些模型提供了 查找以下类别内容的分类功能:仇恨、仇恨/威胁、自残、性、性/未成年人、暴力和暴力/图片等。

编程大模型:

  • Codex大模型,用GitHub数十亿行代码训练而成,能够“读懂”代码,并且能够根据自然语言描述进行代码创建;
  • Codex最擅长Python,同时精通JavaScript、Go、Perl、 PHP、Ruby、Swift、TypeScript、SaL,甚至 Shell 等十几种编程语言;
  • 该模型发布于2021年8月10日,目前代码编写功能已经合并入GPT-3.5,官网显示该模型为已弃用(deprecated) 状态,意为后续不再单独维护,但并不表示OpenAl巳放弃编程大模型,相反越来越
    多的编程功能被集成到语言大模型中;
  • 目前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAl Service等产品中,用于提供自动编程功能支持;

点击地址:https://platform.openai.com/docs/models/overview在models->overiew到OpenAI官网中查看目前的OpenAI模型大类:
OpenAI大模型生态与ChatGLM ||学习大模型我们需要掌握些什么?,大模型,大模型,OpenAI,ChatGLM
点击以下网址:https://platform.openai.com/account/rate-limits可在个人中心一>API速率限制中查看中可以一次性看到目前账户可用的全部API

OpenAl APl命名规则

  • 通用模型APl:如GPT-3.5-turbo, GPT-4, ada…
  • 停止维护但仍可使用的AP1:如GPT-3.5-turbo-0301 (3月1号停止维护),GPT-4-0314 (3月14号停止维护)
  • 面向特定功能的微调模型API:如ada-code-search-code(基于ada微调的编程大模型),babbage-similarity(基于babbage微调的的文本相似度检索模型) …
  • 多版本编号模型API:如text-davinci-001(达芬奇文本模型1号)、text-embedding-ada-002(基于ada的Embedding模型2号)

——————————————————————————————————

学习大模型需要掌握什么?

第一部分,需要掌握效果最好、生态最丰富、功能最齐全的OpenAl发布的大模型组
第二部分,需要掌握目前中文效果最好、最具潜力、同时具备多模态功能的开源大模型一ChatGLM 6B & visualGLM 6B

为什么要学习开源大模型?

  • 更大的微调空问:相比在线大模型,开源大模型可以使用更多微调框架进行模型微调,微调空间更大,更有可能快速完成定制化大模型训练;
  • 更加灵活的A应用开发:相比封闭的在线模型,开源模型可以更加灵活便捷的嵌入到AI应用中,同时也可以更加方便的搭配其他开源框架进行使用,从而实现更高效率的Al/应用开发;
  • 更低的资费、更安全的数据保障:此外,不同于在线大模型需要根据API调用情况付费,开源大模型开源本地部署,仅需支付相应算力费用即可;此外,数据可以直接本地训练模型,无需在线提交数据进行在线模型微调,数据安全也将更有保障;

全球开源大模型性能评估榜单

榜单一:Hugging Face@: Open LLM Leaderboard
地址:https://huggingface.co/spaces/HuggingFaceH4/open_Ilm_leaderboard

Falcon(鹰眼)大模型:

Falcon模型为阿联酋阿布扎比创新研究所(TII) 开源的大模型,号称“史上最强开源大模型”,总共400亿参数,模型在1万亿个高质量Token上完成训练,叫能超进拥有650亿参数的LLaMA。遗憾的是Falcon并不支持中文。

榜单二:LMSYS组织 (UC伯克利背景): LLM Leaderboard
地址:https://chat.Imsys.org/?arena

通过匿名PK进行模型性能比较,同时纳入开源大模型和在线大模型进行PK,其中GPT-4排名第一,国内清华大学团队ChatGLM-6B 模型位列14。该榜单实时更新较慢,目前Falcon尚末参赛。

目前没有评价大模型能力的太权威的榜单。

——————————————————————————————————

中文最强大语言模型一 ChatGLM 130B

  • ChatGLM模型是由清华大学团队开发的大语言模型,该模型借鉴了ChatGPT 的设计思路,在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调 (Supervised Fine-Tuning) 等技术实现人类意图对齐。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAl、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B(davinci) 接近或持平。
  • 论文地址:https://openreview.net/pdf?id=-Aw0rrrPUF

更加精简的低门槛大模型:ChatGLM 6B

清华大学团队同时开源 ChatGLM-6B 模型。ChatGLM-6B 是一个具有62亿参数的中英双语语言模型。通过使用与 ChatGLM (chatglm.cn)相同的技术,ChatGLM-6B 初具中文问答和对话功能,并支持在单张 2060s 上进行推理使用。具体来说,ChatGLM-6B 有如下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1比例的中英语料上训练了1T的token 量,兼具双语能力;
  • 较低的部署门槛:FP16 精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB (INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上;

ChatGLM 6B的硬件要求:
OpenAI大模型生态与ChatGLM ||学习大模型我们需要掌握些什么?,大模型,大模型,OpenAI,ChatGLM

  • 其中,FP16指的是高精度模式,该模式下推理(即模型运行) 需要至少13G显存,微调需要至少14G显存;
  • INT4、INT8则是量化模式,所谓量化模式,指的是模型会限制参数的精度,INT4表示保留4位参数精度,INT8则表示保留8位参数精度,此时相应的推理显存占用和微调显存占用都会明显滅少。最低精度INT4模式下,可以在单卡2060上运行,也是目前硬件要求最低的开源大模型;
  • 根据实际测试,在高精度模式下,多轮对话最低显存占用为20G,微调显存占用为22G左右;

ChatGLM 6B丰富的开源生态
微调框架:ChatGLM 6B + P- Tuning微调,项目地址: https://github.com/ THUDM/ChatGLM-6B/blob/main/ptuning/README.md

微调框架:ChatGLM 6B + LoRA微调,项目地址: https://github.com/ mymusise/ChatGLM-Tuning

本地知识库:ChatGLM 6B + LangChain,项目地址: https://github.com/ imClumsyPanda/langchain-ChatGLM

多轮对话前端:ChatGLM 6B多轮对话的Web UI展示,项目地址: https:// github.com/Akegarasu/ChatGLM-webui
——————————————————————————————————

基于ChatGLM的多模态大模型 VisualGLM 6B

VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型, 语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2- Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。 VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M 经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉 信息对⻬到ChatGLM的语义空间;之后的微调阶段,模型在⻓视觉问答数据上训 练,以生成符合人类偏好的答案。

VisualGLM 6B部分样例 项目地址:
https://github.com/THUDM/VisualGLM-6B

VisualGLM 6B VS Dall·E模型实现思路区别

Dall·E:将图像视作一种语言,将其转化为离散化的Token并进行训练,优势在 于能够非常详细的描述一张图片,但缺点在于图像的Token利用率较低,需要 1000以上的Token才能描述一张256分辨率的图; VisualGLM:考虑到人类在认识图片的时候,往往只对少量视觉语意信息感兴 趣,因此可以不用将整个图片全部离散化为图片,只将图片特征对其到预训练 语言模型即可,这也是BLIP-2的视觉语言与训练方法实现策略。优势在于能够 充分语言模型,缺点在于会缺失图像部分底层信息(细节信息);

医学影像诊断大模型:XrayGLM 6B

项目地址:https://github.com/WangRongsheng/XrayGLM

基于VisualGLM模型,在UI-XRay医学诊断报告数据集上进行微调而来; 报告翻译借助OpenAI GPT模型完成翻译,微调框架为LoRA;
——————————————————————————————————文章来源地址https://www.toymoban.com/news/detail-614268.html

中文大模型学习首选——ChatGLM 6B

  • 低⻔槛上手使用,最低2080Ti即可运行;
  • 中英双语大模型,其中中文提示效果更佳;
  • 较为丰富的对话UI、微调、AI开发项目生态;
  • 大神云集的项目开发和维护团队;
  • 率先提出多模态大模型VisualGLM;
  • 非常活跃的开源社区,已经越来越多的微调和实践应用场景,未来发展极具潜力;

到了这里,关于OpenAI大模型生态与ChatGLM ||学习大模型我们需要掌握些什么?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 为什么我们需要去中心化存储?

    为什么我们需要去中心化存储? 我们的社会正处于前所未有的信息大爆炸时代,未来将是数据成为主要生产要素的数字时代,而 Web3 也不外乎于此,作为数据解决方案——去中心化存储,不仅是区块链技术的三大支柱(计算、存储、网络)之一,也是 Web3 领域最早出现也最受

    2024年02月02日
    浏览(84)
  • 我们为什么需要API管理系统?

    我们为什么需要API管理系统? 随着web技术的发展,前后端分离成为越来越多互联网公司构建应用的方式。前后端分离的优势是一套Api可被多个客户端复用,分工和协作被细化,大大提高了编码效率,但同时也带来一些“副作用”: 接口文档不可靠。很多小伙伴管理接口文档,

    2024年02月12日
    浏览(67)
  • 视觉化洞察:为什么我们需要数据可视化?

    为什么我们需要数据可视化?这个问题在信息时代变得愈发重要。数据,如今已成为生活的一部分,我们每天都在产生大量的数据,从社交媒体到购物记录,从健康数据到工作表现,数据无处不在。然而,数据本身通常是冷冰冰的数字,对于大多数人而言,理解和分析这些数

    2024年02月10日
    浏览(50)
  • 什么是Web3.0?为什么我们需要 Web 3.0

    为了更好地理解什么是 Web 3.0,我们需要知道什么是 Web 1.0 和 2.0。 为了不让你厌烦,这里简单的解释一下: WEB 3.0 例子:xiaqo.com Web 1.0  —— 信息仅从网站传递给用户。 Web 2.0  —— 信息是双向的。 用户可以与网站交互互动。 Web 3.0  —— 伟大的超越。 信息变得开放、分散

    2024年02月03日
    浏览(62)
  • 什么是分布式操作系统?我们为什么需要分布式操作系统?

    分布式操作系统是一种特殊的操作系统,本质上属于多机操作系统,是传统单机操作系统的发展和延伸。它是将一个计算机系统划分为多个独立的计算单元(或者也可称为节点),这些节点被部署到每台计算机上,然后被网络连接起来,并保持着持续的通信状态。在分布式操作

    2024年02月16日
    浏览(52)
  • java 架构师需要掌握什么技能

    Java架构师是负责设计和实现复杂软件系统架构的专业人士,他们需要具备扎实的编程基础、丰富的项目经验和深厚的理论知识。以下是Java架构师应该掌握的核心技能: 深厚的技术栈 : Java基础知识 :精通Java语言本身及其核心特性,包括面向对象设计原则、集合框架、多线

    2024年04月27日
    浏览(41)
  • 网络安全需要学什么?网络安全需要掌握哪些技能?

    目前网络安全是一个非常受欢迎的职业,其前景好、需求量大,无论大企业还是小企业,网络安全都是一个双高职位,地位高、薪资高,而且入门门槛也比较低。那么网络安全难学吗?需要掌握哪些技能?接下来,为大家介绍一下。 网络安全难学吗? 学习网络安全需要循序渐进

    2024年02月13日
    浏览(64)
  • 【云原生-白皮书】简章1:为什么我们需要云原生架构?

    声明:本文为《阿里云云原生架构核心技术白皮书》的一些读书笔记与感想。 一文大致了解云原生架构模式特点传送门:五分钟了解云原生的架构模式 声明:本文是阅读阿里云云原生架构核心技术白皮书的一些读书笔记与感想。 云原生架构是一种创新的软件开发方法,专为

    2023年04月26日
    浏览(56)
  • 为什么kafka 需要 subscribe 的 group.id?我们是否需要使用 commitSync 手动提交偏移量?

    消费概念: Kafka 使用消费者组的概念来实现主题的并行消费 - 每条消息都将在每个消费者组中传递一次,无论该组中实际有多少个消费者。所以 group 参数是强制性的,如果没有组,Kafka 将不知道如何对待订阅同一主题的其他消费者。 偏移量 : 每当我们启动一个消费者时,

    2024年02月12日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包