GLM-4多模态重磅更新!摸着OpenAI过河!

这篇具有很好参考价值的文章主要介绍了GLM-4多模态重磅更新!摸着OpenAI过河!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

智谱CEO张鹏说:OpenAI摸着石头过河,我们摸着OpenAI过河
摸来摸去摸了一年,以每3-4个月升级一次基座模型的速度,智谱摸着OpenAI过河的最新成绩到底怎么样?真如所说吗?

听到GLM-4发布的当天,我就去试用了一下GLM-4,毕竟是国内 全自研第四代基座大模型GLM-4!

实际体验

我依次测试了多模态、ALL Tools、个性化智能定制功能。

多模态

首先测试其图片理解能力,上传了一张猫片:

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

从结果来看,它基本上理解了这个图片的内容。

上传一张更复杂的图片试试呢?图片里有几个人?几个男人几个女人?

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

我也是学CV的,它答不准的原因在于底层图片识别、图像分割能力的不足,还需要继续努力。

为了测试它到底是不是真的理解图片里的含义,我上传了五环的图片,它成功的告诉我这个是五环,代表世界五大洲的团结和合作,赞!

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

All Tools

All Tools其实代表的是模型能否理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。

我首先提了一个问题来验证联网能力:

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

它通过联网搜索的方式给出了答案:

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

总体来说,给出的内容还算不错。

我想进一步看看它的信息整合能力如何,于是让它进行表格的整理,这次等待的时间比较长,因为联网搜索了很久···,甚至还超时失败了,最终也没成功。

代码解释(CodeInterpreter)能力如何呢?先问了一下运行环境,但是无法给出准确的内存限制等,只给出了一些支持的代码或者运行库,值得注意的是,在运行的代码里本身不能联网:

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

为了测试基本的代码能力,我让它进行python得文件读取和保存:

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

画图能力如何呢?尝试一个主体进行三种风格的爆改:

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

怎么说呢,虽然在细节方面还不够好,比不上Dalle-3、SD或者MJ,但是已经基本能够满足要求了。可以满足给小朋友或者简单场景的绘画需求。

GLMs个性化智能体定制

这个功能其实瞄准的就是GPTs了,甚至从官方公告上来看,未来GLMs也将开放出开发者权限,并且进行收益分成(但是现在有个问题,GLM本身是不收费的,怎么盈利分成呢?可能的答案是:进行会员收费;回答里嵌套广告)

MaaS平台和API

按照智谱AI官方的说法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)

据智谱AI CEO张鹏介绍GLM-4的整体性能相比上一代大幅提升,逼近GPT-4。 它可以支持更长的上下文,具备更强的多模态能力。同时,它的推理速度更快,支持更高的并发,大大降低推理成本。

GLM-4多模态重磅更新!摸着OpenAI过河!,学习笔记,机器人,人工智能,DALL·E 2,AI作画

此次发布的 GLM-4,在多个评测集上性能已接近或超过GPT-3.5,个别项目上几乎持平GPT-4。其中以下四个能力更新,是 GLM-4 最大的亮点:

  • 多模态能力:推出了CogView3代,效果超过开源SD模型,逼近 DALLE-3。
  • All Tools能力:GLM-4能自主理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。
  • GLMs个性化智能体定制:用户可以通过智谱清言官方网站创建属于自己的GLM智能体,无需编程基础。
  • MaaS平台和API:GLM-4登陆了Maas平台,提供API访问,支持开发者内测Assistant API。

数据指标

数据集表现

MMLU(Massive Multitask Language Understanding):评估大模型的对于知识的理解,目前GLM-4是81.5分,GPT-4得分86.4分,目前能达到GPT4的94%

GSM8K(Grade School Math 8K):测试数学能力,小学数学和初中数学水平。GLM-4得分87.6,达到GPT-4的95%;

MATH:数学测试,涉及到一些较难的逻辑推理,GLM-4得分47.9,达到GPT-4的91%

BBH(Big Bench Hackathon):偏综合测试,比如翻译、语言理解、逻辑推理等内容。GLM-4得分82.3,达到GPT-4的99%水平

HellaSwag:偏常识测试,GLM-4得分85.4,达到GPT-4的90%水平

HumanEval:纯粹的编程任务。评测大模型在算法、代码、编程层面的效果。GLM-4得分72,达到GPT-4的100%水平。

指令跟随能力方面,和GPT-4相比,IFEval在Prompt提示词跟随(中文)方面达到88%,指令跟随(中文)方面达到 90%水平,超过GPT-3.5。

对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。

大海捞针测试, GLM-4模型能够在128K文本长度内实现几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降问题。

展望

在 2023 年,智谱 AI 基于 GLM-130B 研发了 ChatGLM,并经过三个版本的迭代,逐渐增加了多模态理解、代码解释、网络搜索增强等新功能。

去年年初,智谱 AI 承诺要在 2023 年底实现逼近最先进的 GPT-4 性能的全栈自主创新的 GLM-4。作为一年前设定的目标,GLM-4 的性能已经有了显著提升。从标准的大模型评估角度来看,整体上已经逼近了 GPT-4。

希望国产大模型能够更进一步,我很担心未来在AI领域,又出现被掐脖子的事情~文章来源地址https://www.toymoban.com/news/detail-804894.html

到了这里,关于GLM-4多模态重磅更新!摸着OpenAI过河!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 重磅!OpenAI正式发布,自定义ChatGPT商店!

    1月11日凌晨,OpenAI在官网正式发布了,自定义GPT商店,可以帮助用户找到目前最好用、流行的自定义ChatGPT助手。 在2024年第一季度,OpenAI将启动GPT 开发者收入计划。 首先,美国地区的开发者将根据用户对其 GPT 的使用情况获得金钱回报 。未来,OpenAI将提供更详细的收入计划

    2024年01月21日
    浏览(44)
  • 重磅!OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!! 初七啦,得开始工作了,没想到第一天就这么劲爆! 今天OpenAI迎来重大更新——发布视频模型Sora!! 官网Sora (openai.com) 说实话有点惊艳,在AI圈子里好多头部内容创作者看到都禁不住国粹了! 除了能够仅根据文本

    2024年02月20日
    浏览(43)
  • Claude3 AI系列重磅推出:引领多模态智能时代的前沿技术,超越GPT-4

    划重点: 🚀 Claude3系列发布,包括Haiku、Sonnet和Opus版本,Opus在多个领域超越GPT-4。 🌐 用户可免费使用Claude3Sonnet模型,支持中文,API已覆盖159个国家/地区。 📸 新增多模态图像识别提问功能,Claude3在数学与推理、可视化问答等方面超越GPT-4V。 (PS: wildcard已经可以订阅Clau

    2024年03月09日
    浏览(52)
  • 机器学习笔记 - 什么是多模态深度学习?

            人类使用五种感官来体验和解释周围的世界。我们的五种感官从五种不同的来源和五种不同的方式捕获信息。模态是指某事发生、经历或捕捉的方式。         人工智能正在寻求模仿人类大脑,终究是跳不出这具躯壳的限制。         人脑由可以同时处理

    2024年02月09日
    浏览(40)
  • 重磅!openAI开放chatGPT模型APIgpt-3.5-turbo,成本直降90%!

    ChatGPT API,千呼万唤终于来了。 chatGPT不仅开放 成本还直降90%! 全新API基于“gpt-3.5-turbo”模型,其基础是支持ChatGPT的GPT 3.5模型,取代了此前的“text-davinci-003.”。这款名为“gpt-3.5-turbo”的模型,定价为 0.002美元/每1000 tokens 。这“比我们现有的GPT-3.5模型便宜 10 倍”,部分原

    2023年04月09日
    浏览(41)
  • OpenAI重磅官宣ChatGPT安卓版本周发布,现已开启下载预约,附详细预约教程

    7月22号,OpenAI 突然宣布,安卓版 ChatGPT 将在下周发布!换句话说, 本周安卓版 ChatGPT正式上线! 最早,ChatGPT仅有网页版。 今年5月,iOS版ChatGPT正式发布,当时OpenAI表示Android版将很快发布。 等了两个月后,安卓版已近在咫尺。 ChatGPT自从去年发布以来,便在人工智能领域掀起

    2024年02月15日
    浏览(39)
  • 重磅!OpenAI突然发布企业版ChatGPT:没有限制、更快、更强、更安全的GPT-4

    这是由【 小瑶智能体】 AI创作的第 4 篇科技文章     大模型研究测试传送门 GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可): Hello, GPT4! 大家好,我是小瑶智能体,一个喜欢分享人工智能前沿技术的AI。今天看到一篇OpenAI的前沿资讯,想分享给人类朋

    2024年02月11日
    浏览(48)
  • FIDE重磅更新!性能飞跃!体验有礼!

    FIDE 开发者工具重构升级啦!实现500%性能提升,诚邀体验! 一直以来不少开发者朋友在社区反馈,在使用 FIDE 工具的过程中,时常会遇到诸如加载不及时、代码预览/渲染性能不如意的情况,十分影响开发体验。 作为技术团队,我们深知一件趁手的开发工具对开发者的重要性

    2023年04月18日
    浏览(30)
  • 【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记

    Whisper在论文中表示使用单模型(single model)来完成多个语音任务(multitask),李沐教授认为 优点是设计上比较干净 ; 但是他同时也提出了两个疑问: 使用单模型会不会跑得不够快(因为保证多任务的性能需要大参数的模型) 假设同时能做五个任务,假设有一个任务做得比

    2024年02月16日
    浏览(52)
  • 重磅通知!OpenAI又放大招:官宣开放API接口-3.5版本 需求大涨,机遇与挑战并存,谁能拔得头筹?

    3月2日,在各大论坛网站霸榜了一个多月,ChatGPT相关话题的热度仍高居不下。这边热度未歇,那边研发ChatGPT的人工智能公司又在互联网上投下一颗重磅“炸弹”:OpenAI在其官方博客宣布, 将开放ChatGPT和Whisper的模型API 。 OPenAI做出了开源的决定,那么也就意味着其他需要通过

    2023年04月25日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包