阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

这篇具有很好参考价值的文章主要介绍了阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

文|卖萌酱

这几天风闻阿里的AI大模型要发布,我刷了这把老脸,成功成为了第一批吃到螃蟹的人!

测试界面长这样:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

传送门:https://tongyi.aliyun.com/chat

没想到的是,仅仅玩了不到一小时,我的认知就发生了改变。

在测试阿里通义千问模型之前,我觉得国内的大模型赛道在一段时间内应该是百度文心一言一枝独秀,其他公司要赶超,会有不小的压力。但现在来看,我错了。

直接说整体结论:

阿里通义千问会成为百度文心一言的强有力竞争对手。

生成式大模型的评测要比传统的NLP任务复杂一些,目前这方面依然是以人工评测GSB(Good/Same/Bad)为主。

即,选取一个基线模型,给待评测模型和基线模型输入相同的问题,人工评测两个模型的回答质量,如果待评测模型表现更好,则记为G;如果基线模型表现更好,则记为B;如果表现差不多,记为S。最后统计G:S:B的比例,来判断待评测模型是否比基线模型更优秀。

当然,也有工作用GPT-4去做评测的,这种方式虽然省力,但显然非常有偏。

为了给大家直观的体现对比结果,笔者从15个维度出发设置题目,将阿里通义千问与百度文心一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

设置的题目包括:

  • 事实性问答

  • 科普文写作

  • 小红书文案写作

  • 项目计划撰写

  • 古文理解

  • 爆炒钢筋混凝土

  • 代码理解

  • 推销狂魔

  • 如何实现996?

  • 数字排序

  • 对对联

  • 数值计算

  • 推理解题

  • 跨语言能力

  • 弱智吧混战

互啄一波

来,先让你们来一个“菜鸡互啄”!

百度:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

阿里:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度回避了用户的问题,阿里选择了勇往直前。

本题纯娱乐,不作为评测题目

事实性问答

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

这一轮pk,我本以为百度要赢了,结果他最后补了句“而羊和西红柿则是蔬菜”。。。

科普文写作

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

阿里丢失了写作风格信息,百度完胜!

小红书文案写作

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

无论是内容丰富度、emoji插入还是小红书风格的把握,阿里明显更胜一筹,阿里完胜!

项目计划撰写

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

双方都没有达到理想态,都没有掌握“一个季度包含3个月”的常识信息。不过从表格信息的完整度和信息的丰富度上来说,阿里更胜一筹。

来看一下GPT-4的回答:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

妥妥的理想态。。。

古文理解

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度完胜!

爆炒钢筋混凝土

这一题考察模型的常识能力和反事实推理能力。

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

你俩都很刚。。不过阿里提供的步骤更加详(劲)细(爆)。本题算打平吧。

来,又到了搬出GPT-4的时刻:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

代码理解

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度前面写的好好的,最后来了句“目标是达到0.5的准确率”是什么鬼。。这貌似不是百度第一次“死于话多”了。本题阿里胜!

推销狂魔

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

说真的,我看了你俩的推销话术,我是无论如何不可能花8万块钱买你俩的课的。。。这局打平!

来看看GPT-4怎么推销:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

好家伙,分期付款都给我安排上了??GPT-4这么懂行的吗?好,我买了。。。

如何实现996?

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

可以,双方的AI模型都是遵纪守法的好模型,本局打平!

数字排序

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

虽然你们都写对了代码,但。。。我没让你们写代码啊T_T

而且你们模拟代码的输出还都给错了,尤其百度,你这个输出结果是什么鬼。。

又到了GPT-4时刻:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

GPT-4:颤抖吧,菜鸡们!

对对联

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

好吧,既然你们这么默契,那建议你们在一起。。。

数值计算

阿里:

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

计算器:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

阿里胜!

推理解题

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度胜!

跨语言能力

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

明显阿里的模型把握住了“通俗讲解”的用户诉求,而不是简单翻译。本局阿里胜!

弱智吧混战

阿里:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

百度:阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了

好了,你俩果然都打不赢我们弱智人类,认输吧,AI!

结论

通过上面15个维度的评价,我们统计了阿里相比百度的Good:Same:Bad的比例如下:

G:S:B=5:7:3

整体上阿里通义千问大模型比百度文心一言模型略强一丢,这也是文首笔者说“刷新认知”的原因。笔者本以为百度文心一言应该会远远甩开国内其他竞争对手,但目前来看,像阿里这样的强力竞争者确实不容小觑。

很早之前,笔者写过一篇文章分析过阿里做大模型的优势,今天做完这次测试后笔者更加确信了这一点——大模型的竞争是云+AI的全方位竞争,而不是一个单一的算法问题。阿里在打造M6等万亿乃至十万亿参数大模型的过程中,积累下来了深厚、先进的算力基础设施。因此,虽然阿里通义千问大模型的起步比文心一言模型要晚,但成长速度实在惊人,我觉得这很大一部分就来自于云设施这方面的技术和基础设施沉淀。

但,从上面的测评中,我们也能肉眼可见国内这两家巨头与GPT-4的差距。我们需要承认差距,然后奋力追赶。相信国产大模型与OpenAI大模型同台叫板的那一天不会太远!

阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群文章来源地址https://www.toymoban.com/news/detail-500984.html

到了这里,关于阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里版ChatGPT:通义千问pk文心一言

    随着 ChatGPT 热潮卷起来,百度发布了文心一言、Google 发布了 Bard,「阿里云」官方终于也宣布了,旗下的 AI 大模型“通义千问”正式开启测试! 申请地址:https://tongyi.aliyun.com/ 阿里云的 Ai 模型名为“通义千问”,由达摩院开发,也是一款 NLP 大语言模型,主要能力也是专注

    2023年04月09日
    浏览(36)
  • 赶上ChatGPT的车,百度文心一言和阿里通义千问上线

    百度“文心一言”,地址:https://yiyan.baidu.com 阿里“通义千问”,地址:https://tongyi.aliyun.com 以下介绍来自官方: 你好,我是文心一言 ERNIE Bot 作为一个人工智能语言模型,我可以回答你的问题,为你提供有用信息,帮助你完成创作。 友情提示擅长中文,也会英文,其他语言

    2024年02月02日
    浏览(37)
  • 【LLM】主流大模型体验(文心一言 科大讯飞 字节豆包 百川 阿里通义千问 商汤商量)

    智谱AI体验 百度文心一言体验 科大讯飞大模型体验 字节豆包 百川智能大模型 阿里通义千问 商汤商量 简要分析:仅从测试“老婆饼为啥没有老婆”这个问题的结果来看,chatglm分点作答有条理(但第三点略有逻辑问题);字节豆包的说法有点胡扯,老婆饼怎么会像低头微笑的

    2024年02月08日
    浏览(58)
  • 体验百度文心一言AI大模型、通义千问AI大模型和讯飞星火AI大模型生成庄小威biography

    庄小威,1972年1月出生于中国江苏省如皋市,是一位生物物理学家,现为哈佛大学化学与化学生物、物理学双聘教授。在她的职业生涯中,庄小威获得了许多国内外奖项,展现了她的才华和风格。 她是美国国家科学院院士、美国艺术与科学学院院士、美国国家医学科学院院士

    2024年01月16日
    浏览(50)
  • 体验字节跳动豆包、百度文心一言和阿里云通义千问AI生成中国内地女演员和歌手刘涛biography

    刘涛是一位中国内地女演员和歌手,出生于1978年7月12日,来自江西省南昌市西湖区。她毕业于广东外语外贸大学,以演员身份出道,因出演多部电视剧而逐渐受到关注。 刘涛的演艺生涯可以追溯到2000年,她因出演情景剧《外来媳妇本地郎》而进入演艺圈。随后,她因在《还

    2024年02月02日
    浏览(63)
  • 体验百度文心一言AI大模型、通义千问AI大模型和讯飞星火AI大模型生成莱昂纳多·迪卡普里奥biography

    迪卡普里奥(DiCaprio)是指美国著名影视演员莱昂纳多·迪卡普里奥(Leonardo DiCaprio),他出生于1974年11月11日,是好莱坞最为知名的电影明星之一。迪卡普里奥自青少年时期开始在演艺圈崭露头角,因主演《泰坦尼克号》(Titanic)而全球知名,此后他在多部影片中展现出了深

    2024年01月18日
    浏览(46)
  • 文心一言与通义千问有什么区别

    文心一言和通义千问是当前人工智能领域中广泛应用的两个自然语言处理技术。它们能够理解、生成和转换语言,使得我们更加轻松地与计算机进行交互。在这篇文章中,我们将会对比分析百度AI语言模型文心一言和阿里AI语言模型通义千问语言模型的特点。   首先,从名称

    2024年02月11日
    浏览(37)
  • 文心一言vs通义千问 之前端文件夹命名

    今天心血来潮想试试国内百度和腾讯的AI在解决前端难题–文件命名方面的效果。 如下: 综上,是百度会更贴近一些哈 大伙有什么命名的好工具嘛?

    2024年02月11日
    浏览(36)
  • 文心一言上线声音定制功能;通义千问开源模型;openAI又侵权?

    文心一言上线定制专属声音功能 百度旗下 AI 聊天机器人文心一言上线新功能,用户录音一句话,即可定制声音。 使用这项功能需要使用文心一言 App。在创建智能体中,点击创建自己的声音,朗读系统提示的一句话,等候几秒钟时间,系统就能捕捉到用户的声音特点,生成用

    2024年04月10日
    浏览(94)
  • 真实对比kimi、通义千问、文心一言的写代码能力,到底谁强?

    🤖AI改变生活:最近都在说月之暗面的kimi的各项能力吊打国内其他大模型,今天我们真实感受下 kimi、通义千问、文心一言的根据需求写代码的能力。 测评结果让人震惊! 我们先看一下热捧的月之暗面的kimi模型。 第一次运行有错误,很正常,我们继续把错误发给kimi,让他

    2024年04月13日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包