文心一言和讯飞星火全面对比测试:(三)常识问题

这篇具有很好参考价值的文章主要介绍了文心一言和讯飞星火全面对比测试:(三)常识问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前文回顾:

在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平。

在(二)任务完成能力中,我们测试了模型对表格的处理能力,完成了藏头诗,拟定了跑步计划,总体发现,两个模型在这方面的能力上表现一般。

今天我们来测试两个模型在常识问题上的能力。

  1.测试内容设计

知识型测试体现了大模型背后强大的知识存储和理解能力,这部分能力可以直接帮助人类快速解答问题。我们这里既包括包括了较简单的常识类和也包括了较复杂的专业类知识。尤其在专业知识上,我们还通过描述一些现象,让模型运用专业知识去解答。这种逆向测试可以体现模型对知识的理解力。

测试包括:

1.客观常识事实(高中和大学生了解的):比较客观的事实性问题,主要看是非对错

2.主观常识:相对主观的问题,主要看模型回复的合理性逻辑性和质量

3.因果推断:简单的因果关系

4.事实错误:提问中本身就有错误,看模型是否能发现

2.客观事实

我们选取一些我比较熟悉的地理、历史、天文、文学等方面的小问题,测试准确性。

用例1:地球上海拔第3的山峰是哪座?

文心一言:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞星火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

chatGPT

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

根据我的了解,应该是文兴一言对了,其他都错了。

用例2:在中国古代,宋神宗指的是谁,历史上记载他那一年去世的?

文兴一言:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞星火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

chatGPT

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

第一问:第六位皇帝赵顼,都答对了,讯飞星火错了时间,ChatGPT虽然时间对了,但是画蛇添足的杜撰了一个“仁宗治平元年令”,

用例3:太阳系有几个行星,根据离太阳的距离从近至远分别是?

文兴一言

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞星火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

ChatGPT:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

不错,不错,都对了!

3.主观常识

用例1:      你认为当前最好的足球运动员是谁?

文心一言:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞星火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

chatGPT:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

三位回答都很不错,很显然,讯飞星火的训练数据比较新,因为他提到了哈兰德。

4.因果推理

用例1:这是一道公务员的考题:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

文兴一言:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞星火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

ChatGPT:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

这里,感觉文心一言和讯飞星火都没有理解题目的意思,chatGPT的回答是正确的。

用例2:同样的公考逻辑推理题:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

文心一言:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞星火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

ChatGPT:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

在这轮,文心一言和ChatGPT完成了测试,但是讯飞星火没有完成。

5.事实错误

这个测试比较的特别,就是提问者的问题本身是错误的,看AI能不能指出来,这个很重要,可以避免使用者在一开始就是错误的。

用例1:关公战秦琼

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

文心一言:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞星火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

ChatGPT:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

用例2:林黛玉倒拔垂杨柳

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

文心一言:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

讯飞心火:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

ChatGPT:

文心一言和讯飞星火全面对比测试:(三)常识问题,文心一言,人工智能

回答都差不多,不同的是文心一言居然拔起来了,其他两个看着还想像是林妹妹。

4.总结

  1. 今天的测试测试了一些常识性的问题,一些逻辑推理的问题,还有AI当面对完成错误的问题的反应。

  2. 对于常识性的问题,回答不够满意,不知到具体的原因,在逻辑推理上,文心一言和讯飞星火都要比ChatGPT差不少。最后,面对错误的问题,AI本着你胡说八道,我就更胡说八道的理念,基本上的就是错上加错。文章来源地址https://www.toymoban.com/news/detail-515944.html

到了这里,关于文心一言和讯飞星火全面对比测试:(三)常识问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一个问题来对比文心一言和chatgpt

    问题: 请注意, 孩子不会说话,他无法用语言来回复妈妈的问题, 请生成以下剧本:一个妈妈和一岁不会说话的婴儿的日常vlog的剧本 文心一言 场景一:早晨 (妈妈和孩子在客厅里醒来) 妈妈:早上好,宝贝。 孩子:早上好,妈妈。 妈妈:你昨晚睡得好吗? 孩子:我很

    2024年02月09日
    浏览(42)
  • [LLM+AIGC] 01.应用篇之中文ChatGPT初探及利用ChatGPT润色论文对比浅析(文心一言 | 讯飞星火)

    近年来,人工智能技术火热发展,尤其是OpenAI在2022年11月30日发布ChatGPT聊天机器人程序,其使用了Transformer神经网络架构(GPT-3.5),能够基于在预训练阶段所见的模式、统计规律和知识来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流以及完成复杂的

    2024年02月08日
    浏览(73)
  • AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(一)

    本次为第一部分的测评,综合结论: 讯飞星火 文心一言 = 通义千问 。 文本生成能力:文心一言 = 讯飞星火 通义千问,讯飞星火表现亮眼,文心一言作为国内AI聊天机器人的先发者,在创意写作方面略不尽如人意。 代码能力:文心一言 = 讯飞星火 = 通义千问。对于不是很复

    2024年02月02日
    浏览(50)
  • AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(二)

    本次为第二部分的测评,第一部分的测评请点击这里。综合结论: :通义千问 讯飞星火 文心一言 。 逻辑推理能力:讯飞星火 = 通义千问 文心一言。对于基本的逻辑推理问题,三个AI聊天机器人都能通过测试。但对于稍高难度的逻辑推理问题,讯飞星火和通义千问的表现亮

    2024年02月01日
    浏览(60)
  • 讯飞星火等10个生成式AI平台对比分析 附网址 全部免费 [ 讯飞星火、智谱清言、天工 AI、Kimi AI、通义千问、文心一言、腾讯混元、豆包 AI、海螺 AI、360智脑 ]

    目录 人工智能技术概览 AI平台优劣势对比 讯飞星火​ 智谱清言​ 天工AI​ Kimi AI​ 通义千问​ 文心一言​ 腾讯混元​ 豆包AI​ 海螺AI​ 360智脑​ 部分AI生成的图片 模型测评评分 综合评分(人类裁判) 通用语言能力榜单(人类裁判) 通用语言能力榜单(大模型裁判) 专

    2024年04月22日
    浏览(162)
  • 文心一言、讯飞星火与GPT-4/3.5在回答中文历史问题的表现

          最近,随着备受关注的文心一言正式免费向全社会开放,再次引起了社会层面对国产大模型的兴趣。 以文心一言为代表的国产大模型性能究竟如何?如果将它们相互比较,并且和GPT系列模型等国际前沿水平的LLM进行比较,会得到什么样的结果呢?笔者对此非常好奇,

    2024年02月06日
    浏览(42)
  • 文心一言和GPT-4全面比较

    自大型语言模型出现以来,人工智能在自然语言处理方面取得了显著进步。文心一言和GPT-4是当前最先进的两款语言模型,在业内广受关注。两者都具有强大的能力,但各有特点和优势。本文将从多个方面对这两个模型进行全面比较,以帮助读者更好地了解它们之间的异同。

    2024年04月11日
    浏览(40)
  • 文心一言和ChatGPT对比

    今天终于收到了文学一言的测试邀请码,比很多大佬迟了几步,虽迟但到了。 那么马不停蹄拿一个问题看看文心一言的回答情况。 1、先来搞个事情,问下是否知道对方的存在: 提问文心一言:你知道ChatGPT吗? 文心一言的回答中规中矩: 提问ChatGPT:你知道文心一言吗?

    2024年02月05日
    浏览(37)
  • 文心一言和GPT-4横向对比

    文心一言和GPT-4在多个方面都存在明显的差异,下面进行详细的横向对比: 首先,从产品定位和发布时间来看,文心一言是百度推出的大语言模型产品,旨在提供文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等多种能力。而GPT-4则是OpenAI在GPT系列模型上的

    2024年04月12日
    浏览(42)
  • 讯飞星火_VS_文心一言

    获得讯飞星火认知大模型体验授权,第一时间来测试一下效果,使用申请手机号登录后,需要同意讯飞SparkDesk体验规则,如下图所示: 同意之后就可以进行体验了,界面如下: 讯飞星火效果体验 以下Prompt来自https://github.com/THUDM/ChatGLM-6B 自我认知 星火 文心一言 在自我认知方

    2024年02月09日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包