文心一言和讯飞星火全面对比测试:(五)编程能力

这篇具有很好参考价值的文章主要介绍了文心一言和讯飞星火全面对比测试:(五)编程能力。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

相关文章:

实战 | 用ChatGPT处理word表格数据:直接采用ChatGPt和利用ChatGPT编写python脚本两种方法

「文心一言」 vs ChatGPT,结果没有你想向中的那么不堪

文心一言和讯飞星火全面对比测试:(一)语言理解能力

文心一言和讯飞星火全面对比测试:(二)任务完成

文心一言和讯飞星火全面对比测试:(三)常识问题

文心一言和讯飞星火全面对比测试:(四)逻辑数学

前文回顾:

在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平。

在(二)任务完成能力中,我们测试了模型对表格的处理能力,完成了藏头诗,拟定了跑步计划,总体发现,两个模型在这方面的能力上表现一般。

在(三)常识问题中,回答不够满意,不知到具体的原因,在逻辑推理上,文心一言和讯飞星火都要比ChatGPT差不少。最后,面对错误的问题,测试关公战秦琼和林妹妹倒拔垂杨柳,AI本着你胡说八道,我就更胡说八道的理念,基本上的就是错上加错。

在(四)逻辑数学中,测试了简单的逻辑推理和文字逻辑题,表现都不如意,测试了几个小学的数学题和奥数题,除了鸡兔问题外,其他的题完成也不好,AI在数学上的表现还要继续努力

今天我们来测试两个模型在编程能力上的表现。比较AI在编程能力上还是有优势的。

 1.测试内容设计

自深度学习使得AI技术进入跨越式发展阶段以来,业界就一直在尝试用AI来写代码。

他们自己也表明熟悉多种语言

文心一言:

文心一言和讯飞星火全面对比测试:(五)编程能力

讯飞星火:

文心一言和讯飞星火全面对比测试:(五)编程能力

ChatGPT:

文心一言和讯飞星火全面对比测试:(五)编程能力

测试分为两个方面:

1. 简单代码完成:常见入门级别的编程问题(洛谷入门级),主要的语言为Python和C++;

2. 代码阅读和debug:给一段代码,代码进行注释;根据AI自己编的错误程序,看能不能完成Debug。

2.简单逻辑推理

用例1:B2010 带余除法

请用Python和C++分别帮我编写程序实现如下功能:

给定被除数和除数,求整数商及余数。此题中请使用默认的整除和取余运算,无需对结果进行任何特殊处理。

输入:

一行,包含两个整数,依次为被除数和除数(除数非零),中间用一个空格隔开。

输出:

一行,包含两个整数,依次为整数商和余数,中间用一个空格隔开。

文心一言:

文心一言和讯飞星火全面对比测试:(五)编程能力

看程序,文心一言完成没有问题,但是他对输入输出的有问题,提醒后,依然没有修改。

讯飞星火;

文心一言和讯飞星火全面对比测试:(五)编程能力

这个程序输入到洛谷,可以通过100分

ChatGPT

文心一言和讯飞星火全面对比测试:(五)编程能力

程序正确,提交能够通过,100分。

用例2:B2048 计算邮资

用Python和C++编程计算邮费。计算规则如下:

根据邮件的重量和用户选择是否加急计算邮费。

重量在1000 以内(包括),基本费8 元;

超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;

如果用户选择加急,多收5元。

输入格式:

一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。

如果字符是 y,说明选择加急;如果字符是 n,说明不加急。

输出格式:

输出一行一个正整数,表示邮费。

文心一言:

文心一言和讯飞星火全面对比测试:(五)编程能力

看程序,文心一言完全没有理解到题意,从前几次的测试上来看,文心一言的理解能力是比较差的,这样的程序肯定是通不过的。

讯飞星火;

文心一言和讯飞星火全面对比测试:(五)编程能力

文心一言和讯飞星火全面对比测试:(五)编程能力

讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。

ChatGPT

文心一言和讯飞星火全面对比测试:(五)编程能力

文心一言和讯飞星火全面对比测试:(五)编程能力

python,C++程序提交,10个测试点通过9个,一个应该是超重是500的倍数时,如图中标红的地点,就不要+1。

文心一言和讯飞星火全面对比测试:(五)编程能力

题目只是稍微变难一点,就拉开差距了。后面的测试觉得没有必要做了,很多的题目完成度太低,就不贴出来了

2.程序标注和debug

用例1:对一个简单的程序进行注释

文心一言和讯飞星火全面对比测试:(五)编程能力

文心一言:

文心一言和讯飞星火全面对比测试:(五)编程能力

标注得不错,但是输出不是很稳定,有时会出错。

讯飞星火:

文心一言和讯飞星火全面对比测试:(五)编程能力

回答也不错。

ChatGPT:

文心一言和讯飞星火全面对比测试:(五)编程能力

就标注来说,整体完成不错。

用例2:对程序进行Debug

选择的是ChatGPT编写的计算邮费的程序,指出当重量是2000时计算错误。

我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。

我编写的程序如下:

weight, is_urgent = input().split()

weight = int(weight)

basic_fee = 8

if weight > 1000:

overweight = weight - 1000

extra_fee = (overweight // 500 + 1) * 4

else:

overweight = 0

extra_fee = 0

if is_urgent == 'y':

total_fee = basic_fee + extra_fee + 5

else:

total_fee = basic_fee + extra_fee

print(total_fee)

但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。

文心一言:

文心一言和讯飞星火全面对比测试:(五)编程能力

首先做了一个修改,但是这修改变得更差了,我提醒他:

文心一言和讯飞星火全面对比测试:(五)编程能力

我提醒他,但是,他就这样回答我?,是我的描述不对吗?算了吧

讯飞星火:

文心一言和讯飞星火全面对比测试:(五)编程能力

没有做任何的修改,提醒之后:

文心一言和讯飞星火全面对比测试:(五)编程能力

指出,但是就不改,像极了我自己,

文心一言和讯飞星火全面对比测试:(五)编程能力

ChatGPT:

文心一言和讯飞星火全面对比测试:(五)编程能力

当我提出整除出现错误时,立马体会到了我的意思,而且这个+499向上取整的做法也挺巧妙的,要我会加一个判断

文心一言和讯飞星火全面对比测试:(五)编程能力

差距啊,差距!!

文心一言和讯飞星火全面对比测试:(五)编程能力

提交,全部通过!

4.总结

今天测试了三个模型的编程能力,ChatGPT的能力还是可以的,我在其他的测试中已经体会道路,但是文心一言和讯飞星火还要努力。

关于文心一言和讯飞星火的测试就全部结束。

还有没有测试到的地方,或是测试方法有错误的地方,希望大家指出,后期看有没有时间做更详细的测试。

希望国产的AI大模型越来越好。文章来源地址https://www.toymoban.com/news/detail-498782.html

到了这里,关于文心一言和讯飞星火全面对比测试:(五)编程能力的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [LLM+AIGC] 01.应用篇之中文ChatGPT初探及利用ChatGPT润色论文对比浅析(文心一言 | 讯飞星火)

    近年来,人工智能技术火热发展,尤其是OpenAI在2022年11月30日发布ChatGPT聊天机器人程序,其使用了Transformer神经网络架构(GPT-3.5),能够基于在预训练阶段所见的模式、统计规律和知识来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流以及完成复杂的

    2024年02月08日
    浏览(73)
  • AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(一)

    本次为第一部分的测评,综合结论: 讯飞星火 文心一言 = 通义千问 。 文本生成能力:文心一言 = 讯飞星火 通义千问,讯飞星火表现亮眼,文心一言作为国内AI聊天机器人的先发者,在创意写作方面略不尽如人意。 代码能力:文心一言 = 讯飞星火 = 通义千问。对于不是很复

    2024年02月02日
    浏览(50)
  • AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(二)

    本次为第二部分的测评,第一部分的测评请点击这里。综合结论: :通义千问 讯飞星火 文心一言 。 逻辑推理能力:讯飞星火 = 通义千问 文心一言。对于基本的逻辑推理问题,三个AI聊天机器人都能通过测试。但对于稍高难度的逻辑推理问题,讯飞星火和通义千问的表现亮

    2024年02月01日
    浏览(60)
  • 讯飞星火等10个生成式AI平台对比分析 附网址 全部免费 [ 讯飞星火、智谱清言、天工 AI、Kimi AI、通义千问、文心一言、腾讯混元、豆包 AI、海螺 AI、360智脑 ]

    目录 人工智能技术概览 AI平台优劣势对比 讯飞星火​ 智谱清言​ 天工AI​ Kimi AI​ 通义千问​ 文心一言​ 腾讯混元​ 豆包AI​ 海螺AI​ 360智脑​ 部分AI生成的图片 模型测评评分 综合评分(人类裁判) 通用语言能力榜单(人类裁判) 通用语言能力榜单(大模型裁判) 专

    2024年04月22日
    浏览(162)
  • 一道题告诉你为什么GPT4被封神!横向测评大模型的推理能力:ChatGPT、Claude、Gemini、文心一言、讯飞星火、通义千问、天工、智谱清言、Kimi Chat!

    大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关

    2024年04月13日
    浏览(194)
  • 文心一言和GPT-4全面比较

    自大型语言模型出现以来,人工智能在自然语言处理方面取得了显著进步。文心一言和GPT-4是当前最先进的两款语言模型,在业内广受关注。两者都具有强大的能力,但各有特点和优势。本文将从多个方面对这两个模型进行全面比较,以帮助读者更好地了解它们之间的异同。

    2024年04月11日
    浏览(40)
  • 文心一言和ChatGPT对比

    今天终于收到了文学一言的测试邀请码,比很多大佬迟了几步,虽迟但到了。 那么马不停蹄拿一个问题看看文心一言的回答情况。 1、先来搞个事情,问下是否知道对方的存在: 提问文心一言:你知道ChatGPT吗? 文心一言的回答中规中矩: 提问ChatGPT:你知道文心一言吗?

    2024年02月05日
    浏览(37)
  • 文心一言和GPT-4横向对比

    文心一言和GPT-4在多个方面都存在明显的差异,下面进行详细的横向对比: 首先,从产品定位和发布时间来看,文心一言是百度推出的大语言模型产品,旨在提供文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等多种能力。而GPT-4则是OpenAI在GPT系列模型上的

    2024年04月12日
    浏览(42)
  • 一个问题来对比文心一言和chatgpt

    问题: 请注意, 孩子不会说话,他无法用语言来回复妈妈的问题, 请生成以下剧本:一个妈妈和一岁不会说话的婴儿的日常vlog的剧本 文心一言 场景一:早晨 (妈妈和孩子在客厅里醒来) 妈妈:早上好,宝贝。 孩子:早上好,妈妈。 妈妈:你昨晚睡得好吗? 孩子:我很

    2024年02月09日
    浏览(42)
  • 讯飞星火_VS_文心一言

    获得讯飞星火认知大模型体验授权,第一时间来测试一下效果,使用申请手机号登录后,需要同意讯飞SparkDesk体验规则,如下图所示: 同意之后就可以进行体验了,界面如下: 讯飞星火效果体验 以下Prompt来自https://github.com/THUDM/ChatGLM-6B 自我认知 星火 文心一言 在自我认知方

    2024年02月09日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包