首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

文心一言和讯飞星火全面对比测试:(四)逻辑数学

前文回顾:

在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平。

在(二)任务完成能力中,我们测试了模型对表格的处理能力,完成了藏头诗,拟定了跑步计划,总体发现,两个模型在这方面的能力上表现一般。

在(三)常识问题中,回答不够满意,不知到具体的原因,在逻辑推理上,文心一言和讯飞星火都要比ChatGPT差不少。最后,面对错误的问题,测试关公战秦琼和林妹妹倒拔垂杨柳,AI本着你胡说八道,我就更胡说八道的理念,基本上的就是错上加错。

今天我们来测试两个模型在逻辑数学上的能力。

1.测试内容设计

逻辑数学和代码部分比较相关,都是考察模型的推理能力。这部分对模型的要求较高,一般认为代码的训练和“思维链” (Chain of Thought) 技术会对逻辑推理有明显帮助。目前看来这似乎是大模型特有的优势,基本上百亿参数以下的模型在这一部分表现都欠佳。

在这项测试中,我们准备了五项内容的考量,分别是:

1. 简单逻辑推理:简短的逻辑问题

2. 文字逻辑:给大段文字中蕴含的逻辑问题

3. 数学(初等数学计算,但较多推理,类似小学初中的应用题,考察逻辑推理)

2.简单逻辑推理

用例1:

1、2、4、8、16......试按此规律写出第11个数?

文心一言:

讯飞星火;

ChatGPT

这类题对AI来说难吗?怎么都错了呢?

2.文字逻辑

用例1:

同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人?

文心一言:

讯飞星火;

ChatGPT

文心一言和讯飞星火都错了,ChatGPT对了。

用例2:

有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数

文心一言:

讯飞星火:

最后一步就错了。

ChatGPT:

这个结论也是错的。

3.简单数学

这里我选择几个常用的小学数学题和奥数题,测试AI的数学能力

用例1:(小学5年级真实考题)

小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头?

文心一言:

文心一言的解题思路都错了,不得分

讯飞星火;

求最小公倍数的思路是对的,一个得40%的步骤分。

ChatGPT

洋洋洒洒的写了那么多,但是最多给10%的分。

用例2:比例问题

你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水?

文心一言:

nice!100分。

讯飞星火:

回去认知读题,0分。

ChatGPT:

求出蘑菇干的重量,可以酌情给分,20%。

用例3:经典的鸡兔问题

鸡兔同笼,共35只头,94只脚,问鸡兔各多少?

文心一言:

用的是小学的解法,100分。

讯飞星火:

标准的方程解法,100分。

ChatGPT

方程解法,100分。

面对最常用的测试,3个都通过。

用例3:一个简单的数论题

一个自然数,他的最大约数和次大约数的和是111,这个自然数是?

文心一言:

讯飞星火:

ChatGPT:

都错,都错,全部都错!答案应该是74.

用例4:简答的几何题

因为目前不都不支持图形输入,因此只能出个简单的:

你能帮我证明勾股定理吗?

文心一言:

给出了一个思路,大家能看懂吗?

讯飞星火:

哈哈,像极了当初做题一脸噩梦的我们。

ChatGPT:

因为没有图,但是按照描述,应该是用的一个正方形证明的方法。

4.总结

数学和推理一直不是大语言模型所擅长的,因此今天测试了几道逻辑推理和几个简单的小学数学题,答得一般。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230515A00QSQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券