2023-06-09 10:11:32 西盟科技资讯
过去两天,高考成为了社会各界广泛关注的话题,但与往年相比,由于今年AI大模型风靡全球,使得高考试卷也成为了检测AI大模型“智商”的试金石。对于人类而言,IQ越高的人大多数学越强,这是因为数学考验的是一个人的理解和推理能力,甚至很多检测IQ的题目就是数学题,对于大模型也是如此,数学能力高低也能反映一个大模型是否“聪明”。
那么这次的高考数学题能否难倒AI大模型呢?根据搜狐科技、量子位等权威科技媒体对ChatGPT、讯飞星火、文心一言、通义千问、360智脑等主流AI大模型的横向评测,讯飞星火居然力压群雄,成为了解题正确率最高、“最聪明”的AI大模型。
先来看下搜狐科技的测试方法,他们选择了2023年高考数学试卷的前10道填空题,让五款AI大模型轮番进行回答。仔细看这10道填空题,既包括了不等式解方程解,圆形方程解和三角形方程解,还包括了GDP逐季度递增的解法,非常全面地考验了人类的数学计算能力,而“智力超群”的AI大模型面对高考数学题会怎样?
根据搜狐科技得出的结论,讯飞星火答对了5道题,正确率为50%;ChatGPT和文心一言答对了4道题,正确率为40%;其他两个大模型一道题都没答对,等同于交了“白卷”。
接下来我们再来看量子位对五款大模型的测试,他们去掉了360智脑,但新增了公认最强的GPT-4。在 “已知函数 f ( x ) = cos ω x -1 (ω>0 ) 在区间 [0,2 π] 有且仅有3个零点 , 则ω的取值范围是?”这道题的求解中,GPT-4给出了ω的取值范围是(0,1/2]U{1}的错误答案。随后其余的大模型也可谓是“全军覆没”,它们都给出了错误的答案。
唯独只有讯飞星火给出了正确的答案。量子位的测试编辑心情悲喜交加地表示道:“本已经抱着再一次全军覆没的心情了,没想到中文大模型(讯飞星火)力挽狂澜!”
后来在三角函数题中,讯飞星火第一小问答案对了,但是步骤中出现了偏差,这说明讯飞星火在数学能力上还有改进空间。估计在6月9日科大讯飞发布星火V1.5之后,这种数学计算的小bug会得以修复。
最终量子位同样制作了一张横评汇总表,结果显示GPT-4在排列组合、立体几何和三角函数三道天空题中只有一道答对,在三角函数解答题中回答错误。而讯飞星火同样答对了一道填空题,但在三角函数解答题中答对了一问。而其余大模型完全就是“陪跑”,没有答对任何一道数学题。
讯飞星火数学能力一直是其优势之一,据悉,6月9日讯飞星火迎来V1.5迭代,不仅会在数学能力方面再上新台阶,还会在开放式问答、多轮对话方面明显升级,并在文本生成、语言理解和逻辑推理能力上持续提升。按照科大讯飞公布的三轮迭代时间表,看来星火将在10月24日实现中文超越ChatGPT、英文旗鼓相当的目标应该可以踏踏实实地一步一个脚印地抵达!