首页 > 技术

讯飞星火深度推理大模型X1升级版来了!数学能力和DeepSeek R1谁强?

2025-03-07 17:59:41      中华网   


  3月3日,科大讯飞发布了深度推理大模型星火X1(以下简称星火X1)再升级,在模型参数量比业界同行少一个数量级的情况下,数学能力全面对标DeepSeek R1和OpenAI o1,在中文数学各项任务中均实现领先,同时联合华为重磅升级星火一体机,融合讯飞星火与DeepSeek双引擎能力。

  同样是国内当前最强,也是最受关注的两款深度推理大模型,星火X1和DeepSeek R1的数学能力究竟谁强谁弱?今天我们做一个简单PK。试题类型包括初、高应用题、推理题及奥数等,共5题,每题20分,满分100,最后以得分多者为胜。

  这里之所以没有将深度推理大模型引以自豪的类人思考过程纳入计分项,是因为深度大模型是否正确思考,将直接影响答题结果,无需画蛇添足,再单评测。

  题目1:假设有一个池塘,里面有无穷多的水。现有2个空水壶,容积分别为5升和6升。如何只用这2个水壶从池塘里取得3升的水。

  星火X1给出的答案:

  DeepSeek给出的答案:

  两大模型都给出了正确答案,但相比之下,讯飞星火的解题步骤更简单、明了,易于理解。该题两大模型均得20分。

  题目2:某服装店的老板在武汉看中一种夏季衬衫,就用8000元购进若干件,以每件58元的价格出售,很快售完,又用了17600元同样衬衫,数量是第一次的2倍,每件进价比第一次多了4元,服装店仍然按每件58元出售全部售完,问该服装店这笔生意的盈利情况如何?

  星火X1给出的答案:

  DeepSeek给出的答案:

  两大模型再次全体答对,各得20分。

  题目3:

  星火X1给出的答案:

  DeepSeek给出的答案:

  该题牵涉到图形、函数等,手工输入困难,因此我们采用了拍照上传,让两大模型识图解答的方式,令人欣慰的是两大模型都支持识图解题,并且识别结果相当准确,这对于用户来说无疑是一大福音,毕竟对于数学来说,据图解题是常态。

  答案方面,两大模型再次不负众望,都给出了正确答案,各得20分。相较之下,星火X1的解题过程再次表现出了逻辑清晰、易于理解的特点。

  题目5:有100根火柴,甲、乙两人轮流取火柴,规定每次取的根数不得超过10根,也不能不取。规定谁取到最后一根火柴谁就获胜。如果两人都采用最佳方法,甲先取,那么谁将获得胜利?

  星火X1给出的答案:

  DeepSeek给出的答案

  对于这道典型的奥数问题,两大模型均准确找出了破题点,并给出了准确答案,各得20分。

  小结:

  从以上简单测试来看,讯飞星火深度推理大模型X1升级版和DeepSeek R1的数学能力都令人叹服,二者表现旗鼓相当,均以满分交卷。只是从解题过程看,星火X1给出的要更简洁、更明晰。

  和过去人们熟知的大语言模型相比,深度推理模型的最大特点是强化了模型在逻辑推理、因果推断以及结构化知识应用方面的能力,尤其在数学问题、代码生成以及科学推理等方面更具优势。

  星火X1能类人思考,在生成回答时更强调逻辑和推理,并能给出缜密清晰的思考路径,自动纠错,大大地减少了过去大模型“已读乱回”的现象,可广泛的用于教育、医疗乃至科研等领域。

  正是基于深度推理大模型的这一特点,科大讯飞在发布讯飞星火深度推理大模型X1升级版的同时,首发星火医疗大模型X1,并推出医疗、高教、政务、警务、法律五大全新应用场景一体机,同时正式发布“星火X1+DeepSeek”双引擎AI学习机,进一步赋能医疗、教育、智慧城市等领域。

相关阅读