首页 > 技术

“考公图都不会?”大模型真正的难题是:看图太难!

2025-06-12 17:27:23      西盟科技资讯   


  ——VisuRiddles 揭示多模态大模型在“看图推理”中的核心瓶颈

  考公图都不会?现在火遍全网的多模态大模型(MLLMs),面对一张公务员考试里的图形推理题,居然频频“翻车”?真相可能出乎意料:模型不是“不会推理”,而是“没看懂图”。

  2025年6月,华中科技大学白翔团队联合华为发布全新研究成果 —— VisuRiddles,一个专为抽象视觉推理设计的评测与数据体系,首次系统性揭示了当前大模型在“看图推理”中的核心瓶颈:感知能力严重不足。

  本项目不仅发布了覆盖五大感知维度+两类高阶任务的基准数据集,还创新设计了自动化数据合成工具 PRS(感知谜题合成器),能够生成带有结构化感知描述的任务样本,让模型“看得懂、推得出”。

  实验显示:在不改变模型结构的前提下,仅使用 PRS 生成的数据进行训练,模型在公务员图形题上的表现大幅跃升。

  推理不难,看懂才难!

  VisuRiddles 发现关键问题:大模型看不懂图

  更提供了解决方案:PRS,让模型学会“看清楚”!

  论文链接:https://arxiv.org/abs/2506.02537

  代码地址:https://github.com/yh-hust/VisuRiddles

  

相关阅读

    无相关信息