2025-06-12 17:27:23 西盟科技资讯
——VisuRiddles 揭示多模态大模型在“看图推理”中的核心瓶颈
考公图都不会?现在火遍全网的多模态大模型(MLLMs),面对一张公务员考试里的图形推理题,居然频频“翻车”?真相可能出乎意料:模型不是“不会推理”,而是“没看懂图”。
2025年6月,华中科技大学白翔团队联合华为发布全新研究成果 —— VisuRiddles,一个专为抽象视觉推理设计的评测与数据体系,首次系统性揭示了当前大模型在“看图推理”中的核心瓶颈:感知能力严重不足。
本项目不仅发布了覆盖五大感知维度+两类高阶任务的基准数据集,还创新设计了自动化数据合成工具 PRS(感知谜题合成器),能够生成带有结构化感知描述的任务样本,让模型“看得懂、推得出”。
实验显示:在不改变模型结构的前提下,仅使用 PRS 生成的数据进行训练,模型在公务员图形题上的表现大幅跃升。
推理不难,看懂才难!
VisuRiddles 发现关键问题:大模型看不懂图
更提供了解决方案:PRS,让模型学会“看清楚”!
论文链接:https://arxiv.org/abs/2506.02537
代码地址:https://github.com/yh-hust/VisuRiddles