“考公图都不会？”大模型真正的难题是：看图太难！

2025-06-12 17:27:23 西盟科技资讯

　　——VisuRiddles 揭示多模态大模型在“看图推理”中的核心瓶颈

　　考公图都不会?现在火遍全网的多模态大模型(MLLMs)，面对一张公务员考试里的图形推理题，居然频频“翻车”?真相可能出乎意料：模型不是“不会推理”，而是“没看懂图”。

　　2025年6月，华中科技大学白翔团队联合华为发布全新研究成果 —— VisuRiddles，一个专为抽象视觉推理设计的评测与数据体系，首次系统性揭示了当前大模型在“看图推理”中的核心瓶颈：感知能力严重不足。

　　本项目不仅发布了覆盖五大感知维度+两类高阶任务的基准数据集，还创新设计了自动化数据合成工具 PRS(感知谜题合成器)，能够生成带有结构化感知描述的任务样本，让模型“看得懂、推得出”。

　　实验显示：在不改变模型结构的前提下，仅使用 PRS 生成的数据进行训练，模型在公务员图形题上的表现大幅跃升。

　　推理不难，看懂才难!

　　VisuRiddles 发现关键问题：大模型看不懂图

　　更提供了解决方案：PRS，让模型学会“看清楚”!

　　论文链接：https://arxiv.org/abs/2506.02537

　　代码地址：https://github.com/yh-hust/VisuRiddles