“考公图都不会?”大模型真正的难题是:看图太难!

——VisuRiddles 揭示多模态大模型在“看图推理”中的核心瓶颈

考公图都不会?现在火遍全网的多模态大模型(MLLMs),面对一张公务员考试里的图形推理题,居然频频“翻车”?真相可能出乎意料:模型不是“不会推理”,而是“没看懂图”。

2025年6月,华中科技大学白翔团队联合华为发布全新研究成果 —— VisuRiddles,一个专为抽象视觉推理设计的评测与数据体系,首次系统性揭示了当前大模型在“看图推理”中的核心瓶颈:感知能力严重不足。

本项目不仅发布了覆盖五大感知维度+两类高阶任务的基准数据集,还创新设计了自动化数据合成工具 PRS(感知谜题合成器),能够生成带有结构化感知描述的任务样本,让模型“看得懂、推得出”。

实验显示:在不改变模型结构的前提下,仅使用 PRS 生成的数据进行训练,模型在公务员图形题上的表现大幅跃升。

推理不难,看懂才难!

VisuRiddles 发现关键问题:大模型看不懂图

更提供了解决方案:PRS,让模型学会“看清楚”!

“考公图都不会?”大模型真正的难题是:看图太难!

论文链接:https://arxiv.org/abs/2506.02537

代码地址:https://github.com/yh-hust/VisuRiddles

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )