导语:arXiv 最新论文提出 RC2 框架,解决多模态大模型跨模态矛盾预测难题。研究指出当前 MLLM 对同一内容的视觉和文本表示常给出矛盾答案,现有投票机制会放大系统性偏见。RC2 通过跨模态循环一致性作为无标签奖励信号,要求模型执行反向推理、切换模态、重建答案,形成自监督闭环。3B 和 8B 模型在 6 个基准上提升最多 7.6 点,跨模态预测一致性显著改善。 核心内容 研究背景 多模态大语言模型(MLLM)在文档理解、网页导航、Agent 系统等场景广泛部署,但存在根本性模态间隙:同一网页以截图 vs 原始…
