Coding One

  • java
  • php
  • python
  • 前端
  • 大数据
  • 操作系统
  • 树莓派
  • 其他
Coding One
如果每天只要敲敲代码,那这样一辈子也挺好。
  1. 首页
  2. AI 资讯
  3. 正文

VLM 思维链训练新突破:SCALe 用动态权重平衡推理与答案

2026年3月23日 21点热度 0人点赞 0条评论

导语:arXiv 最新论文提出 SCALe(Scheduled Curriculum Adaptive Loss),解决视觉语言模型思维链训练中的 token 不平衡难题。研究指出标准监督微调中所有 token 贡献相等,但推理数据 inherently token 不平衡——长思考痕迹 overshadow 短但关键的答案段。SCALe 通过动态、长度独立的权重分配,在训练过程中逐渐将焦点从思考段转移到答案段,仅需 1/7 训练时间即匹配完整 SFT+GRPO pipeline 性能。

核心内容

研究背景 视觉语言模型(VLM)的多模态推理通常依赖两阶段流程:监督微调(SFT)和强化学习(RL)。在标准 SFT 中,所有 token 对损失的贡献相等,但推理数据 inherently token 不平衡。长的 痕迹 overshadow 短但任务关键的 段,导致冗长推理和不准确答案。

研究团队 论文由 Shaked Perek 等研究者出品,在 arXiv 论文中提出 SCALe(Scheduled Curriculum Adaptive Loss)。

SCALe 核心设计 SCALe 显式分离推理段和答案段的监督,使用动态、长度独立的权重分配。与 vanilla SFT 过度加权 段不同,SCALe-SFT 通过余弦调度策略在整个训练过程中逐渐将焦点从 转移到 ,鼓励简洁且有根据的推理。

调度策略 余弦调度策略使训练早期更关注推理过程(帮助模型学习推理结构),训练后期更关注答案准确性(确保最终输出质量)。这种渐进式焦点转移模拟了人类学习过程:先理解方法,再追求结果。

实验设计 研究在多样化基准和架构上评估 SCALe,包括 ScienceQA、Geo3K、ChartQA 等多模态推理基准,以及 LLaVA、Qwen2.5-VL 等主流 VLM 架构。

实验结果 结果显示 SCALe 一致优于 vanilla SFT,并匹配完整两阶段 SFT+GRPO pipeline 的性能,同时仅需约 1/7 的训练时间,使其成为轻量级但有效的替代方案。当与 GRPO 结合时,SCALe 达到最佳整体性能,凸显其作为独立方法和强化微调基础的双重价值。

跨架构泛化 SCALe 在不同 VLM 架构上均展现一致改进,证明方法的架构无关性。在 LLaVA-1.5、Qwen2.5-VL、Gemma-3V 等模型上,SCALe 均带来显著性能提升。

消融研究 研究进行了详细的消融实验,验证了余弦调度策略的优越性。相比线性调度、阶梯调度等替代方案,余弦调度在推理质量和答案准确性之间取得最佳平衡。

技术/行业洞察

这项研究反映了 VLM 训练领域的一个关键趋势:从均匀损失加权向结构化、任务感知的损失设计演进。传统 SFT 对所有 token 一视同仁,而 SCALe 认识到推理数据中不同 segment 的功能差异,针对性设计损失权重。

token 不平衡问题的深层意义 在于揭示 VLM 推理训练中的结构性缺陷。思维链数据中,推理过程通常占 80-90% 的 token,而最终答案仅占 10-20%。标准 SFT 的均匀加权使模型过度优化推理过程,忽视答案准确性。SCALe 通过动态权重纠正这一偏差。

余弦调度的设计哲学 值得深入理解。训练早期关注推理(高 权重)帮助模型学习正确的推理结构和方法;训练后期关注答案(高权重)确保最终输出质量。这种"先过程后结果"的调度模拟了人类学习认知发展的自然规律。

1/7 训练时间的战略价值 值得强调。完整 SFT+GRPO pipeline 需要大量计算资源,限制了许多研究团队和企业的采用。SCALe 仅用 SFT 阶段即达到相当性能,大幅降低 VLM 推理训练的门槛,使更多团队能够参与多模态推理模型的开发。

与现有方案的对比 具有启示意义。Mulberry、Visual CoT 等方法聚焦推理数据的质量改进(如多路径推理、视觉引导),而 SCALe 聚焦训练过程的损失设计优化。两者正交,可结合使用。

作为 GRPO 基础的价值 凸显 SCALe 的双重角色。SCALe 不仅可作为独立训练方法,还可作为强化学习(GRPO)的强基础。实验显示 SCALe+GRPO 组合超越所有基线,证明良好的 SFT 初始化对后续 RL 微调至关重要。

从行业应用角度看,这项研究对多模态 AI 开发者、视觉问答平台、文档理解系统、科学图表分析工具等场景都有直接价值。例如,在视觉问答场景中,平台可使用 SCALe 训练 VLM,在保持推理可解释性的同时提升答案准确性;在文档理解场景中,系统可使用 SCALe 优化模型对复杂图表的推理能力。

然而,该方法也面临挑战。首先,调度超参数(如余弦函数的相位、幅度)需针对不同任务调整——需建立自适应选择机制。其次,方法主要在 encoder-decoder 架构验证,在纯 decoder 架构(如 LLaMA 系列)的表现需进一步评估。此外,SCALe 对推理数据的质量仍有依赖——低质量推理标注可能限制性能上限。

应用场景

对视觉问答平台:SCALe 可作为高效训练后端。在 VQA 系统中,平台可使用 SCALe 训练模型,在保持推理过程可解释的同时提升答案准确性。1/7 训练时间使快速迭代和 A/B 测试成为可能。

对文档理解系统:方法可支持复杂图表分析。在处理科学论文、技术文档、财务报表等包含图表的场景时,系统可使用 SCALe 优化模型的推理能力,准确提取图表中的关键信息并生成正确结论。

对科学图表分析工具:框架可增强科学推理能力。在 ScienceQA、ChartQA 等基准对应的实际场景中(如科研辅助、教育评估),SCALe 可提升模型对科学图表的理解和推理准确性。

对多模态 AI 开发者:SCALe 提供了轻量级训练方案。在资源受限场景(如初创公司、研究实验室),开发者可使用 SCALe 替代完整的 SFT+RL pipeline,在有限计算预算下获得竞争力。

对教育机构:方法可支持智能辅导系统。在在线教育平台中,SCALe 训练的 VLM 可准确解答包含图表的数学、物理、化学题目,同时展示推理过程,帮助学生理解解题思路。

对医疗影像分析:框架可支持医学诊断辅助。在处理医学影像(如 X 光片、病理切片)时,SCALe 训练的模型可提供准确的诊断建议,同时展示推理依据,增强医生信任。

延伸阅读

  • arXiv 论文:Balanced Thinking: Improving Chain of Thought Training in Vision Language Models
  • PDF 下载:arXiv:2603.18656.pdf
  • GitHub 仓库:shakedpe/scale
  • 视觉语言模型推理综述:VLM 推理研究
  • 思维链训练方法:CoT 训练研究

论文作者:Shaked Perek, Ben Wiesel, Avihu Dekel, Nimrod Shabtay, Eli Schwartz

提交时间:2026 年 3 月 19 日

论文编号:arXiv:2603.18656 [cs.AI]

核心贡献:SCALe 调度损失、推理 - 答案段分离监督、余弦焦点转移、1/7 训练时间、跨架构泛化

方法特点:动态权重分配、长度独立、余弦调度、SFT 独立可用、GRPO 强基础

实验结果:一致优于 vanilla SFT、匹配 SFT+GRPO 性能、1/7 训练时间、多基准验证、多架构验证

关键词:视觉语言模型、思维链训练、损失调度、token 不平衡、推理优化、监督微调、GRPO、多模态推理

标签: 暂无
最后更新:2026年3月23日

JVS, Claw

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2022 Coding One. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

闽ICP备17024682号