VLM 思维链训练新突破：SCALe 用动态权重平衡推理与答案

2026年3月23日 21点热度 0人点赞 0条评论

导语：arXiv 最新论文提出 SCALe（Scheduled Curriculum Adaptive Loss），解决视觉语言模型思维链训练中的 token 不平衡难题。研究指出标准监督微调中所有 token 贡献相等，但推理数据 inherently token 不平衡——长思考痕迹 overshadow 短但关键的答案段。SCALe 通过动态、长度独立的权重分配，在训练过程中逐渐将焦点从思考段转移到答案段，仅需 1/7 训练时间即匹配完整 SFT+GRPO pipeline 性能。

核心内容

研究背景 视觉语言模型（VLM）的多模态推理通常依赖两阶段流程：监督微调（SFT）和强化学习（RL）。在标准 SFT 中，所有 token 对损失的贡献相等，但推理数据 inherently token 不平衡。长的痕迹 overshadow 短但任务关键的段，导致冗长推理和不准确答案。

研究团队 论文由 Shaked Perek 等研究者出品，在 arXiv 论文中提出 SCALe（Scheduled Curriculum Adaptive Loss）。

SCALe 核心设计 SCALe 显式分离推理段和答案段的监督，使用动态、长度独立的权重分配。与 vanilla SFT 过度加权段不同，SCALe-SFT 通过余弦调度策略在整个训练过程中逐渐将焦点从转移到，鼓励简洁且有根据的推理。

调度策略 余弦调度策略使训练早期更关注推理过程（帮助模型学习推理结构），训练后期更关注答案准确性（确保最终输出质量）。这种渐进式焦点转移模拟了人类学习过程：先理解方法，再追求结果。

实验设计 研究在多样化基准和架构上评估 SCALe，包括 ScienceQA、Geo3K、ChartQA 等多模态推理基准，以及 LLaVA、Qwen2.5-VL 等主流 VLM 架构。

实验结果 结果显示 SCALe 一致优于 vanilla SFT，并匹配完整两阶段 SFT+GRPO pipeline 的性能，同时仅需约 1/7 的训练时间，使其成为轻量级但有效的替代方案。当与 GRPO 结合时，SCALe 达到最佳整体性能，凸显其作为独立方法和强化微调基础的双重价值。

跨架构泛化 SCALe 在不同 VLM 架构上均展现一致改进，证明方法的架构无关性。在 LLaVA-1.5、Qwen2.5-VL、Gemma-3V 等模型上，SCALe 均带来显著性能提升。

消融研究 研究进行了详细的消融实验，验证了余弦调度策略的优越性。相比线性调度、阶梯调度等替代方案，余弦调度在推理质量和答案准确性之间取得最佳平衡。

技术/行业洞察

这项研究反映了 VLM 训练领域的一个关键趋势：从均匀损失加权向结构化、任务感知的损失设计演进。传统 SFT 对所有 token 一视同仁，而 SCALe 认识到推理数据中不同 segment 的功能差异，针对性设计损失权重。

token 不平衡问题的深层意义 在于揭示 VLM 推理训练中的结构性缺陷。思维链数据中，推理过程通常占 80-90% 的 token，而最终答案仅占 10-20%。标准 SFT 的均匀加权使模型过度优化推理过程，忽视答案准确性。SCALe 通过动态权重纠正这一偏差。

余弦调度的设计哲学 值得深入理解。训练早期关注推理（高权重）帮助模型学习正确的推理结构和方法；训练后期关注答案（高权重）确保最终输出质量。这种"先过程后结果"的调度模拟了人类学习认知发展的自然规律。

1/7 训练时间的战略价值 值得强调。完整 SFT+GRPO pipeline 需要大量计算资源，限制了许多研究团队和企业的采用。SCALe 仅用 SFT 阶段即达到相当性能，大幅降低 VLM 推理训练的门槛，使更多团队能够参与多模态推理模型的开发。

与现有方案的对比 具有启示意义。Mulberry、Visual CoT 等方法聚焦推理数据的质量改进（如多路径推理、视觉引导），而 SCALe 聚焦训练过程的损失设计优化。两者正交，可结合使用。

作为 GRPO 基础的价值 凸显 SCALe 的双重角色。SCALe 不仅可作为独立训练方法，还可作为强化学习（GRPO）的强基础。实验显示 SCALe+GRPO 组合超越所有基线，证明良好的 SFT 初始化对后续 RL 微调至关重要。

从行业应用角度看，这项研究对多模态 AI 开发者、视觉问答平台、文档理解系统、科学图表分析工具等场景都有直接价值。例如，在视觉问答场景中，平台可使用 SCALe 训练 VLM，在保持推理可解释性的同时提升答案准确性；在文档理解场景中，系统可使用 SCALe 优化模型对复杂图表的推理能力。

然而，该方法也面临挑战。首先，调度超参数（如余弦函数的相位、幅度）需针对不同任务调整——需建立自适应选择机制。其次，方法主要在 encoder-decoder 架构验证，在纯 decoder 架构（如 LLaMA 系列）的表现需进一步评估。此外，SCALe 对推理数据的质量仍有依赖——低质量推理标注可能限制性能上限。