dTRPO：扩散 LLM 策略优化新突破，STEM 任务提升 9.6%

2026年3月21日 15点热度 0人点赞 0条评论

导语：arXiv 最新论文提出 dTRPO，一种针对扩散大语言模型（dLLM）的高效策略优化方法。该方法通过轨迹减少技术，将概率估计成本降至单次前向传播，在 7B 模型上实现 STEM 任务 9.6%、编码任务 4.3%、指令遵循 3.0% 的性能提升，为扩散 LLM 后训练提供可扩展新方案。

核心内容

扩散大语言模型（dLLM）作为自回归模型之外的新范式，支持双向上下文感知、可控生成和并行解码等独特能力。然而，将成熟的后训练流程（如 DPO、RLHF）迁移到 dLLM 面临根本性挑战：dLLM 通过多步扩散过程生成文本，精确估计生成概率需要大量前向传播，导致训练成本过高。

Meta AI 研究团队提出的 dTRPO（Trajectory Reduction Policy Optimization）框架通过两项理论创新解决这一瓶颈。首先，在参考策略正则化下，证明每个状态概率比可分解为新解掩码 token 的概率比，避免了对中间扩散状态的重复计算。其次，证明完整轨迹概率可通过重掩码最终状态的单次前向传播有效估计，结合块注意力机制实现高效计算。

技术实现将这两项轨迹减少策略整合到 DPO 目标函数中，形成 dTRPO 优化目标。该方法支持离线训练，每个训练样本仅需 4 次前向传播，相比在线强化学习方法减少数百倍计算量。同时，dTRPO 兼容长块扩散模型和块式扩散模型两种架构。

性能表现在 7B 参数 dLLM 上的实验结果令人瞩目：STEM 任务（如 MATH 数据集）提升最高 9.6%，编码任务提升 4.3%，指令遵循任务提升 3.0%。训练效率方面，dTRPO 的离线单次前向特性使其能够规模化训练，同时高质量输出提升了生成效率。

理论贡献论文提供了 dLLM 生成过程的形式化理论框架，证明了轨迹概率估计的可简化性，为后续研究奠定基础。这一理论突破使得扩散 LLM 的后训练不再依赖启发式近似，而是基于严格的数学推导。

技术/行业洞察

dTRPO 的提出反映了扩散 LLM 领域的一个关键趋势：从架构探索向后训练优化演进。早期扩散 LLM 研究聚焦于预训练架构设计（如 LLaDA、Dream、FastDiffLLM 等），但后训练阶段的对齐方法长期滞后于自回归模型。dTRPO 填补了这一空白，使得扩散 LLM 能够采用与自回归模型类似的高效后训练流程。

这一设计的深层洞察在于：扩散过程的理论完备性被低估了。现有工作（如 TRaDO、d2、DiffPO）多采用启发式近似来估计轨迹概率，而 dTRPO 证明离散扩散过程的理论框架本身足以支持 principled 的高效推导。这反映了 AI 研究中一个常见模式——理论先行，工程跟进。

轨迹减少的核心价值在于解决了扩散 LLM 可扩展性的根本瓶颈。自回归模型的 token 级概率自然分解，单次前向即可计算完整序列概率；而扩散模型的多步去噪过程看似需要逐步计算中间状态。dTRPO 的理论突破表明，在参考策略正则化下，中间状态的信息冗余可被消除，仅需关注新解掩码的 token。

离线训练优势体现了实用主义工程思维。在线强化学习（如 PPO）需要大量 rollout 采样，计算成本高昂且训练不稳定。dTRPO 的离线 DPO 范式继承了 DPO 的稳定性和效率，同时通过轨迹减少进一步降低成本，使得扩散 LLM 的大规模后训练成为可能。

从行业应用角度看，dTRPO 对扩散 LLM 的落地具有重要意义。扩散模型的并行解码能力使其在代码生成、长文本生成等场景具有潜在优势，但后训练成本一直是产业化的障碍。dTRPO 提供的可扩展方案，使得企业能够以合理成本训练和部署扩散 LLM 应用。

然而，该方法也面临挑战。首先，dTRPO 目前仅在 7B 模型上验证，更大规模模型（如 70B+）的效果仍需验证。其次，扩散 LLM 的整体生态（工具链、推理优化、部署框架）相比自回归模型仍不成熟，需要社区持续投入。此外，dTRPO 主要解决 DPO 阶段的效率问题，在线 RL 阶段的优化仍需进一步研究。