Coding One

  • java
  • php
  • python
  • 前端
  • 大数据
  • 操作系统
  • 树莓派
  • 其他
Coding One
如果每天只要敲敲代码,那这样一辈子也挺好。
  1. 首页
  2. AI 资讯
  3. 正文

dTRPO:扩散 LLM 策略优化新突破,STEM 任务提升 9.6%

2026年3月21日 15点热度 0人点赞 0条评论

导语:arXiv 最新论文提出 dTRPO,一种针对扩散大语言模型(dLLM)的高效策略优化方法。该方法通过轨迹减少技术,将概率估计成本降至单次前向传播,在 7B 模型上实现 STEM 任务 9.6%、编码任务 4.3%、指令遵循 3.0% 的性能提升,为扩散 LLM 后训练提供可扩展新方案。

核心内容

扩散大语言模型(dLLM)作为自回归模型之外的新范式,支持双向上下文感知、可控生成和并行解码等独特能力。然而,将成熟的后训练流程(如 DPO、RLHF)迁移到 dLLM 面临根本性挑战:dLLM 通过多步扩散过程生成文本,精确估计生成概率需要大量前向传播,导致训练成本过高。

Meta AI 研究团队提出的 dTRPO(Trajectory Reduction Policy Optimization)框架通过两项理论创新解决这一瓶颈。首先,在参考策略正则化下,证明每个状态概率比可分解为新解掩码 token 的概率比,避免了对中间扩散状态的重复计算。其次,证明完整轨迹概率可通过重掩码最终状态的单次前向传播有效估计,结合块注意力机制实现高效计算。

技术实现将这两项轨迹减少策略整合到 DPO 目标函数中,形成 dTRPO 优化目标。该方法支持离线训练,每个训练样本仅需 4 次前向传播,相比在线强化学习方法减少数百倍计算量。同时,dTRPO 兼容长块扩散模型和块式扩散模型两种架构。

性能表现在 7B 参数 dLLM 上的实验结果令人瞩目:STEM 任务(如 MATH 数据集)提升最高 9.6%,编码任务提升 4.3%,指令遵循任务提升 3.0%。训练效率方面,dTRPO 的离线单次前向特性使其能够规模化训练,同时高质量输出提升了生成效率。

理论贡献论文提供了 dLLM 生成过程的形式化理论框架,证明了轨迹概率估计的可简化性,为后续研究奠定基础。这一理论突破使得扩散 LLM 的后训练不再依赖启发式近似,而是基于严格的数学推导。

技术/行业洞察

dTRPO 的提出反映了扩散 LLM 领域的一个关键趋势:从架构探索向后训练优化演进。早期扩散 LLM 研究聚焦于预训练架构设计(如 LLaDA、Dream、FastDiffLLM 等),但后训练阶段的对齐方法长期滞后于自回归模型。dTRPO 填补了这一空白,使得扩散 LLM 能够采用与自回归模型类似的高效后训练流程。

这一设计的深层洞察在于:扩散过程的理论完备性被低估了。现有工作(如 TRaDO、d2、DiffPO)多采用启发式近似来估计轨迹概率,而 dTRPO 证明离散扩散过程的理论框架本身足以支持 principled 的高效推导。这反映了 AI 研究中一个常见模式——理论先行,工程跟进。

轨迹减少的核心价值在于解决了扩散 LLM 可扩展性的根本瓶颈。自回归模型的 token 级概率自然分解,单次前向即可计算完整序列概率;而扩散模型的多步去噪过程看似需要逐步计算中间状态。dTRPO 的理论突破表明,在参考策略正则化下,中间状态的信息冗余可被消除,仅需关注新解掩码的 token。

离线训练优势体现了实用主义工程思维。在线强化学习(如 PPO)需要大量 rollout 采样,计算成本高昂且训练不稳定。dTRPO 的离线 DPO 范式继承了 DPO 的稳定性和效率,同时通过轨迹减少进一步降低成本,使得扩散 LLM 的大规模后训练成为可能。

从行业应用角度看,dTRPO 对扩散 LLM 的落地具有重要意义。扩散模型的并行解码能力使其在代码生成、长文本生成等场景具有潜在优势,但后训练成本一直是产业化的障碍。dTRPO 提供的可扩展方案,使得企业能够以合理成本训练和部署扩散 LLM 应用。

然而,该方法也面临挑战。首先,dTRPO 目前仅在 7B 模型上验证,更大规模模型(如 70B+)的效果仍需验证。其次,扩散 LLM 的整体生态(工具链、推理优化、部署框架)相比自回归模型仍不成熟,需要社区持续投入。此外,dTRPO 主要解决 DPO 阶段的效率问题,在线 RL 阶段的优化仍需进一步研究。

应用场景

对代码生成应用:dTRPO 可用于优化扩散 LLM 的代码生成能力。扩散模型的并行解码特性使其能够一次性生成多个代码 token,适合函数级或文件级代码生成。dTRPO 的高效后训练使得模型能够学习人类偏好,生成更符合工程规范的代码。

对长文本生成:框架可用于优化创意写作、报告生成、文档摘要等长文本任务。扩散模型的双向上下文感知能力使其能够更好地把握全文结构,dTRPO 使得这一优势能够通过后训练进一步放大。

对可控文本生成:dTRPO 可用于训练支持 in-place 编辑的扩散模型,用户可在生成文本的任意位置插入提示,模型局部重生成而不影响其他部分。这一能力在文档修订、内容优化等场景有直接价值。

对 AI 研究团队:dTRPO 提供了扩散 LLM 后训练的标准化工具,研究者可基于该框架探索更多对齐方法(如多轮对话优化、领域适配等),加速扩散 LLM 从研究走向应用。

延伸阅读

  • arXiv 论文:Trajectory Reduction in Policy Optimization of Diffusion Large Language Models
  • PDF 下载:arXiv:2603.18806.pdf
  • 相关研究:扩散语言模型与策略优化研究
  • LLaDA 项目:github.com/ML-GSAI/LLaDA

论文作者:Wenxuan Zhang(Meta AI)、Lemeng Wu、Changsheng Zhao 等

提交时间:2026 年 3 月 19 日

论文编号:arXiv:2603.18806 [cs.AI]

测试模型:7B 参数扩散 LLM

核心指标:STEM +9.6%,编码 +4.3%,指令遵循 +3.0%

方法特点:轨迹减少、单次前向估计、离线 DPO 训练

关键词:扩散大语言模型、策略优化、DPO、轨迹减少、后训练、对齐

标签: 暂无
最后更新:2026年3月21日

JVS, Claw

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2022 Coding One. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

闽ICP备17024682号