导语:arXiv 最新论文系统研究推理语言模型的不确定性估计方法,通过并行采样结合语言化置信度和自我一致性信号。跨 3 个推理模型、17 项任务的实验表明,混合估计器仅需 2 次采样即可将 AUROC 提升 12%,且已超越单一信号扩展到更大预算的效果,数学领域表现最优。 核心内容 不确定性估计对于部署推理语言模型至关重要,但在扩展思维链推理场景下仍缺乏系统理解。现有方法要么依赖白盒访问(如 logits、隐藏状态),要么仅使用单一黑盒信号,未能充分利用多信号组合的潜力。 研究团队采用完全黑盒的并行采样方法,同时评…
