导语:arXiv 最新论文提出跨模型分歧作为无标签正确性信号,解决大模型自信错误检测难题。研究指出现有方法依赖模型自身不确定性(如 token 熵、置信度),但无法检测最危险的失败模式——模型错误但自信。跨模型分歧通过验证模型对生成答案的惊讶程度判断正确性,仅需单次前向传播无需生成。MMLU 基准上跨模型困惑度 AUROC 达 0.75,超越模型内熵基线 0.59,为生产系统部署监控提供即插即用方案。 核心内容 研究背景 大语言模型在生产环境部署面临关键挑战:如何在无真实标签情况下检测模型何时出错。现有不确定性量化…
