导语:arXiv 最新论文提出效用引导的 Agent 编排框架,将工具使用 LLM Agent 的行为控制作为显式决策问题。研究指出固定工作流稳定但僵化,ReAct 等自由推理灵活但可能过度执行。新框架通过效用函数平衡估计收益、步骤成本、不确定性和冗余,在 HotpotQA 基准上实现与 ReAct 竞争的性能,同时提供更可解释、可控制的多步执行轨迹。 核心内容 研究背景 工具使用的大型语言模型 Agent 面临答案质量与执行成本之间的根本张力。更好的任务性能通常需要更多推理步骤、更多工具交互和更长的执行轨迹,这反…
