AI 科学家通过同行评审：SakanaAI v2 用树搜索实现自动科学发现

2026年3月29日 16点热度 0人点赞 0条评论

导语：SakanaAI 宣布 AI Scientist-v2 生成的论文首次通过国际顶会 workshop 同行评审。系统自主完成假设生成、实验设计、代码执行、数据分析和论文撰写全流程，使用最佳优先树搜索探索研究空间。提交 ICLR 2025 workshop 的 3 篇论文中 1 篇获得 6.33 平均分，高于接受阈值。这是首个通过标准科学评审的 AI 生成论文，标志自动科学发现迈向新里程碑。

核心内容

研究背景 自动科学研究系统正快速演进，AI 在科学发现中的角色日益关键。SakanaAI 的 AI Scientist-v1 首次实现 AI 生成完整科学手稿，但依赖人类模板且局限于特定领域。v2 版本移除模板依赖，实现跨机器学习领域的泛化探索，并通过 agentic tree search 提升研究质量。

系统架构 AI Scientist-v2 采用端到端自主流程：（1）创意生成阶段，LLM 基于宽泛主题生成具体研究假设，使用 Semantic Scholar 检查新颖性；（2）实验执行阶段，系统编写并运行代码验证假设，自动调试失败实验；（3）论文撰写阶段，整合实验结果、生成图表、撰写完整手稿。关键创新是最佳优先树搜索（BFTS），系统并行探索多条研究路径，动态分配计算资源至最有希望的方向。

实验设置 研究与 ICLR 2025 一个 workshop 合作，提交 3 篇 AI 生成论文参与双盲评审。评审员被告知部分论文可能由 AI 生成，但不知具体分配。系统仅接收宽泛主题（需符合 workshop 范围），其余全流程自主。人类角色仅限于选择最佳 3 篇提交，不修改任何内容。

评审结果 3 篇提交论文中，1 篇获得平均 6.33 分（评分 6、7、6），排名约前 45%，高于平均接受阈值。论文标题为"组合正则化：增强神经网络泛化中的意外障碍"，报告了 AI 在尝试创新正则化方法时遇到的负面结果。另 2 篇未达接受标准。出于伦理考虑，所有 AI 生成论文在评审后撤回，不正式发表。

与 v1 对比 v1 依赖人类模板，成功率高但探索范围有限；v2 采用更开放的探索策略，成功率较低但能发现意外方向。v1 适合目标明确、基础扎实的任务，v2 专为开放端科学探索设计。v2 移除模板依赖后，可跨不同 ML 子领域泛化，无需针对每个领域重新设计流程。

技术细节 树搜索配置：num_workers 控制并行探索路径数（默认 3），steps 设定最大探索节点数（默认 21），max_debug_depth 限制单节点调试次数。系统使用多模型协作：实验执行用 Claude 3.5 Sonnet，论文撰写用 o1-preview，引用检查用 GPT-4o，图表聚合用 o3-mini。完整流程通常需数小时。

伦理考量 研究获得 ICLR 领导层、workshop 组织者和 UBC 伦理委员会（IRB）批准。论文不公开至 OpenReview 论坛，避免引发 AI 生成内容泛滥的担忧。团队强调需建立社区规范，明确 AI 生成研究的声明时机和方式，防止技术滥用损害评审制度公信力。

局限性 首先，成功率仍有限——3 篇仅 1 篇通过，反映系统稳定性需提升；其次，venue 为 workshop 而非主会，顶级会议主会的评审标准更严格；此外，研究需人类提供宽泛主题，完全自主的"从零开始"研究尚未实现；计算成本较高，树搜索需多次实验迭代。

技术/行业洞察

这项成果反映了 AI for Science 领域的一个关键趋势：从辅助工具向自主研究者演进。早期 AI 科研工具聚焦特定任务（文献检索、实验设计建议），AI Scientist-v2 代表新思路——端到端自主完成完整研究流程，人类仅提供方向性指导。

树搜索作为研究策略 的战略价值在于应对科学探索的不确定性。传统自动化方法按预设流程执行，无法应对研究中的意外失败或方向调整。BFTS 允许系统动态评估多条路径，放弃低希望方向，集中资源至有突破潜力的轨迹，模仿人类科学家的"直觉 + 验证"模式。

负面结果的价值 值得强调。通过的论文报告的是"意外障碍"而非成功方法，这反映 AI 能识别并诚实报告研究中的失败，而非仅追求"正面结果"。科学进步依赖负面结果的传播，避免他人重复相同错误。AI 生成负面结果论文并通过评审，证明系统理解科学诚信的重要性。

同行评审通过的意义 具有里程碑价值。此前 AI 生成内容常被质疑质量不足，v2 证明 AI 生成的研究可达到人类评审认可的水平。这为未来 AI 辅助科研铺平道路——AI 可承担重复性实验探索，人类聚焦创造性假设和高阶判断。

伦理先行的行业智慧 体现对社区责任的深刻理解。团队主动与会议方合作、获得伦理批准、评审后撤回论文，这些措施避免"偷偷提交"引发的信任危机。这为后续 AI 科研研究树立标杆——透明度和合作比"偷偷突破"更重要。

与 AgentFactory 的对比 具有启示意义。3-19 发布的 AgentFactory 让 AI 学会自我进化（通用 agent 框架），AI Scientist-v2 专注科学发现垂直领域。两者共享"多 agent 协作"理念，但应用目标不同：AgentFactory 通用，AI Scientist 专用。这反映 agent 系统的分化趋势——通用框架与垂直应用并行发展。

从行业应用角度看，AI Scientist-v2 对学术研究机构、企业研发部门、AI 实验室、药物研发、材料科学、自动化实验平台等场景都有直接价值。例如，AI 实验室可用 AI Scientist 快速验证大量假设，筛选有潜力的方向后由人类深入研究；药企可用系统自动化早期药物筛选实验，加速候选分子发现。

然而，该方法也面临挑战。首先，成功率需提升——目前约 33% 的通过率（1/3）低于人类研究者平均水平；其次，领域泛化需验证——当前仅在 ML 领域验证，扩展至生物、化学、物理等实验科学需适配实验设备接口；此外，评审偏见需研究——评审员知晓论文可能 AI 生成后是否影响评分，需更大规模双盲实验验证。

应用场景

对学术研究机构：AI Scientist-v2 可作为研究助理加速早期探索。在博士培养场景中，系统可快速生成多个研究方向初步结果，学生基于此深入验证。这降低试错成本，使学生聚焦最有希望的假设。对于资源有限的实验室，系统可承担重复性实验，释放人力至创造性工作。

对企业研发部门：系统可支持技术预研。在 AI 公司场景中，研发团队用 AI Scientist 探索新架构、新损失函数、新训练方法，快速筛选可行方向。相比人工探索，系统可并行测试更多变体，缩短研发周期。对于产品线迭代，系统可自动化 A/B 测试分析，生成优化建议报告。

对药物研发：AI Scientist 可赋能早期药物发现。在制药公司场景中，系统自主设计分子结构、预测结合亲和力、规划合成路线，优先测试高潜力候选分子。对于罕见病药物研发，系统可快速筛选大量化合物，降低研发成本，使"无利可图"的疾病获得关注。

对材料科学：系统可加速新材料发现。在电池、催化剂、半导体材料研发中，AI Scientist 设计材料配方、预测性能、指导实验合成。对于新能源材料，系统可探索大量元素组合，发现高能量密度、长寿命的电池材料，加速能源转型。

对 AI 平台提供商：AI Scientist 可作为增值服务。在 Hugging Face、Replicate 等平台上，集成 AI Scientist 模块，用户输入研究问题，平台返回初步实验结果和论文草稿。这降低科研门槛，使无编程背景的研究者也能采用 AI 辅助研究，形成差异化竞争力。

对科学期刊：系统可支持论文预审。期刊可用 AI Scientist 快速验证投稿论文的核心实验，检测可重复性问题。对于争议性论文，系统可独立复现关键结果，辅助编辑决策。这提升期刊质量，减少"不可复现"论文发表，维护科学诚信。