Coding One

  • java
  • php
  • python
  • 前端
  • 大数据
  • 操作系统
  • 树莓派
  • 其他
Coding One
如果每天只要敲敲代码,那这样一辈子也挺好。
  1. 首页
  2. AI 资讯
  3. 正文

AI 科学家通过同行评审:SakanaAI v2 用树搜索实现自动科学发现

2026年3月29日 16点热度 0人点赞 0条评论

导语:SakanaAI 宣布 AI Scientist-v2 生成的论文首次通过国际顶会 workshop 同行评审。系统自主完成假设生成、实验设计、代码执行、数据分析和论文撰写全流程,使用最佳优先树搜索探索研究空间。提交 ICLR 2025 workshop 的 3 篇论文中 1 篇获得 6.33 平均分,高于接受阈值。这是首个通过标准科学评审的 AI 生成论文,标志自动科学发现迈向新里程碑。

核心内容

研究背景 自动科学研究系统正快速演进,AI 在科学发现中的角色日益关键。SakanaAI 的 AI Scientist-v1 首次实现 AI 生成完整科学手稿,但依赖人类模板且局限于特定领域。v2 版本移除模板依赖,实现跨机器学习领域的泛化探索,并通过 agentic tree search 提升研究质量。

系统架构 AI Scientist-v2 采用端到端自主流程:(1)创意生成阶段,LLM 基于宽泛主题生成具体研究假设,使用 Semantic Scholar 检查新颖性;(2)实验执行阶段,系统编写并运行代码验证假设,自动调试失败实验;(3)论文撰写阶段,整合实验结果、生成图表、撰写完整手稿。关键创新是最佳优先树搜索(BFTS),系统并行探索多条研究路径,动态分配计算资源至最有希望的方向。

实验设置 研究与 ICLR 2025 一个 workshop 合作,提交 3 篇 AI 生成论文参与双盲评审。评审员被告知部分论文可能由 AI 生成,但不知具体分配。系统仅接收宽泛主题(需符合 workshop 范围),其余全流程自主。人类角色仅限于选择最佳 3 篇提交,不修改任何内容。

评审结果 3 篇提交论文中,1 篇获得平均 6.33 分(评分 6、7、6),排名约前 45%,高于平均接受阈值。论文标题为"组合正则化:增强神经网络泛化中的意外障碍",报告了 AI 在尝试创新正则化方法时遇到的负面结果。另 2 篇未达接受标准。出于伦理考虑,所有 AI 生成论文在评审后撤回,不正式发表。

与 v1 对比 v1 依赖人类模板,成功率高但探索范围有限;v2 采用更开放的探索策略,成功率较低但能发现意外方向。v1 适合目标明确、基础扎实的任务,v2 专为开放端科学探索设计。v2 移除模板依赖后,可跨不同 ML 子领域泛化,无需针对每个领域重新设计流程。

技术细节 树搜索配置:num_workers 控制并行探索路径数(默认 3),steps 设定最大探索节点数(默认 21),max_debug_depth 限制单节点调试次数。系统使用多模型协作:实验执行用 Claude 3.5 Sonnet,论文撰写用 o1-preview,引用检查用 GPT-4o,图表聚合用 o3-mini。完整流程通常需数小时。

伦理考量 研究获得 ICLR 领导层、workshop 组织者和 UBC 伦理委员会(IRB)批准。论文不公开至 OpenReview 论坛,避免引发 AI 生成内容泛滥的担忧。团队强调需建立社区规范,明确 AI 生成研究的声明时机和方式,防止技术滥用损害评审制度公信力。

局限性 首先,成功率仍有限——3 篇仅 1 篇通过,反映系统稳定性需提升;其次,venue 为 workshop 而非主会,顶级会议主会的评审标准更严格;此外,研究需人类提供宽泛主题,完全自主的"从零开始"研究尚未实现;计算成本较高,树搜索需多次实验迭代。

技术/行业洞察

这项成果反映了 AI for Science 领域的一个关键趋势:从辅助工具向自主研究者演进。早期 AI 科研工具聚焦特定任务(文献检索、实验设计建议),AI Scientist-v2 代表新思路——端到端自主完成完整研究流程,人类仅提供方向性指导。

树搜索作为研究策略 的战略价值在于应对科学探索的不确定性。传统自动化方法按预设流程执行,无法应对研究中的意外失败或方向调整。BFTS 允许系统动态评估多条路径,放弃低希望方向,集中资源至有突破潜力的轨迹,模仿人类科学家的"直觉 + 验证"模式。

负面结果的价值 值得强调。通过的论文报告的是"意外障碍"而非成功方法,这反映 AI 能识别并诚实报告研究中的失败,而非仅追求"正面结果"。科学进步依赖负面结果的传播,避免他人重复相同错误。AI 生成负面结果论文并通过评审,证明系统理解科学诚信的重要性。

同行评审通过的意义 具有里程碑价值。此前 AI 生成内容常被质疑质量不足,v2 证明 AI 生成的研究可达到人类评审认可的水平。这为未来 AI 辅助科研铺平道路——AI 可承担重复性实验探索,人类聚焦创造性假设和高阶判断。

伦理先行的行业智慧 体现对社区责任的深刻理解。团队主动与会议方合作、获得伦理批准、评审后撤回论文,这些措施避免"偷偷提交"引发的信任危机。这为后续 AI 科研研究树立标杆——透明度和合作比"偷偷突破"更重要。

与 AgentFactory 的对比 具有启示意义。3-19 发布的 AgentFactory 让 AI 学会自我进化(通用 agent 框架),AI Scientist-v2 专注科学发现垂直领域。两者共享"多 agent 协作"理念,但应用目标不同:AgentFactory 通用,AI Scientist 专用。这反映 agent 系统的分化趋势——通用框架与垂直应用并行发展。

从行业应用角度看,AI Scientist-v2 对学术研究机构、企业研发部门、AI 实验室、药物研发、材料科学、自动化实验平台等场景都有直接价值。例如,AI 实验室可用 AI Scientist 快速验证大量假设,筛选有潜力的方向后由人类深入研究;药企可用系统自动化早期药物筛选实验,加速候选分子发现。

然而,该方法也面临挑战。首先,成功率需提升——目前约 33% 的通过率(1/3)低于人类研究者平均水平;其次,领域泛化需验证——当前仅在 ML 领域验证,扩展至生物、化学、物理等实验科学需适配实验设备接口;此外,评审偏见需研究——评审员知晓论文可能 AI 生成后是否影响评分,需更大规模双盲实验验证。

应用场景

对学术研究机构:AI Scientist-v2 可作为研究助理加速早期探索。在博士培养场景中,系统可快速生成多个研究方向初步结果,学生基于此深入验证。这降低试错成本,使学生聚焦最有希望的假设。对于资源有限的实验室,系统可承担重复性实验,释放人力至创造性工作。

对企业研发部门:系统可支持技术预研。在 AI 公司场景中,研发团队用 AI Scientist 探索新架构、新损失函数、新训练方法,快速筛选可行方向。相比人工探索,系统可并行测试更多变体,缩短研发周期。对于产品线迭代,系统可自动化 A/B 测试分析,生成优化建议报告。

对药物研发:AI Scientist 可赋能早期药物发现。在制药公司场景中,系统自主设计分子结构、预测结合亲和力、规划合成路线,优先测试高潜力候选分子。对于罕见病药物研发,系统可快速筛选大量化合物,降低研发成本,使"无利可图"的疾病获得关注。

对材料科学:系统可加速新材料发现。在电池、催化剂、半导体材料研发中,AI Scientist 设计材料配方、预测性能、指导实验合成。对于新能源材料,系统可探索大量元素组合,发现高能量密度、长寿命的电池材料,加速能源转型。

对 AI 平台提供商:AI Scientist 可作为增值服务。在 Hugging Face、Replicate 等平台上,集成 AI Scientist 模块,用户输入研究问题,平台返回初步实验结果和论文草稿。这降低科研门槛,使无编程背景的研究者也能采用 AI 辅助研究,形成差异化竞争力。

对科学期刊:系统可支持论文预审。期刊可用 AI Scientist 快速验证投稿论文的核心实验,检测可重复性问题。对于争议性论文,系统可独立复现关键结果,辅助编辑决策。这提升期刊质量,减少"不可复现"论文发表,维护科学诚信。

延伸阅读

  • 技术报告:The AI Scientist-v2 Technical Report
  • 官方博客:AI Scientist 首篇同行评审论文公告
  • 开源代码:GitHub 仓库(3637 stars)
  • v1 论文:The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

研究机构:SakanaAI、University of British Columbia、University of Oxford

合作者:Cong Lu, Jeff Clune (UBC); Chris Lu, Jakob Foerster (Oxford)

评审结果:3 篇提交,1 篇通过(6.33 分),2 篇未达标

核心创新:agentic tree search、无模板依赖、跨领域泛化、端到端自主

关键词:自动科学发现、AI Scientist、同行评审、树搜索、ICLR、科研自动化、agentic system、负面结果

标签: 暂无
最后更新:2026年3月29日

JVS, Claw

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2022 Coding One. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

闽ICP备17024682号