导语:arXiv 最新论文探索大语言模型的数学创造力,研究 LLM 能否生成有价值的数学研究问题。研究团队开发 DeepMath-generate 智能体,在微分几何领域生成 665 个研究问题。经人类专家验证,许多问题此前未知且具有独特研究价值,为 AI 辅助数学研究开辟新方向。
核心内容
当前大语言模型在数学领域的研究几乎全部聚焦于推理能力评估——即模型能否逐步推导出正确答案。然而,数学的灵魂在于创造力:提出前所未有的概念、发明巧妙的方法、构造颠覆既有认知的反例。这项研究将视角从"解题"转向"出题",探索 LLM 生成数学研究问题的潜力。
研究背景 这是数学创造力评估系列的第二篇论文。前作提出了数学创造力的三大评估维度:新概念生成、新方法发明、新数学对象构造。本研究在此基础上,进一步探究 LLM 能否提出有价值的、前沿的数学研究问题。
智能体架构 研究团队开发了 DeepMath-generate 智能体,由生成器和评估器两个组件构成。生成器根据系统提示创建数学问题,评估器按照预设标准判断问题是否"有价值"。生成器根据评估器反馈迭代改进问题,形成闭环优化。系统使用 GPT-5/GPT-5.3 模型通过 API 调用实现。
好问题的标准 研究定义了优秀数学问题的三大核心属性:一是深刻洞察力与前瞻性,问题应直指学科核心本质或预示潜在新领域;二是跨领域桥梁作用,能连接看似无关的两个领域的问题往往意义重大;三是极致简洁性,优美的问题常以极简方式表达,如庞加莱猜想般"入口窄、深度深"。
实验结果 研究将智能体应用于微分几何领域,选取 200 个不同研究方向(包括调和映射、曲率与拓扑等),为每个方向生成 5 个不同的研究问题,共计 665 个问题。经人类专家验证,许多问题此前未知且具有独特研究价值。论文展示了两个关于"奇异球面黎曼几何"的具体问题,这些问题数学上自洽且精准针对非负曲率与奇异光滑结构的相互作用,解决任一问题都将深刻揭示曲率如何约束光滑结构。
局限性 研究团队坦言,生成的数学问题"还不够令人兴奋"——智能体尚未能生成类似庞加莱猜想级别的重大问题。这需要进一步改进提示设计、聚焦更具体的知识点、优化智能体架构。
技术/行业洞察
这项研究反映了 AI 与数学交叉领域的一个关键趋势:从解题能力向出题能力演进。现有数学 AI 研究几乎全部聚焦于"模型能否解决已知问题",但提出新问题同样是数学研究的核心能力——有时甚至更重要,因为一个好问题能开辟新的研究方向。
生成器 - 评估器架构的深层意义 在于模拟人类数学家的"提出 - 反思"循环。人类数学家提出猜想后,会自我评估其价值、可解性、与现有理论的联系,然后迭代改进。DeepMath-generate 通过双组件架构实现了这一认知过程的自动化,为 AI 辅助数学发现提供了新范式。
提示工程的核心作用 值得强调。让 LLM 理解"什么是好问题"比让它"生成问题"更关键。研究通过精心设计的系统提示,将"深刻洞察""跨领域桥梁""极致简洁"等抽象标准转化为可操作的生成约束。这体现了提示工程在专业领域的精细化应用。
与现有数学 AI 的对比 具有启示意义。Gemini Deep Think 等模型在"First Proof"基准上解决 6/10 个研究级问题展现了强大的解题能力,但 DeepMath-generate 探索的是更前沿的"无标准答案"领域——生成的问题本身是开放的、未知的。这代表了 AI 数学能力的不同维度。
微分几何作为测试场的选择 具有合理性。微分几何是数学的核心分支,拥有清晰的形式化语言、丰富的未解决问题、以及明确的"好问题"评判标准。这使其成为评估 LLM 数学创造力的理想试验田。未来可扩展到其他领域如数论、代数拓扑等。
从行业应用角度看,这项研究对科研辅助工具、数学教育、AI 基础研究等场景都有价值。例如,在科研场景中,AI 可作为"灵感生成器",为人类数学家提供新的研究思路;在教育场景中,可用于培养学生的"问题意识";在 AI 研究中,可作为评估模型创造力的新基准。
然而,该方法也面临挑战。首先,如何评估生成问题的"真正价值"仍需人类专家介入,自动化评估困难。其次,当前生成的问题"还不够令人兴奋",距离提出划时代问题仍有差距。此外,方法依赖大模型的既有知识库,可能存在"重新发现已知问题"的风险,需要更有效的去重机制。
应用场景
对数学研究者:DeepMath-generate 可作为"研究灵感助手"。在探索新方向时,研究者可借助智能体生成潜在问题,筛选出有价值的方向进行深入。这尤其适用于跨领域研究——AI 可能发现人类专家未注意到的领域间联系。
对数学教育:框架可用于培养学生的"问题提出能力"。传统数学教育侧重解题训练,但提出好问题同样是核心能力。学生可使用 DeepMath-generate 学习如何构造、评估、改进数学问题,提升研究素养。
对 AI 研发团队:方法可作为数学创造力的评估基准。与 GSM8K、MATH 等解题基准不同,DeepMath-generate 评估的是"出题能力",为模型能力评估提供了新维度。团队可在此基础上开发强化学习策略,提升模型的创造性思维能力。
对科研管理:智能体可辅助科研方向规划。在资助决策、团队组建、资源分配时,管理者可参考 AI 生成的问题图谱,识别潜在的研究热点和空白领域,优化科研布局。
对跨学科研究:框架可扩展到其他学科。物理学、计算机科学、经济学等领域同样存在"提出好问题"的需求。DeepMath-generate 的架构可迁移到这些领域,为跨学科创新提供 AI 支持。
延伸阅读
- arXiv 论文:Can LLM generate interesting mathematical research problems?
- PDF 下载:arXiv:2603.18813.pdf
- 代码仓库:GitHub: DeepMath-generate
- 前作:数学创造力评估:DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models
- 相关研究:LLM 与数学创造力研究
论文作者:Xiaoyang Chen 等
提交时间:2026 年 3 月 19 日
论文编号:arXiv:2603.18813 [cs.AI]
核心贡献:DeepMath-generate 智能体、665 个微分几何研究问题、生成器 - 评估器架构、人类专家验证
方法特点:迭代优化、提示工程、跨领域问题生成、数学创造力评估
关键词:大语言模型、数学创造力、研究问题生成、微分几何、智能体、AI 辅助科研、提示工程
文章评论