Memento-Skills：让 Agent 自主设计 Agent 的记忆演化框架

2026年3月23日 25点热度 0人点赞 0条评论

导语：arXiv 最新论文提出 Memento-Skills，一个通用型、可持续学习的 LLM 代理系统，能够作为"设计代理的代理"自主构建、适应和改进任务专用代理。系统基于带状态提示的记忆强化学习框架，将可复用技能存储为结构化 Markdown 文件作为持久演化记忆，在无需更新 LLM 参数的情况下实现持续学习，在 General AI Assistants 和 Humanity's Last Exam 基准上分别实现 26.2% 和 116.2% 的相对准确率提升。

核心内容

研究背景 当前 AI 代理系统主要依赖人类设计的代理架构，针对特定任务手动配置工具、提示词和工作流。这种方法存在两个局限：一是每个新任务都需要人工干预，无法规模化；二是代理能力固定，无法从经验中持续改进。Memento-Skills 提出让通用代理自主设计专用代理的新范式。

核心架构 Memento-Skills 基于记忆强化学习框架构建，核心创新在于"状态提示"（stateful prompts）机制。可复用技能以结构化 Markdown 文件形式存储，作为持久、演化的记忆。这些技能编码行为模式和上下文信息，使代理能够跨交互传递知识。

技能演化机制 系统从简单的基础技能（如网络搜索、终端操作）开始，通过"读写反思学习"（Read-Write Reflective Learning）机制持续改进。该机制源自 Memento 2 研究，包含两个阶段：读取阶段，行为可训练的技能路由器根据当前状态提示选择最相关技能；写入阶段，代理基于新经验更新和扩展技能库。

闭环设计 这种闭环设计实现了"无需更新 LLM 参数的持续学习"——所有适应都通过外部化技能和提示词的演化实现。代理不需要微调或重新训练底层模型，而是通过修改技能文件和状态提示来适应新任务。

端到端代理设计 与依赖人类设计代理的先前的方法不同，Memento-Skills 使通用代理能够为新任务端到端地设计代理。通过迭代技能生成和改进，系统逐步提升自身能力。这种"代理设计代理"的能力代表了 AI 自主性的新层次。

实验结果 在 General AI Assistants 基准测试中，Memento-Skills 实现 26.2% 的相对准确率提升；在 Humanity's Last Exam 基准上实现 116.2% 的相对提升。这些改进来自技能库的持续演化，而非模型参数的更新。

技能路由器 系统的行为可训练技能路由器是关键组件，能够根据当前任务状态和上下文选择最相关的技能。路由器本身可通过强化学习优化，提升技能选择的准确性。

状态提示设计 状态提示不仅包含当前任务指令，还编码了历史交互、已选技能、执行结果等上下文信息。这种丰富的状态表示使代理能够做出更明智的技能选择和演化决策。

技能文件格式 每个技能是结构化 Markdown 文件，包含技能描述、适用场景、执行步骤、预期输出、失败处理等信息。这种格式既便于 LLM 理解，也便于人类审查和编辑。

技术/行业洞察

这项研究反映了 AI 代理领域的一个关键趋势：从静态代理架构向自主演化代理系统演进。传统代理系统的能力在部署时即固定，而 Memento-Skills 使代理能够通过经验持续改进，无需重新训练或微调。

"代理设计代理"的深层意义 在于突破人类设计瓶颈。当前 AI 应用开发需要大量人工配置：定义工具、编写提示词、设计工作流。Memento-Skills 将这一过程自动化，使通用代理能够根据任务需求自主构建专用代理，大幅降低 AI 应用开发门槛。

无需参数更新的持续学习 具有重要实用价值。传统持续学习需要更新模型参数，面临灾难性遗忘、计算成本高、部署复杂等挑战。Memento-Skills 通过外部化技能演化实现适应，避免了这些问题，使持续学习可在生产环境中实际部署。

技能作为记忆的设计哲学 值得深入理解。与向量数据库存储的隐性记忆不同，Memento-Skills 的技能是显式、结构化的知识单元。这种设计使记忆可解释、可编辑、可迁移，支持人类与代理的协作改进。

与现有方案的对比 具有启示意义。AutoGen 提供多代理协作但缺乏持续学习能力；LangGraph 支持工作流编排但需要人工设计；DeerFlow 提供技能系统但技能主要由人类编写。Memento-Skills 综合这些优势，提供自主技能演化的完整框架。

读写反思学习的创新价值 在于形成闭环改进机制。读取阶段确保技能复用，避免重复学习；写入阶段确保知识积累，避免经验流失；反思阶段确保质量提升，避免错误固化。这种三阶段设计使技能库能够持续优化。

状态提示的战略意义 在于提供丰富的决策上下文。传统提示词仅包含当前任务指令，而状态提示编码了完整交互历史、技能选择轨迹、执行结果反馈等信息。这种丰富表示使代理能够做出更明智的长期决策。

从行业应用角度看，这项研究对AI 应用开发平台、企业自动化团队、SaaS 服务商、个人效率工具等场景都有直接价值。例如，在应用开发场景中，平台可使用 Memento-Skills 自动为客户生成定制化代理，无需人工配置；在企业自动化场景中，IT 部门可部署 Memento-Skills 处理多样化业务流程，系统会自主学习和优化；在 SaaS 场景中，服务商可将 Memento-Skills 作为 AI 功能后端，自动适应不同客户需求。

然而，该方法也面临挑战。首先，技能演化的质量和安全性需要保障——自主生成的技能可能包含错误或有害行为，需要建立验证和审核机制。其次，技能库的规模和检索效率需要优化——随着技能数量增长，如何快速定位相关技能成为挑战。此外，系统在某些场景下可能仍需人工干预——对于高风险或高价值任务，完全自主的代理设计可能不够可靠。

应用场景

对 AI 应用开发平台：Memento-Skills 可作为自动化代理生成引擎。在低代码/无代码平台上，用户只需用自然语言描述需求，系统自动构建、测试和优化专用代理。这大幅降低 AI 应用开发门槛，使非技术用户也能创建定制化 AI 助手。

对企业自动化团队：框架可支持业务流程的自主优化。在处理多样化业务流程（如客户支持、订单处理、数据录入）时，Memento-Skills 可从历史执行中学习，自动改进技能和工作流，减少人工配置和维护成本。

对 SaaS 服务商：系统可作为多租户 AI 后端。在服务于多个客户时，Memento-Skills 可为每个客户自动演化定制化技能库，实现"一平台多配置"的灵活部署。技能隔离确保客户间数据和方法不混淆。

对个人效率工具：方法可支持个人 AI 助手的持续学习。个人用户可使用 Memento-Skills 构建专属助手，系统会从日常交互中学习用户偏好、工作习惯、常用工具，逐步演化成高度个性化的效率伙伴。

对教育培训机构：框架可作为 AI 代理开发的教学工具。在 AI 工程化课程中，学生可观察 Memento-Skills 如何从基础技能演化成复杂代理，理解技能设计、状态管理、强化学习等核心概念。开源代码提供实践参考。

对研究机构：Memento-Skills 提供了持续学习和元学习的研究平台。研究者可基于框架探索技能演化的理论边界、跨任务迁移机制、人机协作改进方法等问题，推动 AI 自主性和适应性研究。

延伸阅读

arXiv 论文：Memento-Skills: Let Agents Design Agents
PDF 下载：arXiv:2603.18743.pdf
GitHub 仓库：Memento-Teams/Memento-Skills
Memento 2 研究：Memento 2 相关研究
持续学习综述：LLM 代理持续学习研究

论文作者：Huichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang

提交时间：2026 年 3 月 19 日

论文编号：arXiv:2603.18743 [cs.AI]

核心贡献：状态提示框架、读写反思学习机制、技能路由器、端到端代理设计、无需参数更新的持续学习

方法特点：技能作为记忆、闭环演化设计、结构化 Markdown 技能、行为可训练路由、跨交互知识传递

实验结果：General AI Assistants 提升 26.2%、Humanity's Last Exam 提升 116.2%、从基础技能自主演化

关键词：代理设计代理、持续学习、技能演化、记忆强化学习、状态提示、元学习、自主代理、无需参数更新