自改进 Agent 新突破：Hermes 从经验中学习并创建技能

2026年3月25日 17点热度 0人点赞 0条评论

导语：Nous Research 开源 Hermes Agent，首个内置学习循环的自改进 AI 代理系统。研究指出传统 Agent 缺乏持续学习能力，每次对话从零开始。Hermes 通过经验驱动的技能创建、使用中自我改进、跨会话用户建模和自主知识持久化，实现"越用越聪明"。系统支持多平台部署（Telegram/Discord/Slack/WhatsApp/CLI）、200+ 模型切换、子代理并行工作，并提供 OpenClaw 无缝迁移，让个人 Agent 真正成长为用户的数字分身。

核心内容

研究背景 现有 AI Agent 大多是无状态的工具调用器，每次对话从零开始，无法从历史经验中学习。用户需重复配置偏好、重新建立上下文，Agent 无法随使用时间增长而提升能力。这种"健忘"特性限制了 Agent 成为真正的个人助手。

研究团队 Hermes Agent 由 Nous Research 开发并开源。Nous Research 是专注于大模型研究和开源的机构，此前发布了 Nous-Hermes 系列微调模型，在开源社区具有广泛影响力。

核心设计理念 Hermes 的关键洞察是将 Agent 设计为"自改进系统"而非"静态工具"。系统内置完整学习循环：从复杂任务中自动提取技能、在使用过程中优化技能、通过定期 nudges 提示持久化知识、跨会话搜索历史对话、建立深化的用户模型。

技能创建与进化 系统能够在完成复杂任务后自主创建新技能。例如，当用户多次要求"分析 GitHub 仓库并生成报告"时，Hermes 会自动将此流程封装为可复用技能，包含工具调用序列、参数配置和输出格式。技能在使用过程中持续优化，根据执行反馈调整策略。

程序性记忆系统 Hermes 采用双层次记忆架构：短期记忆追踪当前会话上下文，长期记忆存储技能、用户偏好和跨会话知识。记忆系统支持 FTS5 全文搜索与 LLM 摘要结合，实现高效的跨会话召回。用户模型基于 Honcho 方言建模技术，随时间深化对用户需求和习惯的理解。

多平台统一网关 系统提供统一的消息网关，支持 Telegram、Discord、Slack、WhatsApp、Signal 和 CLI 多种接口。所有平台共享同一记忆和状态，实现跨平台对话连续性。用户可在 Telegram 发起任务，在 CLI 查看进度，在 Discord 接收结果。

模型无关架构 Hermes 不绑定特定 LLM 提供商，支持 Nous Portal、OpenRouter（200+ 模型）、z.ai/GLM、Kimi/Moonshot、MiniMax、OpenAI 等多种后端。用户可通过简单命令切换模型，无需修改代码或配置，避免供应商锁定。

终端后端多样性 系统支持六种终端后端：本地执行、Docker 容器、SSH 远程、Daytona 云、Singularity 和 Modal 无服务器。Daytona 和 Modal 提供无服务器持久化——Agent 环境在空闲时休眠、按需唤醒，闲置成本接近零。用户可在 5 美元 VPS 或 GPU 集群上运行。

子代理并行化 Hermes 支持生成隔离的子代理处理并行工作流。用户可编写 Python 脚本通过 RPC 调用工具，将多步骤流程压缩为零上下文成本的单次对话。复杂任务可分解为多个子代理并行执行，显著提升效率。

内置 cron 调度 系统提供自然语言驱动的 cron 调度器，支持定时任务自动执行并投递到任意平台。用户可设置"每日早报"、"夜间备份"、"每周审计"等自动化任务，无需人工干预。

OpenClaw 迁移支持 Hermes 提供完整的 OpenClaw 迁移工具，自动导入设置、记忆、技能和 API 密钥。迁移过程支持干跑预览、选择性导入和冲突处理，确保平滑过渡。SOUL.md 人格文件、MEMORY.md 记忆、用户创建的技能均可无缝迁移。

研究功能 面向研究者的功能包括批量轨迹生成、Atropos RL 训练环境、轨迹压缩用于下一代工具调用模型训练。系统为 Agent RL 研究提供完整基础设施，支持从数据收集到模型训练的全流程。

终端用户体验 CLI 提供完整的 TUI 界面，支持多行编辑、斜杠命令自动补全、对话历史浏览、中断重定向和流式工具输出。用户体验接近本地应用，响应迅速且功能丰富。

安全与隔离 系统提供命令审批、DM 配对、容器隔离等安全机制。敏感操作需用户确认，不同用户的对话完全隔离，工具执行在容器中运行，防止恶意代码影响主机。

开源生态 Hermes 采用 MIT 协议开源，提供完整文档（快速入门、CLI 指南、配置手册、消息网关、安全、工具系统、技能系统、记忆、MCP 集成、cron 调度、架构、贡献指南等）。社区可通过 Skills Hub（agentskills.io）分享和发现技能。

技术/行业洞察

这项研究反映了 AI Agent 领域的一个关键趋势：从静态工具向自改进系统演进。传统 Agent 将 LLM 视为无状态 API，每次调用独立处理，无法积累经验。Hermes 证明通过内置学习循环，Agent 可随使用时间增长而提升能力，真正实现"个人化"。

技能自主创建的战略价值 在于降低用户负担。传统自动化需用户手动编写脚本或配置工作流，门槛高。Hermes 从用户自然交互中学习，自动提取可复用模式，将"用中学"理念落到实处。这种隐式学习比显式配置更符合人类习惯。

使用中自我改进的设计智慧 体现了对实际场景的理解。技能创建后并非一成不变，而是在执行中根据反馈持续优化。例如，某技能在特定场景下频繁失败，系统会自动调整参数或策略。这种在线学习机制确保技能始终适应用户需求。

跨会话用户建模的长期价值 值得强调。传统对话系统每次会话独立，无法建立对用户的深度理解。Hermes 通过 Honcho 方言建模技术，在多次交互中逐步构建用户画像，包括偏好、习惯、常用工具、沟通风格等。这使得 Agent 能提供更个性化的服务。

模型无关架构的现实意义 具有战略考量。LLM 市场快速变化，今天的最优模型明天可能过时。Hermes 不绑定特定提供商，支持 200+ 模型切换，确保用户不被锁定。这种设计在模型性能快速迭代的背景下尤为重要。

无服务器持久化的成本优势 值得注意。传统 Agent 需常驻服务器，闲置时仍产生成本。Hermes 支持 Daytona 和 Modal 无服务器后端，空闲时休眠、按需唤醒，成本接近零。这使得个人用户也能负担得起 24/7 在线的 Agent。

OpenClaw 迁移的生态价值 具有启示意义。Hermes 主动提供 OpenClaw 迁移工具，降低用户切换成本，体现开源社区的协作精神。这种"兼容而非竞争"的态度有助于整个 Agent 生态的发展。

与现有方案的对比 具有借鉴价值。传统方案包括：（1）无状态工具调用器（如 LangChain 基础用法），无法记忆；（2）简单记忆系统（如向量数据库存储历史），缺乏技能进化；（3）封闭商业 Agent（如某些企业助手），锁定严重。Hermes 提供"开源 + 自改进 + 多平台 + 模型无关"的完整方案。

从行业应用角度看，这项研究对个人知识工作者、开发者、研究人员、小型团队、开源社区等场景都有直接价值。例如，个人用户可部署 Hermes 作为 24/7 在线的个人助手，处理邮件、日程、研究等任务；开发者可用其自动化代码审查、测试、部署流程；研究人员可利用其 RL 训练功能探索新算法。

然而，该方法也面临挑战。首先，技能创建的准确性需验证——自动提取的技能是否符合用户意图，需更多用户反馈。其次，隐私保护需加强——跨会话记忆包含敏感信息，需探索本地加密存储方案。此外，多平台同步的延迟需优化——确保用户在不同平台获得一致体验。

应用场景

对个人知识工作者：Hermes 可作为全天候个人助手。系统可处理邮件筛选与回复、日程安排与提醒、文献检索与摘要、报告生成与格式化等任务。随使用时间增长，系统学习用户偏好（如邮件语气、报告格式、优先级规则），提供越来越精准的服务。

对开发者：框架可自动化开发流程。在代码审查场景中，Hermes 可自动拉取 PR、运行测试、检查代码规范、生成审查意见。在部署场景中，系统可监听 Git 推送、自动构建、测试、部署到生产环境，并通过 Telegram 通知结果。

对研究人员：方法可支持文献调研与实验管理。系统可定期检索 arXiv 新论文、根据用户研究方向筛选、生成摘要并推送。在实验场景中，Hermes 可调度 GPU 资源、监控训练进度、记录实验日志、生成对比报告。

对小型团队：系统可充当共享助理。团队可部署单一 Hermes 实例，多成员通过不同平台访问。系统维护团队级记忆（如项目进度、决策记录、联系人信息），协调跨成员任务，提升协作效率。

对开源社区：Hermes 提供了 Agent 开发的参考实现。社区可基于该框架开发垂直领域技能（如法律助手、医疗咨询、教育辅导），通过 Skills Hub 分享。模型无关架构确保技能可在不同 LLM 上运行，扩大受众。

对 Agent 研究者：系统提供了 RL 训练基础设施。研究者可利用批量轨迹生成功能收集数据，使用 Atropos 环境训练新策略，通过轨迹压缩优化模型。这降低了 Agent RL 研究门槛，加速领域进步。

自改进 Agent 新突破：Hermes 从经验中学习并创建技能

核心内容

技术/行业洞察

应用场景

延伸阅读

文章评论