D-Mem：双过程记忆系统，认知科学启发 LLM Agent 记忆架构

2026年3月21日 14点热度 0人点赞 0条评论

导语：arXiv 最新论文提出 D-Mem，一个受认知科学双过程理论启发的 LLM Agent 记忆系统。该系统保留轻量级向量检索处理常规查询（System 1），同时建立 exhaustive 深度阅读模块作为高保真 fallback（System 2），通过多维度质量门控动态桥接两过程，在 LoCoMo 基准上 F1 分数达 53.5，恢复 Full Deliberation 96.7% 性能且计算成本显著降低。

核心内容

随着持久化、自适应性自主 Agent 的发展，为长程推理配备高保真记忆访问能力已成为关键需求。然而，主流的检索式记忆框架采用增量处理范式，持续将会话记忆提取并更新到向量数据库中，查询时依赖语义检索。这种方法虽然快速，但本质上依赖有损抽象，经常遗漏上下文关键信息，难以解决需要细粒度上下文理解的查询。

研究团队提出的D-Mem 框架采用双过程架构，模拟人类认知中的元认知监控机制。系统包含三个核心组件：

System 1（Mem0）：作为基础轻量级检索模块，Mem0 在标准 Mem0 范式基础上改进，通过高效提取和更新显著会话记忆到向量数据库，快速解决大多数常规查询。该模块采用 top-10 相似记忆而非通用摘要，并在记忆更新前增加相关性过滤步骤，减少认知负载和噪声。

System 2（Full Deliberation）：当 System 1 无法解决查询时，系统升级到 exhaustive 深度阅读模式。该模块绕过压缩记忆，直接处理原始对话历史，执行查询引导的时间扫描，利用原始问题作为判别锚点，通过定量评分机制（0-10 分）逐块提取查询相关事实。应用严格的多阶段过滤后，合成高度 grounded、高保真的答案—— closely 模仿人类目的性阅读的认知过程。

多维度质量门控（Quality Gating）：这是 D-Mem 的核心创新。作为严格的分析守门人，该模块根据严格的多维通过/失败标准评估初始 System 1 输出——涵盖相关性、忠实性与一致性、完整性三个正交维度。仅当初始输出未能满足任何标准时，架构才升级到计算密集的 System 2，确保 Full Deliberation 仅在关键信息缺失时触发。

性能表现在 LoCoMo 和 RealTalk 基准上使用 GPT-4o-mini 和 Qwen3-235B-Instruct 的实验结果令人瞩目：Quality Gating 在 LoCoMo 上 F1 分数达 53.5，超越静态检索基线 Mem0*（51.2），并恢复 Full Deliberation 96.7% 的性能（55.3），同时输入 token 和推理时间显著降低。在 LoCoMo 数据集上，Full Deliberation 相比快速路径增加超过 10 倍的输入 token 和推理时间，而 Quality Gating 实现了准确性与效率的平衡。

Full Deliberation 作为强基线：研究团队建立了 exhaustive 处理原始对话历史的 Full Deliberation 方法作为高保真上限。由于该提取机制严格查询引导，确保明确、细微的细节被精心保留。其逐块处理有效缓解了"Lost-in-the-Middle"现象。这一基线为未来长记忆架构设定了关键瓶颈转变：要超越此基线，架构必须从提取显式事实进化到主动捕获和综合纵向历史中的隐式信息。

技术/行业洞察

D-Mem 的设计反映了 Agent 记忆系统领域的一个关键趋势：从单一检索向双过程认知架构演进。传统 RAG 和记忆系统主要依赖单一检索机制，要么快速但有损（向量检索），要么准确但昂贵（全文处理）。D-Mem 通过双过程分层和动态门控，实现了认知经济性与推理准确性的平衡。

这一设计的深层洞察在于：记忆检索的本质是认知资源分配问题。人类认知系统通过 System 1（快速、直觉）和 System 2（慢速、分析）的分工实现认知经济——大多数日常决策由 System 1 处理，仅复杂问题触发 System 2。D-Mem 将这一原理应用于 LLM Agent 记忆，通过质量门控实现类似的资源优化。

有损抽象问题的揭示指出了当前记忆系统的核心痛点：查询无关压缩导致信息丢失。现有系统如 MemoryBank、Mem0 等在存储阶段进行激进的查询无关压缩，将会话压缩为语义片段。这种方法剥离了潜在的上下文细微差别——如未陈述的时间逻辑（相对时间计算）或多跳依赖关系。当面临需要严格演绎的查询时，静态检索无法重建压缩过程中丢失的精确逻辑链。

质量门控的多维评估框架体现了元认知监控的工程化实现。相关性评估确保检索内容与查询主题匹配；忠实性与一致性评估验证信息与原始对话的一致性；完整性评估判断是否遗漏关键信息。三维度综合判断使得系统能够准确识别何时需要升级到深度处理，避免不必要的计算开销。

Full Deliberation 的查询引导设计解决了"Lost-in-the-Middle"现象。传统长上下文处理中，模型倾向于关注开头和结尾，忽略中间内容。D-Mem 通过逐块处理并以原始问题为锚点进行判别性评分，确保所有相关片段都被公平评估，无论其在对话历史中的位置。

从行业应用角度看，D-Mem 对客服对话系统、个人助理、长期陪伴 Agent、企业知识库助手等场景都有直接价值。这些场景都需要 Agent 在长程交互中保持连贯记忆，同时平衡响应速度和准确性。双过程架构使得系统能够在大多数简单查询时快速响应，在复杂推理时保证准确性。

然而，该框架也面临挑战。首先，质量门控本身的判断准确性依赖评估模型的能力，错误的门控决策可能导致不必要的 System 2 触发或关键信息遗漏。其次，Full Deliberation 的计算成本仍然较高，在高频查询场景可能产生显著延迟。此外，如何定义"完整性"等抽象标准、如何设置各维度阈值等工程问题需要针对具体场景调优。