情感感知代理内存检索指标白皮书ENPMR-Bench 框架(ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents)文档版本:1.0 (领域专家优化版) |领域专家分析|创建日期:2026年5月26日核心目标:创建一套用于评估和提升情感支持AI Agent核心能力情感需求感知型主动内存检索 (Emotional Need-aware Proactive Memory Retrieval, ENPMR)的系统性、指标化框架。 核心概念与指标定义 (Core Conceptual Pillars)1. 理论基础从事实检索到情感支持传统的AI Agent内存检索Memory Retrieval局限于事实保留 (Factual Retention)即基于输入文本的语义相似性进行检索。但在情感支持场景中用户的情绪需求是隐性、微妙且多层次的。ENPMR (Emotional Need-aware Proactive Memory Retrieval):定义为AI Agent能够成功推断用户处于特定情感需求状态并主动检索出高度相关、具有情感支持意义的记忆而非仅仅语义相似的记忆的能力。价值点:ENPMR的评估必须超越纯粹的QA范式进入到心理学/精神分析学相关的维度。2. 情感需求-内存映射结构 (Emotional Need↔ \leftrightarrow↔Memory Type Mapping)本框架的指导原则是利用需求层次理论 (Maslow’s Hierarchy)来构建记忆检索的语义锚点情感需求 (Emotional Need)对应心理缺失 (Deficiency)内存类型 (Memory Type)检索价值 (Retrieval Priority)生理需求 (PN)疲惫、饥饿、身体不适。偏好 (Preference)恢复行动力提供实际的建议。爱与归属感 (LB)孤独、缺乏接纳感、被拒绝。关系 (Relationship)确认联结增强归属感提供共情性回应。尊重需求 (EN)自卑、自我评价偏低、关注度敏感。亮点 (Highlight),关系 (Relationship)肯定用户价值提供认可和积极反馈。自我实现需求 (SA)感到迷茫、失去目标、质疑自我意义。目标 (Goal),力量 (Power),亮点 (Highlight)引导深度思考重燃使命感。 系统级实现步骤 (System Implementation Workflow)这是实现 ENPMR 的工程化流程必须遵循三个阶段Phase 1: 数据采集与注解 (Annotation Corpus Building)用户画像构建 (Persona Generation):生成具备多维属性性别、年龄、职业、兴趣等的用户画像。生活主题锚定 (Theme Anchoring):为每个 Persona 设定 N 个个性化生活主题Life Themes。系统性记忆标注:围绕这些主题人工或半自动地生成核心记忆条目。每个记忆条目必须被强制标注其所属的情感需求类型ENPMR Anchor。对话环境生成:将记忆条目嵌入一个完整的多轮对话历史中。Phase 2: 检索与增强 (Retrieval Context Augmentation)需求推理模块 (Need Inference):Agent首先从用户当前的对话历史H HH中利用状态机或大型语言模型LLM推理出当前的未满足情感需求E n e e d E_{need}Eneed。加权内存召回 (Weighted Retrieval):根据E n e e d E_{need}Eneed和经验权重从Memory Bank M \text{Memory Bank } MMemory BankM中召回一组候选记忆M c a n d i d a t e \mathcal{M}_{candidate}Mcandidate。负采样增强 (Negative Sampling):必须同时召回一批非目标记忆M d i s t r a c t o r \mathcal{M}_{distractor}Mdistractor用于训练模型忽略无关信息提升检索的“特异性”。Phase 3: 响应模型生成 (Response Generation)新的对话a t 1 a_{t1}at1的生成必须是LLM ( H , P , M c a n d i d a t e ) \text{LLM}(H, P, \mathcal{M}_{candidate})LLM(H,P,Mcandidate)。Agent必须证明其回应是高概率地基于M c a n d i d a t e \mathcal{M}_{candidate}Mcandidate的。 评估指标与挑战 (Evaluation Metrics Challenges)本框架要求使用多维指标来评估Agent的性能Retrieval Precision/Recall (核心指标):目标:评估检索出的记忆Similarity ( M r e t r i e v e d , M g o l d ) \text{Similarity}(\mathcal{M}_{retrieved}, \mathcal{M}_{gold})Similarity(Mretrieved,Mgold)与真实金标准记忆M g o l d \mathcal{M}_{gold}Mgold的匹配度。痛点:纯语义模型如BERT/Sentence Transformers的召回率 (RecallK)在情感域上不足。情感 Appropriateness Score (AAS):这是最重要的指标。评估检索出的记忆是否在情感上是“得体的、不会引发二次受伤的”。量化表现:需要专家人工打分而非纯数学计算。内存冲突检测 (Conflict Detection):当多条记忆触发冲突例如一个记忆是“独立”另一个是“依赖”Agent必须能够识别这种矛盾并在响应中进行修正性说明。 实验结果分析与教训 (Experimental Insights)当前局限性当前研究现有模型倾向于直接的、字面意义的反应而缺乏反思性、周期的、指导性的支持。最佳实践 (Best Practice):使用w/Golden(包含情感需求作为约束条件的金标准数据集) 进行训练是性能提升的必然要求。核心结论:内存的价值不在于“存在”而在于“何时以何种情感姿态被召回”。[资源链接]数据集:ENPMR-Bench v1.0 数据集需下载原始标注数据。评估工具:BLRI Scale 对照模型文档。