尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

[论文分享]H2HMem:当AI开始“偷听人类对话”,我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准

[论文分享]H2HMem:当AI开始“偷听人类对话”,我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准
📅 发布时间:2026/6/26 4:33:28

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

📄 Paper • 🤗 Dataset • 🏆 Leaderboard • 🌐 Project Page • 💻 Code

如果您对我们的工作感兴趣,希望您能为我们的Github仓库点一个star,以便更多的人关注到我们的工作。同时欢迎您将您的方法提交到Leaderboard上面。

🧩 一、为什么要做这个工作?

随着大模型逐渐进入真实应用场景(会议助手、医疗记录、智能助理等),一个关键问题开始变得重要:

AI在“长时间、多人物、多模态”的真实对话中,到底能不能可靠地记住信息?

但现有评测普遍存在一个问题:

  • 只关注人类 ↔ AI 对话
  • 大多是纯文本
  • 交互结构单一

但目前agent的应用已经扩展到了新的场景,agent在人与人的对话中作为观察者。

​​

这种状况下的难点在于:

  • 多人同时参与(A/B/C/D)
  • 图片 + 文本混合出现
  • 信息甚至可能互相冲突

因此,我们提出了一个新的benchmark:

🧪 H2HMem


🌍 二、H2HMem到底解决什么问题?

H2HMem专门模拟一种更真实的设定:

AI作为“观察者”,被动记录人类之间的对话,并在之后回答问题。

它包含三个核心特点:

  • 🧑‍🤝‍🧑 多人对话(dyadic + multi-party)
  • 🖼️ 多模态信息(图像 + 文本)
  • ⏳ 长时序多session交互

简单说就是:

不再是“你和AI聊天”,而是“AI在旁边听你们聊天”。


🏗️ 三、我们是怎么构建这个数据集的?

整体采用human-in-the-loop + LLM生成 pipeline:

​

  • ① 先构建人物设定(性格/背景/职业/说话方式)
  • ② 再生成多session场景(旅游、医疗、宠物等)
  • ③ 引入图像(检索 + 生成 + 人工修正)
  • ④ 用LLM生成完整多人物对话
  • ⑤ 自动生成 + 人工校验QA任务

整个过程确保:

对话是连续的、图文是对齐的、人物关系是稳定的


🧪 四、我们如何评估“记忆能力”?

我们将memory能力拆成三大类:

1️⃣ Memory Recall(记住发生了什么)

包括:

  • 单模态事实回忆(UPR)
  • 图文对齐检索(CRR)
  • 多session信息更新(KR)

2️⃣ Memory Reasoning(理解发生了什么)

包括:

  • 时间顺序推理(TR)
  • 因果推理(MCR)
  • 指代与人物关系追踪(RET)

3️⃣ Memory Application(如何用记忆)

包括:

  • 测试时学习(TTL)
  • 冲突检测(CD)
  • 信息缺失时拒答(AR)

📊 五、实验结果

我们在多种主流方法(RAG / multimodal memory / agent memory)上进行了测试。

整体结果呈现出一个比较一致的趋势:

当前模型在“检索信息”方面表现尚可,但在“组织和理解记忆”方面仍然明显不足。

更具体来说:


🧠 1. 跨模态对齐仍然是主要瓶颈

模型可以找到信息,但经常无法正确对齐:

  • 文本 ↔ 图像关系
  • 图像属于哪个说话人
  • 图像对应哪个事件

🧑‍🤝‍🧑 2. 多人对话引入明显混淆

在multi-party场景中:

  • speaker attribution错误增加
  • 人物关系容易混乱
  • 冲突信息难以区分

⏳ 3. 时间与因果推理能力较弱

尤其在:

  • 事件顺序
  • 多session更新
  • 逻辑因果关系

这些任务上表现明显下降


💡 六、一个更本质的发现

如果从整体来看,我们可以总结一个核心现象:

当前大模型的“记忆”更像是信息检索,而不是结构化理解。

它们可以:

  • 找到相关片段
  • 回忆局部事实

但难以做到:

  • 将多模态信息对齐
  • 在多人之间正确归属信息
  • 在时间维度上保持一致性
  • 处理冲突信息

🚀 七、H2HMem的意义

H2HMem的目标不仅仅是一个benchmark,而是希望推动:

下一代memory agent从“记忆检索系统”走向“结构化认知系统”

未来的AI如果要真正进入真实世界,需要具备:

  • 多人交互理解能力
  • 多模态长期记忆能力
  • 跨时间一致性建模能力

📌 总结

H2HMem揭示了一个很关键的现实:

记住信息并不难,但在复杂人类交互中“正确理解并使用记忆”仍然非常困难。

八、资源

TypeLink
📄Paperhttps://arxiv.org/abs/2606.09461v1
💻Codehttps://github.com/varib1/H2HMEM
🏆Leaderboardhttps://h2hmemleaderboard1.vercel.app/
🤗Datasethttps://huggingface.co/datasets/varib/H2HMEM
🌐Project Pagehttps://h2hmemprojectpage.vercel.app/

我们在此处提供了我们论文相关的资源。

相关新闻

  • 程序员“门派”风云:纯手敲、AI 辅助还是平衡之道?
  • Spring Boot 自定义 Starter 模板
  • Brave浏览器安全Headers配置实战:防御XSS与CSRF攻击

最新新闻

  • 今天是个好天气! ☀️
  • 世界杯引入 AI 辅助判罚,裁判真的会“失业“吗?
  • 6.25-----
  • 2025门店稳配增效实战:3步拆解功效护肤项目高复购与收现底层逻辑
  • 【无人机协同任务】基于虚拟引导结合MPC的人工势场算法实现无人机群系统协同攻击,提升动态环境中的任务成功率并降低风险附Matlab代码
  • 2026年常见文献管理工具优缺点横评:7款主流软件功能对比与客观选型参考

日新闻

  • Qwen2.5-Turbo百万上下文实战指南:百炼平台长文本处理全解析
  • 怎么监控对标账号更新,2026年作者监控工作流,5款深度对比
  • EdgeRemover:专业级Windows Edge浏览器管理工具,彻底解决顽固软件卸载难题

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号