当前位置: 首页 > news >正文

NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理

论文名称:EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

发布时间:2025年10月28日

👉一键直达论文

👉一键直达Github

👉Lab4AI大模型实验室论文阅读

✅此平台提供AI导读和翻译等工具,辅助论文阅读。

✨研究背景

现有多模态大语言模型擅长第三人称视觉理解,但缺乏第一人称(自我中心)视角的推理能力。自我中心视频的核心挑战在于推断摄像机佩戴者不可见的意图及其与环境的细粒度交互,这要求模型具备长时序因果推理和精确的时空定位能力。然而,当前主流数据集缺乏详细的推理链和手物交互标注,导致模型难以理解复杂的自我中心活动,限制了其在可穿戴助手和具身智能中的应用。

✨研究框架

EgoThinker的框架核心是数据驱动与两阶段训练。首先,我们构建了包含500万问答对的大规模数据集EgoRe-5M,其囊括了从短时感知到长时序因果推理的多种任务。基于此,模型先通过监督微调 学习基础的视频理解与推理能力;再通过基于规则奖励的强化微调,专门优化其在手物空间定位与时间区间定位上的精度,从而将高层推理与低层感知紧密结合。

✨核心贡献

本文的核心贡献包括三方面:

  • 提出EgoRe-5M数据集:这是一个包含丰富思维链与手物交互标注的大规模自我中心问答数据集,涵盖多样化的真实场景与任务类型,为自我中心推理研究提供了重要数据基础。
  • 设计两阶段训练范式:通过SFT+RFT的结合,显著提升了模型在时空定位与因果推理方面的能力,尤其在细粒度交互理解与长时序推理任务中表现突出。
  • 构建EgoThinker模型并在多个基准测试中取得SOTA性能:在EgoPlan、EgoSchema、VLN-QA等自我中心推理任务中显著优于现有模型,同时保持通用视频理解能力,展示了其在可穿戴AI与具身智能中的潜力。
http://www.rkmt.cn/news/63047.html

相关文章:

  • 2025年燃气低氮热水锅炉加工厂权威推荐榜单:家庭燃气热水锅炉/立式卧式燃气热水锅炉/半吨燃气热水锅炉设备源头厂家精选
  • 08.入门篇-Java程序运行原理
  • 【水印检查】字符串处理和矩阵的存入
  • 从零部署网站客服系统:我踩过的域名和服务器坑,帮你省下几千块!
  • 微波烘干设备厂家技术实力与行业应用解析
  • 2025 年最新推荐激光切管机厂家排行榜:聚焦高效高精度设备,助力企业提升金属管材加工品质高速 / 高精度 / 零尾料 / 免画图 / 全自动 / 三卡盘激光切管机公司推荐
  • PostgreSQL 18 - 时间约束 (Temporal Constraints)
  • 升级Win11专业工作站版密钥
  • 多线程+asyncio端口扫描器
  • U635735 Treap=Tree+Heap
  • Docker客户端控制局域网服务器 - a-cool
  • U635734 神机
  • 2025年抗气爆O形圈厂家权威推荐榜单:橡胶扶正器/V3级胶筒/震击器源头厂家精选
  • 2025年ai智能体推荐公司权威推荐榜单:智能体搜索‌/aigeo‌/AIGEO源头公司精选
  • 2025年企业内部知识库私有化部署服务商全景指南:选型必读——聚焦AI模型与Deepseek方案,贯通知识库与智能BI本地部署的技术演进与厂商矩阵
  • 2025企业知识管理破局:AI知识库与智能BI私有化部署实战路径(含知识库部署服务商、AI知识库部署方案商、BI私有化部署方案商全景梳理)
  • [H3C/华三]Super VLAN技术简述与配置
  • 留学申请怎么选,留学中介排行榜TOP10表现突出
  • iOS 应用测试的全流程 构建从功能验证到性能诊断的多工具协同体系
  • 2025哪家英国留学中介好
  • 数组切片仅是视图
  • 靠谱过碳酸钠厂家名单盘点,生产厂家、供货商 、批发商优选TOP名单:质量好的过碳酸钠厂家
  • 2025知名的成都制冷设备厂家最新TOP排行榜
  • 想要申请不踩雷,锁定热门十大留学中介机构
  • 十大留学机构 2025 对决:文书才是申请破局关键
  • 哪些品牌跻身十大留学机构榜单,申请更亮眼
  • STM32的SPI双机通信实现
  • 意义行为转向:AI元人文视域下价值原语化的方法论革命与伦理突破
  • 2025年螺丝装袋机供货商权威推荐榜单:螺丝包装机/电子配件包装机/五金自动包装机源头厂家精选
  • 经典ACM板元与非协调元的Matlab实现