当前位置：首页 > news >正文

HumanEgo——从半小时人类第一视角视频中进行零样本学习的4大关键点：对人类手臂进行图像修补、将每只手和每个物体编码为一个交互中心 Token、流匹配策略、稠密辅助目标

news 2026/6/9 8:56:18

前言

我个人之所以关注到本文要介绍的HumanEgo，纯粹就是因为其数采设备就一副眼镜，手上啥东西都没有..

如原论文所说，人类第一视角视频无需任何机器人硬件即可捕获大量丰富的操控示范，但由于人在视觉外观与运动学(运动结构)上都与机器人存在“具身鸿沟”，将这些技能迁移到机器人上仍然具有挑战性

故来自马里兰大学的研究者提出 HumanEgo 框架『HumanEgo 从人类第一视角视频中学习机器人策略。人类佩戴Aria眼镜并采集示范数据（左）；将第一视角视频转换为以交互为中心的表示，并用其训练流匹配策略（中）；该策略零样本迁移到机器人上——无需额外的环境设定、实验装置或具身形式（右）』
通过将每一段人类示范提升为手–物交互的实体级表示，并训练一个带有稠密辅助目标的 flow matching 策略，从而弥合这种具身差异，并从每条轨迹中放大监督信号
HumanEgo 完全不依赖机器人数据、与硬件无关、数据高效，并支持零样本的人到机器人的技能迁移
在每个任务仅提供 30 分钟人类视频的条件下，HumanEgo 在四个真实世界任务上取得了 92.5% 的平均成功率（仅用 15 分钟视频也能达到 75%），相较于同等时间的机器人远程操控提升了 41%，并能在新机器人、新相机和新环境上实现稳健的零样本迁移

第一部分 HumanEgo: Zero-Shot Robot Learningfrom Minutes of Human Egocentric Videos

1.1 引言与相关工作

1.1.1 引言

当前最先进的操作策略通常需要数百到数千条针对特定任务的机器人演示数据[1,2,3,4,5,6]，而这类数据的采集成本高、耗时长且不便执行

相比之下，人类第一视角视频提供了一种更加廉价且易于获取的替代方案：借助头戴式摄像机 [7]，单个个体即可在任意环境中于数分钟内收集到任务演示数据

那么，应当如何利用这类数据？现有方法大致可分为两大范式，但二者都存在显著局限性

共训练（Co-training）方法 [8,9,10,11] 使用人类视频来补充机器人数据，但依然需要为每一个新任务收集大量的机器人演示——这只是减轻而非消除数据负担
大规模预训练（Large-scale pretraining）方法 [12,13,14,15] 则基于海量第一视角语料进行学习，但其对算力需求极高，并且在得到可部署的策略之前，仍然需要额外的、面向机器人的后训练过程

本文追求一个更直接的目标：仅利用数分钟的人类第一视角演示，就学习出可部署的操作策略——无需任何机器人数据，也不依赖互联网规模的预训练

然要实现这一目标，会暴露出两个根本性挑战

表征挑战：弥合具身差距
人类和机器人在视觉外观和运动学两方面都存在差异，并且这些鸿沟各自需要不同的解决方案

在视觉层面
基于重定向的方法 [16,17,18] 能从人类视频中合成类似机器人的图像，但对形态结构和视角差异非常脆弱
基于点跟踪的方法 [19,20,21] 提取稀疏的几何特征，却丢弃了交互周围丰富的视觉上下文

在运动学层面
分层方法 [22,23,24] 将高层计划与低层执行分离，但在低层控制器部分仍然需要机器人数据
以物体为中心的方法 [25,26,27] 只跟踪被操纵的物体，从而丢失了关于手是如何接近、抓取以及释放该物体的关键信息

作者认为，仅有手或仅有物体都无法定义一项技能——关键在于它们之间的交互。这正是HumanEgo 背后的核心表征主张：机器人不应模仿人类身体本身，而应恢复能够在不同躯体之间迁移的、与任务相关的交互几何信息
学习挑战
从极少数据中学习。尽管互联网上存在大量原始的人类视频，但带有精确动作标签的干净片段仍然稀缺，因此如何在每个任务仅有几分钟视频的条件下实现高效的数据利用学习就变得至关重要

在这种学习范式下，主要出现两类挑战：多模态性和信号稀疏性

关于多模态性挑战，同一任务往往存在多种同样有效的完成策略。基于扩散的模型方法[3] 能够刻画这种分布，但需要进行大量去噪步骤，使得推理速度较慢；而更快速的替代方案 [28] 表达能力则相对不足
关于信号稀疏性挑战，每条轨迹中除了手部动作之外，还蕴含了丰富的信号——例如物体运动、视觉轨迹、手–物体状态等——然而现有工作仅利用了其中很小一部分：如视觉前瞻 [25,29,30] 或 2D 轨迹 [19,27,31] 这类单一的辅助目标，或是上游预训练语料库 [12,13,32]

作者主张，将快速的生成式策略与多类型、稠密监督相结合，是在仅有几分钟的人类第一视角视频下仍能实现高效数据利用学习的关键
换言之，目标是在同样的人类视频中尽可能“挤出”多种形式的监督信号，使得规模较小、精心筛选的示范数据也能发挥远超其体量的效果

对此，作者提出了HumanEgo，从针对性的设计入手逐一弥合上述各类差距『手臂修复和视觉关键点用于弥合视觉差异；以交互为中心的 token 编码所有实体之间的空间关系；带有稠密辅助目标的流匹配策略从分钟级人类数据中学习双臂机器人动作』

针对视觉差距
作者对每一帧第一视角图像中的人类手臂进行图像修补（in-paint），并在其位置渲染带有已跟踪物体关键点的虚拟夹爪，从而获得与具体具身形态无关的视觉观测
针对运动学差距，作者将每只手和每个物体编码为一个交互中心 Token（Interaction-Centric Token, ICT），从而得到一种紧凑的、对具身形态和视角都不敏感的手–物体交互空间观测
针对多模态性，作者采用 flow matching [33] 策略学习策略网络，在推理速度较快的前提下生成具有高度表达力的多模态动作
针对信号稀疏，作者设计了三个稠密的辅助目标：2D 轨迹、物体运动以及潜空间一致性
这三者结合起来，从每条轨迹的场景动态中挖掘出多类型的稠密监督，从而在示例数量有限的情况下显著提升学习效果

1.1.2 相关工作

近年来，研究社区构建了大量大规模的第一视角（egocentric）以及手–物体交互数据集[34,35,15,36,37,38,39,14]，为从人类视频中学习操纵技能提供了数据基础

在此基础上，一类工作致力于扩展通用策略与世界模型 [12,13,40,41,42] 的规模，这些模型从海量语料中学习与具体具身形态无关的表征，但在部署时往往需要巨大的计算资源以及针对每个任务的机器人后训练

另一类工作则在配对的人类与机器人数据上进行联合训练 [8,9,26,43,10,44,11]，在不同具身形态之间进行联合优化，以摊销人类示范信号的成本，然而每个新任务仍然需要自己的一批机器人演示

为了完全避免使用机器人数据

视觉重定向方法[16,23,17,18] 则通过对人类手臂进行修补（inpainting）并在其位置渲染机器人，合成伪机器人演示，但这种渲染图像在面对形态和视角的多样性时非常脆弱(brittle)
(运动学)分层方法 [22,24,45] 从人类视频中学习高层计划，并将低层控制委托给在机器人上训练的控制器，但这仍然在低层技能上依赖机器人数据
为了完全避免使用机器人数据，第三类方法尝试学习与具身形式无关的表示以实现零样本迁移，但它们在“表示什么”这一点上存在差异：
基于点的方法 [21,20,46,47] 将场景编码为二维或三维点，从而获得计算效率，但丢失了手与物体之间的结构关系
以物体为中心的方法 [48,49,31,29,50] 通过物体的 6 自由度姿态或运动来表示场景，能够捕获物体动力学，却仅以隐式方式建模操作器
而基于目标条件的方法 [19,51] 在给定目标图像的条件下预测二维轨迹或三维手腕轨迹，但在部署时需要显式的目标指定

若干其他方向 [52,25,53,30,54,55,56,57] 也从互补的维度探索从视频中学习操作技能。这些零样本方法中有一条共同主线：它们要么表示手，要么表示物体，但很少表示二者的交互——而交互恰恰是定义操作行为的核心信号

HumanEgo 通过一种以交互为中心的表示弥合了这一鸿沟，该表示显式编码手与物体之间的空间关系，使得在没有任何机器人数据或大规模预训练的前提下，仅凭几分钟的人类第一视角视频就能实现零样本迁移

1.2 HumanEgo

1.2.1 自我中心视角数据采集

一名佩戴 Aria Gen1 眼镜 [7] 的人类演示者在任意便利的环境中执行目标任务——不受桌面高度、光照或背景的限制，也无需专门的工作空间或标定（见图 11；附录 A）
每次演示只需几秒；作者以 30 Hz 的频率为每个任务采集约 30 分钟的人类演示数据
Aria 眼镜尤其适合用于从人类视频中学习：其 Machine PerceptionServices（MPS）提供高质量的 6-DoF SLAM 追踪、标定好的三维手部姿态估计，以及同步的自我中心 RGB 图像流——这一切都来自单一的轻量级可穿戴设备

1.2.2 视觉观测预处理

作者分两步将未畸变的第一人称视角帧转换为与具体具身形式无关的 RGB 观测

首先，使用 SAM2 对人的手部和手臂进行分割，并通过 LaMa 修复 [58] 将其移除，从而消除视觉具身差异
其次，在修复后的图像中渲染一个虚拟夹爪以及被跟踪物体的关键点『二者均来源于空间观测(第 3.3 节)』，以视觉线索的形式隐式编码 6D 位姿信息
该轻量级处理过程无需昂贵的领域自适应或图像翻译，即可弥合视觉具身差异

1.2.3 空间观测预处理

作者构建显式的实体级空间观测：将每个物体以及双手都视为实体，对手部和物体进行跟踪以恢复每个实体的 6 自由度位姿(6-DoF pose)，然后将它们之间的相对关系编码为以交互为中心的Token（Interaction-Centric Tokens）

下面将这三个步骤分别展开说明：

第一，手部追踪和运动优化

作者从Aria MPS [7] 生成的3D 手部关键点开始，通过SLAM 将其提升到世界坐标系，并使用Savitzky-Golay 对位置进行平滑，对旋转使用指数移动平均（EMA）进行平滑

然后将拇指-食指对视为一个虚拟的平行夹爪夹持器(图12)，提取一个SE (3) 末端执行器位姿Tee 和一个标量抓取值g

在位置方面，取指尖中点
在方向方面，在掌指关节(MCP)而不是指尖上构建Gram-Schmidt 标架
其中MCP mid 是两个MCP 的中点；这避免了在捏合抓取时指尖汇聚导致的退化

对于抓取，通过对拇指-食指指尖距离进行归一化(细节见附录B.3)来计算一个标量，并在部署时进行二值化

第二，物体跟踪和位姿估计

作者使用文本提示的Grounding DINO [59] 检测每个物体，使用SAM2 [60] 对其进行分割，并从掩膜中采样轮廓关键点
作者使用CoTracker3 [61] 在视频中跟踪这些2D 关键点un，并通过将其提升到3D，使用相机内参和逐帧的Aria SLAM 位姿

取N 个被跟踪点的质心作为物体位置以抵消逐点三角化噪声，，并使用Orient-Anything V2 [62] 估计朝向
在抓取过程中，物体会被手遮挡，因此作者应用运动学锁定：从抓取开始时刻起，将物体位姿刚性地绑定到手

第三，通过基于交互的token(ICT)进行实体空间编码

作者将每个实体的6 自由度位姿编码为一个ICT，同时捕获其在共享参考系中的位姿以及其与双手之间的空间关系

对于每个实体，token定义为：

其中为实体类型（手或物体）
是实体在共享参考系REF(静止相机坐标系)中的位姿
和分别是用实体的局部坐标系表示的左手(LH)和右手(RH)位姿
是抓取状态(对于手是二值化的手指距离；对于物体是一个哨兵值)

作者将每个SE(3) 变换展平成一个9D 向量，即将归一化的平移与6D 旋转表示[63] 拼接起来，并在没有真实标注的情况下完全依赖现成的感知模块来获得所有量。不同于以往使用全局点云或绝对坐标的方法[21,20]，作者将每个ICT 锚定到一个实体上，从而不断变化的和可以直接反映操作状态(接近、抓取或移动)，使得该表征在本质上以交互为中心