具身智能数据集的构建,是当前推动机器人走向通用化的核心瓶颈。与视觉或语言领域不同,机器人数据不仅包含被动感知,还必须涵盖动作、力觉、触觉、多视角与交互动态。因此,其来源极为多元。下面从六个维度,系统梳理这些数据的来龙去脉。
一、真实世界遥操作采集:最“正”的高质量数据
这是目前最具价值也最昂贵的一类来源。人类操作员通过主端设备远程控制机器人,记录下所有传感器流与对应动作。
典型形式与代表:
机械臂桌面操作:在固定平台(如 Franka、WidowX、xArm)上,人用 3D 鼠标、VR 手柄或同构机械手进行控制。
BridgeData V2:使用低成本的 WidowX 机械臂,在厨房、玩具等场景下采集了超过60,000 条轨迹,涵盖推、抓、搅拌等技能。其特点是以第一人称相机和腕部相机为主,语言指令标注丰富,已融入 Open X-Embodiment 合集中。
DROID:在 18 个不同大学/实验室环境中,用低成本的主端装置统一采集,得到约76,000 条多样化操作演示,场景涵盖数百种日常物品组合,强调跨场景泛化测试。
RoboTurk:通过众包平台让全球网民远程遥操作,以极低边际成本获得人类在相同任务上表现出的自然多变策略,证明了群体智慧对数据多样性的放大作用。
移动操作与全身控制:机器人不在固定工位,需要行走与手部协同。
Google Everyday Robots 的数据收集:在办公环境中用 13 台移动机器人,混合遥操作与自主策略,积累了130,000 条轨迹,直接支撑了 RT-1 和 RT-2 模型。这类数据包含基座移动、避障、全身协调,维度极高。
手持式采集器:去机器人的数据收集
为了摆脱昂贵机器人的限制,研究人员直接让人手握一个带相机、IMU 和力传感器的“智能夹爪”进行操作,事后通过动作映射在机器人上复现。UMI(Universal Manipulation Interface):手持夹爪上集成鱼眼相机与惯性传感,人直接在真实场景中倒水、叠衣、插花,采集的视觉和运动轨迹可直接转化为机器人策略。这极大加快了采集速度,并可轻易覆盖从未部署过机器人的动态场景。
真实遥操作数据质量极高,但采集成本线性增长,且受限于可及的物理场景,因此需与其他来源互补。
二、人类中心视频与跨形态迁移
这类数据本身不包含机器人动作,但蕴含了操作常识、任务结构、物体运动规律,可作为预训练的强大知识库,或通过动作提取转化为机器人监督信号。
被动大规模人类活动视频:
Ego4D:长达数千小时的第一人称日常活动视频,包含大量厨房操作、维修、社交互动,提供叙事化文本标注,可用于训练视觉表征(如 R3M、VIP),让机器人理解“如何打开微波炉”的视觉过程。
Epic-Kitchens:以厨房为中心的第一人称非脚本操作,精细记录了切菜、搅拌等动作,是细粒度手物交互建模的黄金数据。
Something-Something V2:众包的人类与日常物品互动的短视频,强调动作语义(如“拿起某物”“覆盖某物”),已广泛用于视频预训练和操作分类。
主动对齐的人-机配对数据:
目标是直接将人类操作视频映射为机器人可执行的动作。RH20T:不仅包含人类在各种场景下的操作视频,还提供了经过校准后的人体运动到机器人动作的对应轨迹,以及对应的多视角 RGB-D、力觉和音频。它用少量机器人执行样本与大量人类演示配对,构建了跨形态迁移的基准。
Open-TeleVision等工作将人类精细手部动作实时重定向到多指灵巧手,期间形成人机运动对应数据集。
从互联网中蒸馏知识:
RT-2 模型除了依赖机器人自身数据,还使用了来自网络的大规模图像和视频文本数据(如 PaLI-X 和 PaLM-E 所用数据),让机器人零样本理解“灭绝的渡渡鸟”或“用石锤敲钉子”这类从未在机器人数据中出现过的概念。这本质上是借用互联网多模态数据扩展语义边界。
三、仿真引擎生成:无限多样性的合成数据
仿真可以突破物理世界的时空和损坏成本限制,自动产生海量带完美标注的数据,是实现“规模扩展”的关键手段。
传统任务与场景级生成:
RLBench:基于 CoppeliaSim,定义上百种桌面任务,每次加载随机物体放置、光照与视觉干扰,可程序化生成大量演示和交互数据,广泛用于具身操作策略的学习与评估。
ManiSkill:基于 SAPIEN 引擎,以高度可复现的物理为基础,提供了由程序化生成的大规模操作数据集,涵盖刚性体、铰接体和流体,包含点云、RGB-D、分割掩码等丰富模态。
LIBERO:专门为语言条件下的持续学习设计的仿真基准,用程序化手段在几种厨房与桌面布局中生成 130 余个任务和对应的自然语言指令序列,数据量可达数千条轨迹。
从少数演示放大为大规模多样数据:
MimicGen:只需在仿真中给出一段人类遥操作演示,系统便能将该轨迹自动适配到不同的物体几何、位置、干扰物布局中,生成成百上千条有效的新轨迹,大幅降低获得大量监督样本的代价。
RoboCasa:专注于大规模厨房环境生成,结合生成式 AI 对物体纹理、布局和任务图进行变化,能产生数千个独特厨房场景和可执行的任务,生成的图像真实度足以支持 Sim-to-Real 迁移。
面向导航和交互的生成式世界:
Habitat(ProcTHOR):用程序化规则生成千变万化的室内 3D 环境(住宅、办公室等),嵌入可交互物体,自动产生 PointGoal、ObjectNav 等导航探索数据,规模可达数万小时交互。
CALVIN使用 PyBullet 生成四个桌面操作环境,任务通过自然语言长链拼接,生成大量需要长期上下文推理的操纵数据。
四、生成式 AI 驱动的新范式:用智能体创造数据
近两年,利用大语言模型、视觉生成模型和世界模型来自动设计任务、构建场景、合成轨迹,成为最具潜力的来源之一,力图实现数据生产的自我循环。
全流水线自动化数据工厂:
RoboGen:提出一种生成式智能体,由 LLM 提出可行的操作任务(如“将杯盖按到杯子上”),然后自动在仿真中分解子任务、搭建相应的 3D 场景、生成基于规则的演示轨迹,并最终分解为策略学习所需的状态-动作对。整个过程无需人类参与,理论上可产生无穷多新颖任务数据。
Gen2Sim:利用 Stable Diffusion 根据文本描述生成物体的多视角图像,并自动提升为带纹理的 3D 模型,再放入仿真中进行大规模操作数据生成,极大扩展了操作对象的视觉多样性和稀有程度。
视觉和语义增强:
使用图像生成模型对真实采集的操作视频进行背景替换、物体纹理变化、光照增强,形成多样化的“增强真实数据”。这已成为 RT-1 等模型标配的数据扩充手段,可让同一动作轨迹产生数百种视觉变体。
五、机器人自主探索与数据飞轮
依靠预设策略或好奇心驱动,机器人自主在环境中行动并记录,再利用这些数据训练更优的策略,形成正反馈循环。
RoboNet:由多个研究机构的机器人自主运行随机推动、抓取策略,收集了超过 15 万次交互视频,每个视频附带当时的动作指令。尽管策略简单,但视频中蕴含的物体运动物理规律,使其成为视频预测和动力学模型的重要预训练来源。
自监督目标达成与重放:许多强化学习系统将智能体探索缓冲区的数据保存,通过事后经验重放(HER)自动生成“成功”的例子。这些自主生成的数据虽噪声大,但无需额外人工标注,可廉价放大。Open X-Embodiment 数据集中也包含相当一部分由“自主策略”或“脚本化探索”直接产生的片段。
这种来源最贴近机器人闭环学习的本质,但存在探索效率和数据质量不稳定问题,常与遥操作数据混合使用。
六、多模态融合的专业数据与聚合生态
除视觉-动作主流数据外,触觉、力控、声音等模态的数据也在逐渐形成独立或融合的来源:
触觉数据:来自 GelSight、TacTip 等光学触觉传感器的数据集,专门记录插入、抓取时的接触几何和高分辨触觉图像,例如Tactile Insertion和Stanford Haptic 数据集,让机器人学会像人一样感受力反馈。
声音数据:通过麦克风阵列录制操作过程中的音频,数据表明声音可帮助判断搅拌是否均匀、容器是否密封等状态,形成“多感官”数据集。
多机器人聚合生态——Open X-Embodiment:它并非新的单源数据,而是将来自全球 34 个研究机构、60 多个现存数据集(BridgeData, RoboNet, DROID, RoboTurk, RH20T, ManiSkill 等)统一到同一种格式的超级集合,包含超过百万条轨迹。这种聚合本身就是当今最具代表性的数据来源思想——不依赖单一来源,而是让异构、多源、多形态的经验在同一个基座模型中共生进化。
总结:来源的生态金字塔
具身智能的数据来源本质上形成了一个金字塔:
顶层是昂贵、高保真的真实世界遥操作数据,用于精准策略训练;
中层是大量人类视频和跨形态映射,提供常识与语义基础;
底层和外延则是仿真生成、生成式 AI 扩增以及互联网知识,它们以几乎零边际成本提供无尽的多样性。
机器人通过自主探索再将上述经验内化、重组,完成数据飞轮闭环。
未来,随着世界模型和可控视频生成技术的成熟,将出现“思维→任务→仿真演示→真实微调”的完整数据自动生成链条,届时数据来源将不再受限于采集,而完全由认知与创造所驱动。
框图解读:
这六大源泉并非孤立,它们呈金字塔式支撑——底层是近乎无限的仿真与生成式合成数据,中层是携带常识的人类视频,顶层是昂贵却高保真的遥操作演示。而“自主探索”则像血液一样在金字塔内循环流动,不断用新产生的数据反哺各层,最终在Open X-Embodiment这样的超级聚合生态中实现跨机器人、跨形态的统一进化。