【World Models】李飞飞重新定义世界模型:基于POMDP的功能分类学(渲染器/模拟器/规划器)与大一统趋势深度解析
摘要
2026 年 6 月,李飞飞在其 Substack 博文 “A Functional Taxonomy of World Models” 中,针对 AI 行业滥用"世界模型"概念的乱象,提出了基于经典 POMDP(部分可观测马尔可夫决策过程)智能体循环的功能分类框架,将市面上所有被称为"世界模型"的系统划分为三类:渲染器(Renderer,生成视觉画面)、模拟器(Simulator,输出符合物理规律的世界状态)、规划器(Planner,输出智能体动作决策)。本文从理论框架、三类模型的定义与代表产品、融合趋势与数据瓶颈四个维度进行深度拆解。
原文:A Functional Taxonomy of World Models - Dr. Fei-Fei Li (Substack)
一、问题背景:为什么需要重新定义"世界模型"?
“世界模型”(World Model)已成为 AI 领域被滥用最严重的术语之一。文生视频模型(如 Sora)自称世界模型,游戏生成引擎自称世界模型,物理仿真平台也自称世界模型。这导致了严重的概念混乱:
| 被称为"世界模型"的系统 | 实际做的事情 | 真的在"理解世界"吗? |
|---|---|---|
| 文生视频(Sora 等) | 生成视觉逼真的视频帧 | 像素级逼真,但不遵守物理定律 |
| 游戏世界生成 | 程序化生成可交互场景 | 有规则约束,但非通用物理 |
| 物理引擎(PhysX 等) | 刚体/流体动力学仿真 | 精确物理,但手工编程规则 |
| VLA 机器人模型 | 从观测到动作的端到端策略 | 有决策能力,但场景理解有限 |
李飞飞的核心观点:这些系统并非在做同一件事,它们各自对应 POMDP 智能体-环境循环中的不同功能投影。把它们统称为"世界模型",就像把发动机、方向盘和仪表盘都叫"汽车"一样 – 技术上不算错,但完全丧失了区分度。
二、理论基石:POMDP 智能体-环境循环
李飞飞的分类框架锚定在强化学习教科书(Sutton & Barto)中沿用了数十年的经典图示 –POMDP 循环:
Agent → action a t World State s t → observation o t Agent \text{Agent} \xrightarrow{\text{action } a_t} \text{World State } s_t \xrightarrow{\text{observation } o_t} \text{Agent}AgentactionatWorld StatestobservationotAgent
四个核心要素:
- 智能体(Agent):人、机器人或软件系统
- 动作(Action):智能体对环境的干预
- 世界状态(State):完整的物理描述 – 所有物体的位置、速度、材质属性等
- 观测(Observation):智能体感知到的不完整信息 – 落在视网膜上的光子、传感器读数、视频帧像素
关键区分:状态≠ \neq=观测。状态是世界的完整物理描述,观测是智能体对状态的不完整感知。一个"世界模型"到底在建模这个循环的哪一段,决定了它属于哪个功能类别。
https://x.com/i/status/2062247238143996275
图 1:POMDP 智能体-环境循环与世界模型三大功能分类 – 渲染器将状态映射为观测,模拟器预测下一状态,规划器从观测输出动作。重点关注三者在循环中的不同位置。重绘自 design skill
三、功能分类学:渲染器、模拟器、规划器
3.1 渲染器(Renderer):状态→ \rightarrow→观测
定义:给定世界状态(或其表示),生成感官可感知的输出(图像、视频、3D 场景画面)。核心优化目标是视觉逼真度。
POMDP 中的位置:对应s t → o t s_t \rightarrow o_tst→ot的映射,即从世界状态到观测的生成过程。
| 代表系统 | 开发方 | 核心能力 | 局限 |
|---|---|---|---|
| Genie 3 | Google DeepMind | 交互式 3D 环境生成 | 视觉优先,不保证物理合规 |
| RTFM | World Labs | 实时 3D 场景渲染 | 侧重渲染质量 |
| Sora / Veo | OpenAI / Google | 文生视频 | 生成的视频不遵守物理定律 |
关键洞察:渲染器的商业化最成熟(影视、游戏、广告),但视觉逼真≠ \neq=物理真实。一个渲染器可以生成完美的水面反射效果,但水的流动可能完全违反流体力学。这意味着渲染器生成的数据不能直接用于训练机器人或做工业仿真。
3.2 模拟器(Simulator):( s t , a t ) → s t + 1 (s_t, a_t) \rightarrow s_{t+1}(st,at)→st+1
定义:给定当前世界状态和智能体动作,预测下一时刻的世界状态,且输出必须遵循几何和物理定律。核心优化目标是物理精确度。
POMDP 中的位置:对应状态转移函数T ( s t + 1 ∣ s t , a t ) T(s_{t+1} | s_t, a_t)T(st+1∣st,at),是循环的"世界动力学"部分。
| 代表系统 | 开发方 | 核心能力 | 局限 |
|---|---|---|---|
| Omniverse | NVIDIA | 工业级物理仿真平台 | 依赖手工物理引擎 |
| Marble | World Labs | 多模态输入生成可物理碰撞的 3D 场景 | 学习型物理,精度待验证 |
| MuJoCo | DeepMind | 刚体/关节动力学仿真 | 仅限刚体,无视觉生成 |
关键洞察:模拟器是连接渲染器和规划器的桥梁,也是万亿级工业市场的入口(数字孪生、自动驾驶仿真、机器人预训练)。但面临最严峻的数据瓶颈 – 高精度 3D 标注数据极度稀缺,远不如互联网视频(渲染器的训练数据)或文本(语言模型的训练数据)丰富。
3.3 规划器(Planner):o t → a t o_t \rightarrow a_tot→at
定义:接收智能体的观测(和目标),输出应执行的动作序列。核心优化目标是决策最优性。
POMDP 中的位置:对应策略函数π ( a t ∣ o t ) \pi(a_t | o_t)π(at∣ot),是智能体的"大脑"。
| 代表系统 | 开发方 | 核心能力 | 局限 |
|---|---|---|---|
| RT-2 / Octo | Google / Berkeley | VLA 机器人策略模型 | 仅实验室可用,泛化差 |
| 动作类世界模型 | 多家 | 预测动作后果并选择最优 | 依赖模拟器提供训练环境 |
关键洞察:规划器是具身智能(Embodied AI)的核心赛道,但当前的 VLA(Vision-Language-Action)模型仍停留在实验室阶段。真正的突破需要模拟器提供大规模、物理准确的训练环境。
四、大一统趋势:三类模型走向融合
4.1 融合的逻辑
渲染、模拟、规划本质上是对同一个物理世界的不同功能投影。一个真正"理解世界"的模型,应该同时具备:
- 生成照片级画面(渲染)
- 预测物理合规的状态转移(模拟)
- 为智能体规划最优动作(规划)
李飞飞将这一终极目标称为统一世界基础模型(Unified World Foundation Model)。
4.2 当前的关键障碍
数据不均衡 = 核心瓶颈 \text{数据不均衡} = \text{核心瓶颈}数据不均衡=核心瓶颈
| 功能类别 | 数据来源 | 数据量级 | 获取难度 |
|---|---|---|---|
| 渲染器 | 互联网视频/图像 | PB 级 | 低(爬取即可) |
| 模拟器 | 3D 扫描 + 物理标注 | TB 级 | 高(需专业设备 + 标注) |
| 规划器 | 机器人遥操作/实操数据 | GB 级 | 极高(需实体机器人 + 人工操作) |
数据量差距达 3-4 个数量级。这意味着纯数据驱动的统一模型在短期内不可行,需要结合物理先验(如牛顿力学、刚体碰撞)来弥补模拟器和规划器的数据不足。
4.3 视觉逼真 vs 物理精确:当前最大矛盾
优化视觉逼真度的损失函数(像素级重建误差、感知损失)与优化物理精确度的损失函数(状态预测误差、碰撞检测精度)之间存在根本张力:
- 渲染器为了画面好看,可能"伪造"不存在的反射、阴影
- 模拟器为了物理准确,可能输出视觉上粗糙的结果
World Labs 的 Marble 产品正是为打通渲染+模拟边界而设计– 从多模态输入生成可物理碰撞的 3D 场景,试图同时优化视觉质量和物理合规性。
图 2:世界模型三类功能的融合路径与数据瓶颈 – 渲染器、模拟器、规划器从独立系统走向统一世界基础模型。重点关注三类数据的量级差异(PB vs TB vs GB)。重绘自 design skill
五、产业格局与行业影响
5.1 各赛道玩家
| 赛道 | 主要玩家 | 市场规模预估 |
|---|---|---|
| 渲染器 | OpenAI (Sora), Google (Veo), World Labs (RTFM) | 百亿级(影视/游戏/广告) |
| 模拟器 | NVIDIA (Omniverse), World Labs (Marble), Unity | 万亿级(数字孪生/工业仿真) |
| 规划器 | Google (RT-2), 多家机器人创业公司 | 远期最大,但当前最不成熟 |
5.2 战略意义
语言模型让机器学会了"描述世界",而成熟的世界模型将让机器看懂物理世界并自主交互。这是空间智能(Spatial Intelligence)和通用具身 AI 的底层基石,将重塑:
- 机器人:从预编程到自主学习物理交互
- 自动驾驶:从规则引擎到物理世界模型驱动
- 工业仿真:从手工物理引擎到学习型数字孪生
- 游戏/XR:从静态资产到动态可交互世界生成
小结
李飞飞这篇文章的核心贡献:
概念澄清– 用 POMDP 循环这一经典框架,将混乱的"世界模型"概念锚定到明确的功能定义上。渲染器、模拟器、规划器不是竞争关系,而是同一循环中的不同功能组件。这一分类为后续研究提供了清晰的坐标系。
揭示数据不均衡– 渲染器有 PB 级互联网视频,模拟器只有 TB 级 3D 数据,规划器更少。这解释了为什么文生视频发展最快(数据最多)、而具身智能最慢(数据最少),也指明了下一步的投入方向。
预判融合趋势– 三类模型终将走向统一,但路径不是"一个大模型搞定一切",而是先各自成熟、再通过共享表征和联合训练逐步融合。World Labs 的 Marble 就是这条路径的早期探索。
个人判断:这篇文章的价值不在于提出新算法,而在于提供了一个产业级的认知框架。在 AI 概念炒作最严重的 2026 年,用一张 POMDP 循环图把所有"世界模型"产品各归其位,是典型的李飞飞风格 – 用最经典的理论工具解决最前沿的概念混乱。对于 VIO/SLAM 从业者,模拟器赛道与我们的工作最相关:高精度 3D 重建和物理仿真正是视觉 SLAM 技术的下游应用场景。
