World Model - 李晓刚的博客

世界模型

世界模型是一个预测模型。它允许智能体在不进行实际物理操作的情况下，在“脑海”中模拟出：“如果我采取某个动作，世界将会发生什么变化？”

在传统的人工智能（如强化学习）中，智能体通常需要通过无数次真刀真枪的“试错”来学习。但这种方式在现实世界中代价极高（比如无人机撞毁、自动驾驶车祸）。

项目	普通策略模型	世界模型
输入	状态	状态+动作
输出	动作	未来状态
是否预演未来	❌	✅
长任务能力	一般	强
泛化能力	中	更强
算力需求	低	高

发展时间线

1980
传统动力学模型
        ↓
2018
World Models(VAE+RNN)
        ↓
2019
Dreamer
        ↓
2022
视频世界模型
        ↓
2024
V-JEPA / GAIA-1
        ↓
2025
机器人世界模型
        ↓
2026+
Robot Agent

Tesla FSD 是世界模型吗

特斯拉FSD：正在向世界模型演化的大规模视频行为模型（video behavior model）

自动驾驶这几年有个很明显的趋势：

感知
↓
端到端驾驶
↓
视频预测(目前FSD)
↓
世界模型
↓
Agent驾驶

世界模型有突破吗

有突破，但主要是“工程范式突破”，不是“像 Transformer 那样一锤定音的理论革命”

从“预测像素”变成“预测抽象世界”
从“被动预测”到“动作条件预测”
从“短未来”到“长期一致世界”

真正的理论瓶颈还在

问题1：因果 ≠ 相关

现在很多模型学到：

乌云
↓
下雨

但没真正学会：为什么会下雨

它更像：统计规律

而不是：物理机制

这是机器人最头疼的问题。

问题2：长期世界一致性

模型可能：

前5秒：桌子在左边

后5秒：桌子突然消失

人不会这样。

因为人脑里有：持久世界状态

AI还很弱。

问题3：还不知道“什么是正确世界表示”

这是最大的理论问题。目前有几派：

路线	核心思想
视频生成派	世界 = 视频
JEPA派	世界 = 抽象状态
神经符号派	世界 = 物体+关系图
因果派	世界 = 原因→结果

世界模型还没有来到Transformer时刻

Nvidia 如何看待世界模型的

NVIDIA 的路线图

他们把机器人 AI 拆成四层：

真实世界
↓
Omniverse(建世界)
↓
Cosmos（世界模型: 理解世界 + 生成世界 + 预测世界）
↓
GR00T / Robot Policy
↓
机器人

对比	Tesla FSD	NVIDIA Cosmos
核心资产	真实车队数据	世界模拟平台
思路	大规模真实学习	数字世界训练
数据来源	真实驾驶	模拟+真实
世界模型地位	隐式能力	核心组件
方法	视频行为模型	World Foundation Model

案例

传统做法：

机器人跑校园
↓
采集100小时
↓
训练

NVIDIA 理想做法：

校园数字孪生

↓

Cosmos生成：

雨天
夜晚
人群
施工
逆光

↓

生成10万小时数据

↓

训练机器人

动物智能

大语言模型（LLM）和物理世界模型确实不是一回事，但也不是完全割裂。

人类世界 = 物理世界 + 社会规则 + 语言 + 知识 + 文化 + 抽象概念

而 LLM 学到的大部分东西是：文本世界的统计结构

如果让机器人在虚拟世界中类似动物在真实成长是否可行

虚拟机器人出生
↓
乱动
↓
摔倒
↓
探索
↓
拿东西
↓
避障
↓
学会规律
↓
迁移到真实机器人

问题：Sim-to-Real Gap（模拟到现实差距）

现实世界有很多“脏东西”。

模拟：地板摩擦=0.6

现实：

0.45
0.52
0.71
下雨变0.2

--------------------

模拟：灯光稳定

现实：

逆光
阴影
镜面反射

--------------------

模拟：人正常走

现实：小孩突然跑出来

所以可能出现：

模拟里：100%成功

现实里：撞墙

为什么很多团队现在做“随机成长”

不是：固定世界

而是：

随机光照
随机摩擦
随机天气
随机障碍
随机人物

叫：Domain Randomization

流程：

训练：

10000种世界
↓
现实：

属于其中一种

这样迁移会好很多。

但还有一个更深的问题

动物不仅学物理，还学：

因果
社会行为
长期目标

例如：

猫不是只知道：球滚

还知道：

主人拿零食袋-> 可能有吃的

这涉及：记忆 - 动机 - 奖励

而不是单纯物理模拟。

所以只建：

3D世界 + 物理引擎

还不够。

很多人现在想做的是：

物理世界 + 社会世界 + 语言世界 + 长期任务

根本问题

虚拟世界
↓
机器人像动物一样成长
↓
学会世界规律
↓
迁移到现实
↓
通用机器人

真正卡的不是“缺一个更大的 GPU”，而是中间几个地方可能根本不是连续的。

虚拟世界不等于真实世界

世界太大: 各种组合数据爆炸

动物成长其实没想象中“简单”

猫出生以后：

24小时视觉
24小时触觉
24小时运动
持续几个月

总交互次数非常惊人。

奖励机制很难定义

强化学习里通常：

到终点 +1
撞墙 -1

但现实不是游戏。

配送机器人：

任务：

送咖啡

实际隐含：

不要撞人
不要太慢
不要洒咖啡
不要挡路
不要走草坪

怎么写：

奖励函数 = ?

非常难。

动物其实自带：

饥饿
疼痛
好奇

AI 没有天然这些东西。

世界模型会“幻想”

这个很像 LLM 幻觉。

例如：

机器人学到：

门通常向里开

现实：

这次向外开

它可能内部仍然预测：

门向里开

然后行为崩掉。

因为模型学的是：

统计规律

不一定是：

真实因果规律

最深的未知：我们可能不知道缺什么

小范围智能

既然真实世界千变万化，那能否局限在一个小的园区范围，穷尽组合呢。

可以，而且工业界很多实际落地项目本来就在这么做。

无限现实世界
↓
缩小成有限场景
↓
穷举
↓
获得高可靠性

无人配送、仓储机器人、工厂 AGV、矿山车，很多都在走这条路。

自动驾驶已经验证过这个问题

早期很多人想：

采集100万公里
↓
覆盖全部情况

后来发现：

长尾事件几乎无穷：

大风吹塑料袋
倒下的自行车
逆行电动车
小孩追球

所以现在很多公司变成：

真实数据 + 仿真生成 + 规则约束

Nvidia 如何应对数据爆炸

从“收集所有数据”转成“制造有价值的数据”。

NVIDIA 的思路：数据工厂（Data Factory）

真实数据
↓
抽取规律
↓
世界模型
↓
生成新世界
↓
生成大量高价值数据


而不是：

真实世界
↓
无限采集

Jensen 多次把这个称作：

Physical AI 的数据工厂（Data Factory）。

数据不是越多越好，而是越“信息密度高”越好

NVIDIA 在 Cosmos 论文里提到：

他们原始视频规模非常大（约 2000万小时级原始视频），但大量数据是语义重复的，因此要做筛选和处理。

也就是说：

1000小时：

机器人在空走廊直行

可能价值：

≈10小时

而：

10分钟：

小孩突然跑出

可能价值：

≈100小时

所以未来重点可能是：

Data Quantity
↓
Data Quality
↓
Data Value

第三个关键：主动寻找模型不会的东西

传统：

随机采数据

NVIDIA 越来越像：

模型训练
↓
找到失败案例
↓
定向生成困难场景
↓
继续训练

闭环：

Train
↓
Fail
↓
Generate
↓
Train

这有点像学生刷题：

不是把10000道加法题做十遍

而是：专门做不会的题

NVIDIA 默认了一个很大的前提

它隐含认为：世界模型生成的数据足够接近真实世界。

NVIDIA 的立场: 现实数据无限，所以不要试图收集整个世界，而要建立一个能“制造世界”的系统

具身智能

特定场景的具身智能是否正在爆发的前夜，现在缺的就是数据

对于特定场景（warehouse、园区配送、工厂、商超、酒店、校园、矿区等）的具身智能，确实很像自动驾驶 2014–2018 年前后的状态：技术已经基本跑通，开始从实验室往真实业务里渗透。但真正的瓶颈不是“数据量”本身，而是：

高质量交互数据
可泛化的数据
闭环系统

这三者缺一个都很难爆发。

数据仿真路线玩家

路线	代表玩家	核心思路	优势	挑战
全栈仿真平台	NVIDIA	数字孪生 + 合成数据 + 强化学习 + 训练平台	工具链完整，从仿真到训练闭环	成本高，对生态依赖较强
世界模型路线	Google DeepMind	看海量视频，直接学习世界规律，再生成场景	泛化能力强，减少手工建模	物理真实性仍有限
真数据驱动路线	Tesla	真车/机器人采集 → 自动标注 → 回训	数据真实性高	长尾数据收集成本大
数据工厂路线	中国机器人数据公司、自动驾驶数据平台	少量真实数据 + 大量自动扩增	成本较低，可快速扩容	数据质量和真实性难保证
工业数字孪生路线	Siemens、Ansys、Dassault Systèmes	高精度物理世界建模	工业场景精度很高	通用智能能力弱

Google / DeepMind

Google 现在做的越来越不像传统仿真器。

以前逻辑：

建3D世界
→ 加物理引擎
→ 放机器人进去训练

现在开始变：

看海量视频
→ 学习世界规律
→ 直接生成世界

也就是：

不手工搭建世界，而让模型“想象世界”。

有点像：

GPT 学语言
↓
世界模型学物理

这条路线的目标是：

减少人工建模
自动生成场景
自动生成机器人行为

Tesla

Tesla 基本属于：

少仿真，多真实数据

路线更像自动驾驶延伸：

真实车辆
→ 收集视频
→ 自动标注
→ 训练
→ 回收更多数据

然后把自动驾驶的数据体系迁移到机器人。

他们比较相信：

世界太复杂，模拟永远不够真实。

所以仿真只是辅助。

中国很多公司

中国其实很猛，但外界关注少。

比如：

Lightwheel（光轮智能）
部分机器人数据公司
自动驾驶数据平台

在做：

真实数据
+ 仿真扩增
+ 自动标注

核心不是做仿真软件，而是做：

“机器人数据工厂”

例如：

真人抓杯子 100 次
↓
自动生成 10000 次变化

包括：

光照变化
材质变化
位置变化
摩擦变化
障碍变化

工业软件巨头

很多人忽略了这帮老牌玩家：

Siemens
Ansys
Dassault Systèmes

他们几十年前就在干数字孪生。

汽车厂里很多流程：

发动机
车身
传感器
工厂

都已经能先在虚拟世界跑。

区别在于：

NVIDIA：

机器人学会干活

工业软件：

先把世界精确建出来

BOTZ ETF

排名	公司（中文）	公司（英文）	类型	权重（约）	对应机器人链条
1	基恩士	Keyence	工业传感器 / 机器视觉	9.1%	机器人“眼睛”
2	ABB集团	ABB	工业机器人	8.6–9.0%	工业自动化
3	发那科	Fanuc	工业机器人	8.1–8.7%	工业机械臂
4	英伟达	NVIDIA	AI / GPU	8.0–8.5%	算力 + 仿真平台
5	直觉外科	Intuitive Surgical	医疗机器人	6.1–6.8%	手术机器人
6	SMC气动	SMC Corporation	气动控制	4.8–4.9%	执行器
7	汇川技术	Shenzhen Inovance Technology	工业自动化	4.3%	电机 / 伺服
8	大丰工业	Daifuku	物流自动化	3.7%	仓储机器人
9	极光创新	Aurora Innovation	自动驾驶	2.3%	数据闭环
10	安川电机	YASKAWA Electric	工业机器人	2.3%	电机 / 机器人控制

Nvidia 仿真物理世界

NVIDIA 做“仿真物理世界”，本质不是做一个单一仿真器，而是搭了一套从“数字资产 → 物理引擎 → 渲染 → AI训练 → 数据闭环”的整套系统。可以把它理解成：

不是一个世界，而是一个“可无限生成世界的工厂”

底座：Omniverse = “世界操作系统”

NVIDIA Omniverse 是整个体系的核心。

它解决的是一个关键问题：不同软件之间的3D世界无法互通

所以 Omniverse 做了三件事：

1. USD（通用场景描述）

把世界统一成一种格式：

机器人
+ 传感器
+ 材质
+ 光照
+ 动态物体
= USD场景

类似“机器人世界的 HTML”。

多软件接入

它能接入：

CAD（工业设计）
Blender / Maya（3D建模）
工厂数字模型
自动驾驶地图

变成：

所有世界都能进入同一个“虚拟宇宙”

实时同步

多个工程师可以同时编辑一个世界：

改机器人
改工厂
改物理参数

类似：

Google Docs，但用于3D世界

物理引擎：Isaac Sim（核心执行层）

NVIDIA Isaac Sim 才是真正“让机器人动起来”的部分。

1. 物理模拟

包括：

重力
摩擦
刚体碰撞
关节运动
流体（部分）

例如：

机器人抓杯子
→ 计算手指压力
→ 杯子滑动
→ 失败/成功

传感器模拟（非常关键）

机器人看到的不是“图片”，而是：

RGB相机
深度相机
LiDAR
IMU

Isaac Sim 会模拟：

真实噪声
镜头畸变
光照变化
遮挡
延迟

这一步决定“仿真能不能转真实”。

3. GPU加速物理计算

传统仿真（CPU）：

慢
只能少量机器人

NVIDIA 用 GPU：

并行模拟上千机器人
同时跑不同场景

生成数据：合成世界（Synthetic Data）

这是 NVIDIA 真正的“杀手能力”。

NVIDIA Isaac Sim + Omniverse 可以做：

1. 自动生成场景

同一个厨房
→ 改光照（白天/夜晚）
→ 改物体位置
→ 改材质
→ 改杂乱程度

变成：

1 个场景 → 100 万变体

自动标注

现实世界最大痛点：

标注太贵

仿真世界：

直接知道：
- 每个物体位置
- 深度
- 轨迹
- 力

无需人工标注。

Domain Randomization

让模型“见过一切乱七八糟的情况”：

光线极端变化
摄像头抖动
物体随机摆放

目的：

防止模型只会“背答案”

训练层：从仿真到 AI

这里才进入“具身智能核心”。

训练方式：

1. 模仿学习（Imitation Learning）

人操作机器人
↓
记录轨迹
↓
AI学习

2. 强化学习（RL）

成功 = +1
失败 = -1

机器人自己试：

拿杯子
走路
避障

Sim2Real（最关键难题）

问题是：

仿真世界 ≠ 真实世界

所以 NVIDIA 做了很多“缩小差距”的技术：

噪声建模
物理参数扰动
随机化训练
真实数据微调

闭环：真实世界反哺仿真（飞轮）

真正完整系统是：

真实机器人运行
↓
收集数据
↓
更新仿真世界
↓
再训练模型
↓
部署更多机器人
↓
再收集数据

这就是你之前提到的：

“数据飞轮”

NVIDIA 的组织结构

NVIDIA 的组织结构
│
├── 1️⃣ Compute Platform（算力平台 / 核心现金牛）
│     │
│     ├── GPU 硬件（GeForce / RTX / Data Center GPU）
│     ├── CUDA 计算平台
│     ├── TensorRT / cuDNN
│     └── DGX 系统（AI服务器）
│
│     👉 本质：卖“算力引擎”
│
│
├── 2️⃣ AI Platform（人工智能平台 / 增长引擎）
│     │
│     ├── Foundation Models（大模型生态）
│     ├── NVIDIA AI Enterprise
│     ├── 推理服务（Inference Stack）
│     └── NeMo / Triton 等工具链
│
│     👉 本质：卖“智能能力”
│
│
├── 3️⃣ Simulation & Omniverse（物理世界平台 / 战略级）
│     │
│     ├── :contentReference[oaicite:1]{index=1}
│     │      ├── USD 世界建模系统
│     │      ├── 工业数字孪生
│     │      └── 多人协作3D世界
│     │
│     ├── :contentReference[oaicite:2]{index=2}
│     │      ├── 机器人训练环境
│     │      ├── 传感器仿真（RGB / LiDAR）
│     │      └── 强化学习平台
│     │
│     ├── DRIVE Sim（自动驾驶仿真）
│     └── 工业/工厂数字孪生
│
│     👉 本质：卖“可生成世界的数据工厂”
│
│
├── 4️⃣ Automotive（汽车业务）
│     │
│     ├── 自动驾驶芯片（DRIVE Thor 等）
│     ├── 自动驾驶软件栈
│     └── 仿真 + 训练闭环（与 Omniverse 强绑定）
│
│     👉 本质：AI上车
│
│
├── 5️⃣ Robotics（机器人业务）
│     │
│     ├── Jetson 边缘计算平台
│     ├── 机器人 AI Stack
│     └── 仿真训练（Isaac Sim 强绑定）
│
│     👉 本质：AI落地到物理机器人
│
│
└── 6️⃣ Networking（网络与数据中心基础设施）
      │
      ├── InfiniBand / NVLink
      ├── 交换机（Mellanox体系）
      └── 数据中心互联

中国公司

美国确实在“定义范式”，但中国公司更多是在“等窗口打开后规模化落地”。

🇺🇸 美国在做什么？

NVIDIA → 仿真 + 数据生成 + 训练平台
Google / DeepMind → 世界模型
Tesla → 真实闭环数据飞轮

👉 本质是：

“定义机器人如何学习世界”

🇨🇳 中国在做什么？

你看到的公司大概是：

人形机器人
仓储机器人
工业机器人
服务机器人

特点是：

做产品很多
做平台很少

中国具身智能公司“集体排队上市”，本质不是技术成熟，而是融资结构开始从一级市场向二级市场迁移。

它更像一个“资本退出通道打开”的阶段，而不是“iPhone时刻临近”的信号。

行业还没赚钱，但资本市场已经开始“提前结算未来”。

资本结构不同：美国是“耐心资本”，中国是“周期资本”

🇺🇸 美国

具身智能/AI公司融资结构：

VC + Big Tech + sovereign long-term capital
可以 10–15 年不退出
可以内部上市（比如私有化轮次继续融资）

👉 结果：

不急着 IPO

🇨🇳 中国

典型结构：

VC基金期限 5–8 年
LP要求退出
地方基金 + 产业基金占比高

👉 结果：

到周期后必须“找出口”

IPO 队列

具身智能 IPO 队列

① 已上市
   ├─ 极智嘉
   ├─ 云迹科技
   ├─ 工业机器人公司群

② 正在IPO（核心）
   ├─ 宇树（人形）
   ├─ 智元（人形）
   ├─ 云深处（四足）
   ├─ 乐聚（人形）

③ IPO辅导 / 准备
   ├─ 傅利叶
   ├─ 斯坦德
   ├─ 多家仓储/巡检机器人

④ 未来候选
   ├─ 银河通用
   ├─ 星海图
   ├─ 智平方

0 次点赞