AI

World Model

世界模型

Posted by LXG on May 22, 2026

世界模型

世界模型是一个预测模型。它允许智能体在不进行实际物理操作的情况下,在“脑海”中模拟出:“如果我采取某个动作,世界将会发生什么变化?”

在传统的人工智能(如强化学习)中,智能体通常需要通过无数次真刀真枪的“试错”来学习。但这种方式在现实世界中代价极高(比如无人机撞毁、自动驾驶车祸)。

项目 普通策略模型 世界模型
输入 状态 状态+动作
输出 动作 未来状态
是否预演未来
长任务能力 一般
泛化能力 更强
算力需求

发展时间线


1980
传统动力学模型
        ↓
2018
World Models(VAE+RNN)
        ↓
2019
Dreamer
        ↓
2022
视频世界模型
        ↓
2024
V-JEPA / GAIA-1
        ↓
2025
机器人世界模型
        ↓
2026+
Robot Agent

Tesla FSD 是世界模型吗

特斯拉FSD:正在向世界模型演化的大规模视频行为模型(video behavior model)

自动驾驶这几年有个很明显的趋势:


感知
↓
端到端驾驶
↓
视频预测(目前FSD)
↓
世界模型
↓
Agent驾驶

世界模型有突破吗

有突破,但主要是“工程范式突破”,不是“像 Transformer 那样一锤定音的理论革命”

  1. 从“预测像素”变成“预测抽象世界”
  2. 从“被动预测”到“动作条件预测”
  3. 从“短未来”到“长期一致世界”

真正的理论瓶颈还在

问题1:因果 ≠ 相关


现在很多模型学到:

乌云
↓
下雨

但没真正学会:为什么会下雨

它更像:统计规律

而不是:物理机制

这是机器人最头疼的问题。

问题2:长期世界一致性


模型可能:

前5秒:桌子在左边

后5秒:桌子突然消失

人不会这样。

因为人脑里有:持久世界状态

AI还很弱。

问题3:还不知道“什么是正确世界表示”

这是最大的理论问题。目前有几派:

路线 核心思想
视频生成派 世界 = 视频
JEPA派 世界 = 抽象状态
神经符号派 世界 = 物体+关系图
因果派 世界 = 原因→结果

世界模型还没有来到Transformer时刻

Nvidia 如何看待世界模型的

NVIDIA 的路线图

他们把机器人 AI 拆成四层:


真实世界
↓
Omniverse(建世界)
↓
Cosmos(世界模型: 理解世界 + 生成世界 + 预测世界)
↓
GR00T / Robot Policy
↓
机器人

对比 Tesla FSD NVIDIA Cosmos
核心资产 真实车队数据 世界模拟平台
思路 大规模真实学习 数字世界训练
数据来源 真实驾驶 模拟+真实
世界模型地位 隐式能力 核心组件
方法 视频行为模型 World Foundation Model

案例

传统做法:


机器人跑校园
↓
采集100小时
↓
训练

NVIDIA 理想做法:


校园数字孪生

↓

Cosmos生成:

雨天
夜晚
人群
施工
逆光

↓

生成10万小时数据

↓

训练机器人

动物智能

大语言模型(LLM)和物理世界模型确实不是一回事,但也不是完全割裂。

人类世界 = 物理世界 + 社会规则 + 语言 + 知识 + 文化 + 抽象概念

而 LLM 学到的大部分东西是:文本世界的统计结构

如果让机器人在虚拟世界中类似动物在真实成长是否可行


虚拟机器人出生
↓
乱动
↓
摔倒
↓
探索
↓
拿东西
↓
避障
↓
学会规律
↓
迁移到真实机器人

问题:Sim-to-Real Gap(模拟到现实差距)


现实世界有很多“脏东西”。

模拟:地板摩擦=0.6

现实:

0.45
0.52
0.71
下雨变0.2

--------------------

模拟:灯光稳定

现实:

逆光
阴影
镜面反射

--------------------

模拟:人正常走

现实:小孩突然跑出来

所以可能出现:

模拟里:100%成功

现实里:撞墙

为什么很多团队现在做“随机成长”


不是:固定世界

而是:

随机光照
随机摩擦
随机天气
随机障碍
随机人物

叫:Domain Randomization

流程:

训练:

10000种世界
↓
现实:

属于其中一种

这样迁移会好很多。

但还有一个更深的问题


动物不仅学物理,还学:

因果
社会行为
长期目标

例如:

猫不是只知道:球滚

还知道:

主人拿零食袋-> 可能有吃的

这涉及:记忆 - 动机 - 奖励

而不是单纯物理模拟。

所以只建:

3D世界 + 物理引擎

还不够。

很多人现在想做的是:

物理世界 + 社会世界 + 语言世界 + 长期任务

根本问题


虚拟世界
↓
机器人像动物一样成长
↓
学会世界规律
↓
迁移到现实
↓
通用机器人

真正卡的不是“缺一个更大的 GPU”,而是中间几个地方可能根本不是连续的。

虚拟世界不等于真实世界

世界太大: 各种组合数据爆炸

动物成长其实没想象中“简单”


猫出生以后:

24小时视觉
24小时触觉
24小时运动
持续几个月

总交互次数非常惊人。

奖励机制很难定义


强化学习里通常:

到终点 +1
撞墙 -1

但现实不是游戏。

配送机器人:

任务:

送咖啡

实际隐含:

不要撞人
不要太慢
不要洒咖啡
不要挡路
不要走草坪

怎么写:

奖励函数 = ?

非常难。

动物其实自带:

饥饿
疼痛
好奇

AI 没有天然这些东西。

世界模型会“幻想”


这个很像 LLM 幻觉。

例如:

机器人学到:

门通常向里开

现实:

这次向外开

它可能内部仍然预测:

门向里开

然后行为崩掉。

因为模型学的是:

统计规律

不一定是:

真实因果规律

最深的未知:我们可能不知道缺什么

小范围智能

既然真实世界千变万化,那能否局限在一个小的园区范围,穷尽组合呢。

可以,而且工业界很多实际落地项目本来就在这么做。


无限现实世界
↓
缩小成有限场景
↓
穷举
↓
获得高可靠性

无人配送、仓储机器人、工厂 AGV、矿山车,很多都在走这条路。

自动驾驶已经验证过这个问题


早期很多人想:

采集100万公里
↓
覆盖全部情况

后来发现:

长尾事件几乎无穷:

大风吹塑料袋
倒下的自行车
逆行电动车
小孩追球

所以现在很多公司变成:

真实数据 + 仿真生成 + 规则约束

Nvidia 如何应对数据爆炸

从“收集所有数据”转成“制造有价值的数据”。

NVIDIA 的思路:数据工厂(Data Factory)


真实数据
↓
抽取规律
↓
世界模型
↓
生成新世界
↓
生成大量高价值数据


而不是:

真实世界
↓
无限采集

Jensen 多次把这个称作:

Physical AI 的数据工厂(Data Factory)。

数据不是越多越好,而是越“信息密度高”越好

NVIDIA 在 Cosmos 论文里提到:

他们原始视频规模非常大(约 2000万小时级原始视频),但大量数据是语义重复的,因此要做筛选和处理。


也就是说:

1000小时:

机器人在空走廊直行

可能价值:

≈10小时

而:

10分钟:

小孩突然跑出

可能价值:

≈100小时

所以未来重点可能是:

Data Quantity
↓
Data Quality
↓
Data Value

第三个关键:主动寻找模型不会的东西


传统:

随机采数据

NVIDIA 越来越像:

模型训练
↓
找到失败案例
↓
定向生成困难场景
↓
继续训练

闭环:

Train
↓
Fail
↓
Generate
↓
Train

这有点像学生刷题:

不是把10000道加法题做十遍

而是:专门做不会的题

NVIDIA 默认了一个很大的前提

它隐含认为:世界模型生成的数据足够接近真实世界。

NVIDIA 的立场: 现实数据无限,所以不要试图收集整个世界,而要建立一个能“制造世界”的系统

具身智能

特定场景的具身智能是否正在爆发的前夜,现在缺的就是数据

对于特定场景(warehouse、园区配送、工厂、商超、酒店、校园、矿区等)的具身智能,确实很像自动驾驶 2014–2018 年前后的状态:技术已经基本跑通,开始从实验室往真实业务里渗透。但真正的瓶颈不是“数据量”本身,而是:

  1. 高质量交互数据
  2. 可泛化的数据
  3. 闭环系统

这三者缺一个都很难爆发。

数据仿真路线玩家

路线 代表玩家 核心思路 优势 挑战
全栈仿真平台 NVIDIA 数字孪生 + 合成数据 + 强化学习 + 训练平台 工具链完整,从仿真到训练闭环 成本高,对生态依赖较强
世界模型路线 Google DeepMind 看海量视频,直接学习世界规律,再生成场景 泛化能力强,减少手工建模 物理真实性仍有限
真数据驱动路线 Tesla 真车/机器人采集 → 自动标注 → 回训 数据真实性高 长尾数据收集成本大
数据工厂路线 中国机器人数据公司、自动驾驶数据平台 少量真实数据 + 大量自动扩增 成本较低,可快速扩容 数据质量和真实性难保证
工业数字孪生路线 Siemens、Ansys、Dassault Systèmes 高精度物理世界建模 工业场景精度很高 通用智能能力弱

Google / DeepMind


Google 现在做的越来越不像传统仿真器。

以前逻辑:

建3D世界
→ 加物理引擎
→ 放机器人进去训练

现在开始变:

看海量视频
→ 学习世界规律
→ 直接生成世界

也就是:

不手工搭建世界,而让模型“想象世界”。

有点像:

GPT 学语言
↓
世界模型学物理

这条路线的目标是:

减少人工建模
自动生成场景
自动生成机器人行为

Tesla


Tesla 基本属于:

少仿真,多真实数据

路线更像自动驾驶延伸:

真实车辆
→ 收集视频
→ 自动标注
→ 训练
→ 回收更多数据

然后把自动驾驶的数据体系迁移到机器人。

他们比较相信:

世界太复杂,模拟永远不够真实。

所以仿真只是辅助。

中国很多公司


中国其实很猛,但外界关注少。

比如:

Lightwheel(光轮智能)
部分机器人数据公司
自动驾驶数据平台

在做:

真实数据
+ 仿真扩增
+ 自动标注

核心不是做仿真软件,而是做:

“机器人数据工厂”

例如:

真人抓杯子 100 次
↓
自动生成 10000 次变化

包括:

光照变化
材质变化
位置变化
摩擦变化
障碍变化

工业软件巨头


很多人忽略了这帮老牌玩家:

Siemens
Ansys
Dassault Systèmes

他们几十年前就在干数字孪生。

汽车厂里很多流程:

发动机
车身
传感器
工厂

都已经能先在虚拟世界跑。

区别在于:

NVIDIA:

机器人学会干活

工业软件:

先把世界精确建出来

BOTZ ETF

排名 公司(中文) 公司(英文) 类型 权重(约) 对应机器人链条
1 基恩士 Keyence 工业传感器 / 机器视觉 9.1% 机器人“眼睛”
2 ABB集团 ABB 工业机器人 8.6–9.0% 工业自动化
3 发那科 Fanuc 工业机器人 8.1–8.7% 工业机械臂
4 英伟达 NVIDIA AI / GPU 8.0–8.5% 算力 + 仿真平台
5 直觉外科 Intuitive Surgical 医疗机器人 6.1–6.8% 手术机器人
6 SMC气动 SMC Corporation 气动控制 4.8–4.9% 执行器
7 汇川技术 Shenzhen Inovance Technology 工业自动化 4.3% 电机 / 伺服
8 大丰工业 Daifuku 物流自动化 3.7% 仓储机器人
9 极光创新 Aurora Innovation 自动驾驶 2.3% 数据闭环
10 安川电机 YASKAWA Electric 工业机器人 2.3% 电机 / 机器人控制

Nvidia 仿真物理世界

NVIDIA 做“仿真物理世界”,本质不是做一个单一仿真器,而是搭了一套从“数字资产 → 物理引擎 → 渲染 → AI训练 → 数据闭环”的整套系统。可以把它理解成:

不是一个世界,而是一个“可无限生成世界的工厂”

底座:Omniverse = “世界操作系统”

NVIDIA Omniverse 是整个体系的核心。

它解决的是一个关键问题:不同软件之间的3D世界无法互通

所以 Omniverse 做了三件事:

1. USD(通用场景描述)


把世界统一成一种格式:

机器人
+ 传感器
+ 材质
+ 光照
+ 动态物体
= USD场景

类似“机器人世界的 HTML”。

多软件接入


它能接入:

CAD(工业设计)
Blender / Maya(3D建模)
工厂数字模型
自动驾驶地图

变成:

所有世界都能进入同一个“虚拟宇宙”

实时同步


多个工程师可以同时编辑一个世界:

改机器人
改工厂
改物理参数

类似:

Google Docs,但用于3D世界

物理引擎:Isaac Sim(核心执行层)

NVIDIA Isaac Sim 才是真正“让机器人动起来”的部分。

1. 物理模拟


包括:

重力
摩擦
刚体碰撞
关节运动
流体(部分)

例如:

机器人抓杯子
→ 计算手指压力
→ 杯子滑动
→ 失败/成功

传感器模拟(非常关键)


机器人看到的不是“图片”,而是:

RGB相机
深度相机
LiDAR
IMU

Isaac Sim 会模拟:

真实噪声
镜头畸变
光照变化
遮挡
延迟

这一步决定“仿真能不能转真实”。

3. GPU加速物理计算


传统仿真(CPU):

慢
只能少量机器人

NVIDIA 用 GPU:

并行模拟上千机器人
同时跑不同场景

生成数据:合成世界(Synthetic Data)

这是 NVIDIA 真正的“杀手能力”。

NVIDIA Isaac Sim + Omniverse 可以做:

1. 自动生成场景


同一个厨房
→ 改光照(白天/夜晚)
→ 改物体位置
→ 改材质
→ 改杂乱程度

变成:

1 个场景 → 100 万变体

自动标注


现实世界最大痛点:

标注太贵

仿真世界:

直接知道:
- 每个物体位置
- 深度
- 轨迹
- 力

无需人工标注。

Domain Randomization


让模型“见过一切乱七八糟的情况”:

光线极端变化
摄像头抖动
物体随机摆放

目的:

防止模型只会“背答案”

训练层:从仿真到 AI

这里才进入“具身智能核心”。

训练方式:

1. 模仿学习(Imitation Learning)


人操作机器人
↓
记录轨迹
↓
AI学习

2. 强化学习(RL)


成功 = +1
失败 = -1

机器人自己试:

拿杯子
走路
避障

Sim2Real(最关键难题)


问题是:

仿真世界 ≠ 真实世界

所以 NVIDIA 做了很多“缩小差距”的技术:

噪声建模
物理参数扰动
随机化训练
真实数据微调

闭环:真实世界反哺仿真(飞轮)


真正完整系统是:

真实机器人运行
↓
收集数据
↓
更新仿真世界
↓
再训练模型
↓
部署更多机器人
↓
再收集数据

这就是你之前提到的:

“数据飞轮”

NVIDIA 的组织结构


NVIDIA 的组织结构
│
├── 1️⃣ Compute Platform(算力平台 / 核心现金牛)
│     │
│     ├── GPU 硬件(GeForce / RTX / Data Center GPU)
│     ├── CUDA 计算平台
│     ├── TensorRT / cuDNN
│     └── DGX 系统(AI服务器)
│
│     👉 本质:卖“算力引擎”
│
│
├── 2️⃣ AI Platform(人工智能平台 / 增长引擎)
│     │
│     ├── Foundation Models(大模型生态)
│     ├── NVIDIA AI Enterprise
│     ├── 推理服务(Inference Stack)
│     └── NeMo / Triton 等工具链
│
│     👉 本质:卖“智能能力”
│
│
├── 3️⃣ Simulation & Omniverse(物理世界平台 / 战略级)
│     │
│     ├── :contentReference[oaicite:1]{index=1}
│     │      ├── USD 世界建模系统
│     │      ├── 工业数字孪生
│     │      └── 多人协作3D世界
│     │
│     ├── :contentReference[oaicite:2]{index=2}
│     │      ├── 机器人训练环境
│     │      ├── 传感器仿真(RGB / LiDAR)
│     │      └── 强化学习平台
│     │
│     ├── DRIVE Sim(自动驾驶仿真)
│     └── 工业/工厂数字孪生
│
│     👉 本质:卖“可生成世界的数据工厂”
│
│
├── 4️⃣ Automotive(汽车业务)
│     │
│     ├── 自动驾驶芯片(DRIVE Thor 等)
│     ├── 自动驾驶软件栈
│     └── 仿真 + 训练闭环(与 Omniverse 强绑定)
│
│     👉 本质:AI上车
│
│
├── 5️⃣ Robotics(机器人业务)
│     │
│     ├── Jetson 边缘计算平台
│     ├── 机器人 AI Stack
│     └── 仿真训练(Isaac Sim 强绑定)
│
│     👉 本质:AI落地到物理机器人
│
│
└── 6️⃣ Networking(网络与数据中心基础设施)
      │
      ├── InfiniBand / NVLink
      ├── 交换机(Mellanox体系)
      └── 数据中心互联

中国公司

美国确实在“定义范式”,但中国公司更多是在“等窗口打开后规模化落地”。

🇺🇸 美国在做什么?


NVIDIA → 仿真 + 数据生成 + 训练平台
Google / DeepMind → 世界模型
Tesla → 真实闭环数据飞轮

👉 本质是:

“定义机器人如何学习世界”

🇨🇳 中国在做什么?


你看到的公司大概是:

人形机器人
仓储机器人
工业机器人
服务机器人

特点是:

做产品很多
做平台很少

中国具身智能公司“集体排队上市”,本质不是技术成熟,而是融资结构开始从一级市场向二级市场迁移。

它更像一个“资本退出通道打开”的阶段,而不是“iPhone时刻临近”的信号。

行业还没赚钱,但资本市场已经开始“提前结算未来”。

资本结构不同:美国是“耐心资本”,中国是“周期资本”


🇺🇸 美国

具身智能/AI公司融资结构:

VC + Big Tech + sovereign long-term capital
可以 10–15 年不退出
可以内部上市(比如私有化轮次继续融资)

👉 结果:

不急着 IPO

🇨🇳 中国

典型结构:

VC基金期限 5–8 年
LP要求退出
地方基金 + 产业基金占比高

👉 结果:

到周期后必须“找出口”

IPO 队列


具身智能 IPO 队列

① 已上市
   ├─ 极智嘉
   ├─ 云迹科技
   ├─ 工业机器人公司群

② 正在IPO(核心)
   ├─ 宇树(人形)
   ├─ 智元(人形)
   ├─ 云深处(四足)
   ├─ 乐聚(人形)

③ IPO辅导 / 准备
   ├─ 傅利叶
   ├─ 斯坦德
   ├─ 多家仓储/巡检机器人

④ 未来候选
   ├─ 银河通用
   ├─ 星海图
   ├─ 智平方