世界模型
世界模型是一个预测模型。它允许智能体在不进行实际物理操作的情况下,在“脑海”中模拟出:“如果我采取某个动作,世界将会发生什么变化?”
在传统的人工智能(如强化学习)中,智能体通常需要通过无数次真刀真枪的“试错”来学习。但这种方式在现实世界中代价极高(比如无人机撞毁、自动驾驶车祸)。
| 项目 | 普通策略模型 | 世界模型 |
|---|---|---|
| 输入 | 状态 | 状态+动作 |
| 输出 | 动作 | 未来状态 |
| 是否预演未来 | ❌ | ✅ |
| 长任务能力 | 一般 | 强 |
| 泛化能力 | 中 | 更强 |
| 算力需求 | 低 | 高 |
发展时间线
1980
传统动力学模型
↓
2018
World Models(VAE+RNN)
↓
2019
Dreamer
↓
2022
视频世界模型
↓
2024
V-JEPA / GAIA-1
↓
2025
机器人世界模型
↓
2026+
Robot Agent
Tesla FSD 是世界模型吗
特斯拉FSD:正在向世界模型演化的大规模视频行为模型(video behavior model)
自动驾驶这几年有个很明显的趋势:
感知
↓
端到端驾驶
↓
视频预测(目前FSD)
↓
世界模型
↓
Agent驾驶
世界模型有突破吗
有突破,但主要是“工程范式突破”,不是“像 Transformer 那样一锤定音的理论革命”
- 从“预测像素”变成“预测抽象世界”
- 从“被动预测”到“动作条件预测”
- 从“短未来”到“长期一致世界”
真正的理论瓶颈还在
问题1:因果 ≠ 相关
现在很多模型学到:
乌云
↓
下雨
但没真正学会:为什么会下雨
它更像:统计规律
而不是:物理机制
这是机器人最头疼的问题。
问题2:长期世界一致性
模型可能:
前5秒:桌子在左边
后5秒:桌子突然消失
人不会这样。
因为人脑里有:持久世界状态
AI还很弱。
问题3:还不知道“什么是正确世界表示”
这是最大的理论问题。目前有几派:
| 路线 | 核心思想 |
|---|---|
| 视频生成派 | 世界 = 视频 |
| JEPA派 | 世界 = 抽象状态 |
| 神经符号派 | 世界 = 物体+关系图 |
| 因果派 | 世界 = 原因→结果 |
世界模型还没有来到Transformer时刻
Nvidia 如何看待世界模型的
NVIDIA 的路线图
他们把机器人 AI 拆成四层:
真实世界
↓
Omniverse(建世界)
↓
Cosmos(世界模型: 理解世界 + 生成世界 + 预测世界)
↓
GR00T / Robot Policy
↓
机器人
| 对比 | Tesla FSD | NVIDIA Cosmos |
|---|---|---|
| 核心资产 | 真实车队数据 | 世界模拟平台 |
| 思路 | 大规模真实学习 | 数字世界训练 |
| 数据来源 | 真实驾驶 | 模拟+真实 |
| 世界模型地位 | 隐式能力 | 核心组件 |
| 方法 | 视频行为模型 | World Foundation Model |
案例
传统做法:
机器人跑校园
↓
采集100小时
↓
训练
NVIDIA 理想做法:
校园数字孪生
↓
Cosmos生成:
雨天
夜晚
人群
施工
逆光
↓
生成10万小时数据
↓
训练机器人
动物智能
大语言模型(LLM)和物理世界模型确实不是一回事,但也不是完全割裂。
人类世界 = 物理世界 + 社会规则 + 语言 + 知识 + 文化 + 抽象概念
而 LLM 学到的大部分东西是:文本世界的统计结构
如果让机器人在虚拟世界中类似动物在真实成长是否可行
虚拟机器人出生
↓
乱动
↓
摔倒
↓
探索
↓
拿东西
↓
避障
↓
学会规律
↓
迁移到真实机器人
问题:Sim-to-Real Gap(模拟到现实差距)
现实世界有很多“脏东西”。
模拟:地板摩擦=0.6
现实:
0.45
0.52
0.71
下雨变0.2
--------------------
模拟:灯光稳定
现实:
逆光
阴影
镜面反射
--------------------
模拟:人正常走
现实:小孩突然跑出来
所以可能出现:
模拟里:100%成功
现实里:撞墙
为什么很多团队现在做“随机成长”
不是:固定世界
而是:
随机光照
随机摩擦
随机天气
随机障碍
随机人物
叫:Domain Randomization
流程:
训练:
10000种世界
↓
现实:
属于其中一种
这样迁移会好很多。
但还有一个更深的问题
动物不仅学物理,还学:
因果
社会行为
长期目标
例如:
猫不是只知道:球滚
还知道:
主人拿零食袋-> 可能有吃的
这涉及:记忆 - 动机 - 奖励
而不是单纯物理模拟。
所以只建:
3D世界 + 物理引擎
还不够。
很多人现在想做的是:
物理世界 + 社会世界 + 语言世界 + 长期任务
根本问题
虚拟世界
↓
机器人像动物一样成长
↓
学会世界规律
↓
迁移到现实
↓
通用机器人
真正卡的不是“缺一个更大的 GPU”,而是中间几个地方可能根本不是连续的。
虚拟世界不等于真实世界
世界太大: 各种组合数据爆炸
动物成长其实没想象中“简单”
猫出生以后:
24小时视觉
24小时触觉
24小时运动
持续几个月
总交互次数非常惊人。
奖励机制很难定义
强化学习里通常:
到终点 +1
撞墙 -1
但现实不是游戏。
配送机器人:
任务:
送咖啡
实际隐含:
不要撞人
不要太慢
不要洒咖啡
不要挡路
不要走草坪
怎么写:
奖励函数 = ?
非常难。
动物其实自带:
饥饿
疼痛
好奇
AI 没有天然这些东西。
世界模型会“幻想”
这个很像 LLM 幻觉。
例如:
机器人学到:
门通常向里开
现实:
这次向外开
它可能内部仍然预测:
门向里开
然后行为崩掉。
因为模型学的是:
统计规律
不一定是:
真实因果规律
最深的未知:我们可能不知道缺什么
小范围智能
既然真实世界千变万化,那能否局限在一个小的园区范围,穷尽组合呢。
可以,而且工业界很多实际落地项目本来就在这么做。
无限现实世界
↓
缩小成有限场景
↓
穷举
↓
获得高可靠性
无人配送、仓储机器人、工厂 AGV、矿山车,很多都在走这条路。
自动驾驶已经验证过这个问题
早期很多人想:
采集100万公里
↓
覆盖全部情况
后来发现:
长尾事件几乎无穷:
大风吹塑料袋
倒下的自行车
逆行电动车
小孩追球
所以现在很多公司变成:
真实数据 + 仿真生成 + 规则约束
Nvidia 如何应对数据爆炸
从“收集所有数据”转成“制造有价值的数据”。
NVIDIA 的思路:数据工厂(Data Factory)
真实数据
↓
抽取规律
↓
世界模型
↓
生成新世界
↓
生成大量高价值数据
而不是:
真实世界
↓
无限采集
Jensen 多次把这个称作:
Physical AI 的数据工厂(Data Factory)。
数据不是越多越好,而是越“信息密度高”越好
NVIDIA 在 Cosmos 论文里提到:
他们原始视频规模非常大(约 2000万小时级原始视频),但大量数据是语义重复的,因此要做筛选和处理。
也就是说:
1000小时:
机器人在空走廊直行
可能价值:
≈10小时
而:
10分钟:
小孩突然跑出
可能价值:
≈100小时
所以未来重点可能是:
Data Quantity
↓
Data Quality
↓
Data Value
第三个关键:主动寻找模型不会的东西
传统:
随机采数据
NVIDIA 越来越像:
模型训练
↓
找到失败案例
↓
定向生成困难场景
↓
继续训练
闭环:
Train
↓
Fail
↓
Generate
↓
Train
这有点像学生刷题:
不是把10000道加法题做十遍
而是:专门做不会的题
NVIDIA 默认了一个很大的前提
它隐含认为:世界模型生成的数据足够接近真实世界。
NVIDIA 的立场: 现实数据无限,所以不要试图收集整个世界,而要建立一个能“制造世界”的系统
具身智能
特定场景的具身智能是否正在爆发的前夜,现在缺的就是数据
对于特定场景(warehouse、园区配送、工厂、商超、酒店、校园、矿区等)的具身智能,确实很像自动驾驶 2014–2018 年前后的状态:技术已经基本跑通,开始从实验室往真实业务里渗透。但真正的瓶颈不是“数据量”本身,而是:
- 高质量交互数据
- 可泛化的数据
- 闭环系统
这三者缺一个都很难爆发。
数据仿真路线玩家
| 路线 | 代表玩家 | 核心思路 | 优势 | 挑战 |
|---|---|---|---|---|
| 全栈仿真平台 | NVIDIA | 数字孪生 + 合成数据 + 强化学习 + 训练平台 | 工具链完整,从仿真到训练闭环 | 成本高,对生态依赖较强 |
| 世界模型路线 | Google DeepMind | 看海量视频,直接学习世界规律,再生成场景 | 泛化能力强,减少手工建模 | 物理真实性仍有限 |
| 真数据驱动路线 | Tesla | 真车/机器人采集 → 自动标注 → 回训 | 数据真实性高 | 长尾数据收集成本大 |
| 数据工厂路线 | 中国机器人数据公司、自动驾驶数据平台 | 少量真实数据 + 大量自动扩增 | 成本较低,可快速扩容 | 数据质量和真实性难保证 |
| 工业数字孪生路线 | Siemens、Ansys、Dassault Systèmes | 高精度物理世界建模 | 工业场景精度很高 | 通用智能能力弱 |
Google / DeepMind
Google 现在做的越来越不像传统仿真器。
以前逻辑:
建3D世界
→ 加物理引擎
→ 放机器人进去训练
现在开始变:
看海量视频
→ 学习世界规律
→ 直接生成世界
也就是:
不手工搭建世界,而让模型“想象世界”。
有点像:
GPT 学语言
↓
世界模型学物理
这条路线的目标是:
减少人工建模
自动生成场景
自动生成机器人行为
Tesla
Tesla 基本属于:
少仿真,多真实数据
路线更像自动驾驶延伸:
真实车辆
→ 收集视频
→ 自动标注
→ 训练
→ 回收更多数据
然后把自动驾驶的数据体系迁移到机器人。
他们比较相信:
世界太复杂,模拟永远不够真实。
所以仿真只是辅助。
中国很多公司
中国其实很猛,但外界关注少。
比如:
Lightwheel(光轮智能)
部分机器人数据公司
自动驾驶数据平台
在做:
真实数据
+ 仿真扩增
+ 自动标注
核心不是做仿真软件,而是做:
“机器人数据工厂”
例如:
真人抓杯子 100 次
↓
自动生成 10000 次变化
包括:
光照变化
材质变化
位置变化
摩擦变化
障碍变化
工业软件巨头
很多人忽略了这帮老牌玩家:
Siemens
Ansys
Dassault Systèmes
他们几十年前就在干数字孪生。
汽车厂里很多流程:
发动机
车身
传感器
工厂
都已经能先在虚拟世界跑。
区别在于:
NVIDIA:
机器人学会干活
工业软件:
先把世界精确建出来
BOTZ ETF
| 排名 | 公司(中文) | 公司(英文) | 类型 | 权重(约) | 对应机器人链条 |
|---|---|---|---|---|---|
| 1 | 基恩士 | Keyence | 工业传感器 / 机器视觉 | 9.1% | 机器人“眼睛” |
| 2 | ABB集团 | ABB | 工业机器人 | 8.6–9.0% | 工业自动化 |
| 3 | 发那科 | Fanuc | 工业机器人 | 8.1–8.7% | 工业机械臂 |
| 4 | 英伟达 | NVIDIA | AI / GPU | 8.0–8.5% | 算力 + 仿真平台 |
| 5 | 直觉外科 | Intuitive Surgical | 医疗机器人 | 6.1–6.8% | 手术机器人 |
| 6 | SMC气动 | SMC Corporation | 气动控制 | 4.8–4.9% | 执行器 |
| 7 | 汇川技术 | Shenzhen Inovance Technology | 工业自动化 | 4.3% | 电机 / 伺服 |
| 8 | 大丰工业 | Daifuku | 物流自动化 | 3.7% | 仓储机器人 |
| 9 | 极光创新 | Aurora Innovation | 自动驾驶 | 2.3% | 数据闭环 |
| 10 | 安川电机 | YASKAWA Electric | 工业机器人 | 2.3% | 电机 / 机器人控制 |
Nvidia 仿真物理世界
NVIDIA 做“仿真物理世界”,本质不是做一个单一仿真器,而是搭了一套从“数字资产 → 物理引擎 → 渲染 → AI训练 → 数据闭环”的整套系统。可以把它理解成:
不是一个世界,而是一个“可无限生成世界的工厂”
底座:Omniverse = “世界操作系统”
NVIDIA Omniverse 是整个体系的核心。
它解决的是一个关键问题:不同软件之间的3D世界无法互通
所以 Omniverse 做了三件事:
1. USD(通用场景描述)
把世界统一成一种格式:
机器人
+ 传感器
+ 材质
+ 光照
+ 动态物体
= USD场景
类似“机器人世界的 HTML”。
多软件接入
它能接入:
CAD(工业设计)
Blender / Maya(3D建模)
工厂数字模型
自动驾驶地图
变成:
所有世界都能进入同一个“虚拟宇宙”
实时同步
多个工程师可以同时编辑一个世界:
改机器人
改工厂
改物理参数
类似:
Google Docs,但用于3D世界
物理引擎:Isaac Sim(核心执行层)
NVIDIA Isaac Sim 才是真正“让机器人动起来”的部分。
1. 物理模拟
包括:
重力
摩擦
刚体碰撞
关节运动
流体(部分)
例如:
机器人抓杯子
→ 计算手指压力
→ 杯子滑动
→ 失败/成功
传感器模拟(非常关键)
机器人看到的不是“图片”,而是:
RGB相机
深度相机
LiDAR
IMU
Isaac Sim 会模拟:
真实噪声
镜头畸变
光照变化
遮挡
延迟
这一步决定“仿真能不能转真实”。
3. GPU加速物理计算
传统仿真(CPU):
慢
只能少量机器人
NVIDIA 用 GPU:
并行模拟上千机器人
同时跑不同场景
生成数据:合成世界(Synthetic Data)
这是 NVIDIA 真正的“杀手能力”。
NVIDIA Isaac Sim + Omniverse 可以做:
1. 自动生成场景
同一个厨房
→ 改光照(白天/夜晚)
→ 改物体位置
→ 改材质
→ 改杂乱程度
变成:
1 个场景 → 100 万变体
自动标注
现实世界最大痛点:
标注太贵
仿真世界:
直接知道:
- 每个物体位置
- 深度
- 轨迹
- 力
无需人工标注。
Domain Randomization
让模型“见过一切乱七八糟的情况”:
光线极端变化
摄像头抖动
物体随机摆放
目的:
防止模型只会“背答案”
训练层:从仿真到 AI
这里才进入“具身智能核心”。
训练方式:
1. 模仿学习(Imitation Learning)
人操作机器人
↓
记录轨迹
↓
AI学习
2. 强化学习(RL)
成功 = +1
失败 = -1
机器人自己试:
拿杯子
走路
避障
Sim2Real(最关键难题)
问题是:
仿真世界 ≠ 真实世界
所以 NVIDIA 做了很多“缩小差距”的技术:
噪声建模
物理参数扰动
随机化训练
真实数据微调
闭环:真实世界反哺仿真(飞轮)
真正完整系统是:
真实机器人运行
↓
收集数据
↓
更新仿真世界
↓
再训练模型
↓
部署更多机器人
↓
再收集数据
这就是你之前提到的:
“数据飞轮”
NVIDIA 的组织结构
NVIDIA 的组织结构
│
├── 1️⃣ Compute Platform(算力平台 / 核心现金牛)
│ │
│ ├── GPU 硬件(GeForce / RTX / Data Center GPU)
│ ├── CUDA 计算平台
│ ├── TensorRT / cuDNN
│ └── DGX 系统(AI服务器)
│
│ 👉 本质:卖“算力引擎”
│
│
├── 2️⃣ AI Platform(人工智能平台 / 增长引擎)
│ │
│ ├── Foundation Models(大模型生态)
│ ├── NVIDIA AI Enterprise
│ ├── 推理服务(Inference Stack)
│ └── NeMo / Triton 等工具链
│
│ 👉 本质:卖“智能能力”
│
│
├── 3️⃣ Simulation & Omniverse(物理世界平台 / 战略级)
│ │
│ ├── :contentReference[oaicite:1]{index=1}
│ │ ├── USD 世界建模系统
│ │ ├── 工业数字孪生
│ │ └── 多人协作3D世界
│ │
│ ├── :contentReference[oaicite:2]{index=2}
│ │ ├── 机器人训练环境
│ │ ├── 传感器仿真(RGB / LiDAR)
│ │ └── 强化学习平台
│ │
│ ├── DRIVE Sim(自动驾驶仿真)
│ └── 工业/工厂数字孪生
│
│ 👉 本质:卖“可生成世界的数据工厂”
│
│
├── 4️⃣ Automotive(汽车业务)
│ │
│ ├── 自动驾驶芯片(DRIVE Thor 等)
│ ├── 自动驾驶软件栈
│ └── 仿真 + 训练闭环(与 Omniverse 强绑定)
│
│ 👉 本质:AI上车
│
│
├── 5️⃣ Robotics(机器人业务)
│ │
│ ├── Jetson 边缘计算平台
│ ├── 机器人 AI Stack
│ └── 仿真训练(Isaac Sim 强绑定)
│
│ 👉 本质:AI落地到物理机器人
│
│
└── 6️⃣ Networking(网络与数据中心基础设施)
│
├── InfiniBand / NVLink
├── 交换机(Mellanox体系)
└── 数据中心互联
中国公司
美国确实在“定义范式”,但中国公司更多是在“等窗口打开后规模化落地”。
🇺🇸 美国在做什么?
NVIDIA → 仿真 + 数据生成 + 训练平台
Google / DeepMind → 世界模型
Tesla → 真实闭环数据飞轮
👉 本质是:
“定义机器人如何学习世界”
🇨🇳 中国在做什么?
你看到的公司大概是:
人形机器人
仓储机器人
工业机器人
服务机器人
特点是:
做产品很多
做平台很少
中国具身智能公司“集体排队上市”,本质不是技术成熟,而是融资结构开始从一级市场向二级市场迁移。
它更像一个“资本退出通道打开”的阶段,而不是“iPhone时刻临近”的信号。
行业还没赚钱,但资本市场已经开始“提前结算未来”。
资本结构不同:美国是“耐心资本”,中国是“周期资本”
🇺🇸 美国
具身智能/AI公司融资结构:
VC + Big Tech + sovereign long-term capital
可以 10–15 年不退出
可以内部上市(比如私有化轮次继续融资)
👉 结果:
不急着 IPO
🇨🇳 中国
典型结构:
VC基金期限 5–8 年
LP要求退出
地方基金 + 产业基金占比高
👉 结果:
到周期后必须“找出口”
IPO 队列
具身智能 IPO 队列
① 已上市
├─ 极智嘉
├─ 云迹科技
├─ 工业机器人公司群
② 正在IPO(核心)
├─ 宇树(人形)
├─ 智元(人形)
├─ 云深处(四足)
├─ 乐聚(人形)
③ IPO辅导 / 准备
├─ 傅利叶
├─ 斯坦德
├─ 多家仓储/巡检机器人
④ 未来候选
├─ 银河通用
├─ 星海图
├─ 智平方