MoE 混合专家模型 - 李晓刚的博客

什么是MoE

“不是每次都让整个大脑工作，而是只叫一部分专家来干活。”

这是现在很多大模型（尤其中国厂商）非常喜欢的一种架构路线。

Dense 稠密模型

传统 Transformer（比如早期 GPT）属于：

Dense Model（稠密模型）

意思是：

每一个 token
都会激活全部参数

比如：

一个 70B 模型
每次推理
70B 参数全部参与计算

这很简单，但问题是：

太贵了

因为：

GPU 算力消耗巨大
推理成本极高
显存压力大

MoE 的核心思想

问题类型	调用专家
写代码	code expert
数学	math expert
中文	chinese expert
法律	law expert

为什么 MoE 突然火了？

因为它解决了：

“参数量”和“计算量”的矛盾

传统 Dense：

如果想更聪明：

70B -> 300B -> 1T

推理成本也跟着爆炸。

MoE：

可以做到：

总参数：600B
实际激活：30B

于是：

“模型看起来很大”

但：

“每次只算一小部分”

Sparse 稀疏模型

MoE 本质：

稀疏计算

不是：

全部神经元工作

而是：

只激活一部分

这有点像：

人脑也不是所有区域同时全功率工作。

MoE 混合架构的缺点

中国厂商（尤其是 DeepSeek、阿里巴巴的 Qwen-MoE 路线）这两年非常强调 MoE（Mixture of Experts，混合专家）架构，本质原因是：

在算力受限、GPU昂贵的情况下，用“稀疏激活”换取更大的模型容量。

但 MoE 其实是一个“工程上非常复杂的妥协方案”，优点明显，缺点也非常明显。

可以把它理解成：

Dense（稠密模型） = 一个全科医生干所有事
MoE = 一群专科医生，router 决定谁上场

推理时通信开销极大

这是目前 MoE 最大的工程痛点。

MoE 每一层都要：

router 判断 token 去哪个 expert
token 被发送到不同 GPU
expert 算完再传回来

于是会出现：

GPU ↔ GPU 大量 all-to-all 通信
网络带宽压力极大
延迟不稳定

尤其是多机部署时，非常明显。

负载均衡极难

理论上：

每个 expert 都应该被均匀使用

但现实是：

某些 expert 特别热门
某些 expert 几乎没人用

这叫：

Expert Collapse（专家塌缩）

即：

热门 expert 忙死
冷门 expert 完全闲置

形成恶性循环。

显存需求其实没有想象中低

这是很多人误解的地方。

很多人以为：

“MoE 每次只激活 37B 参数，
所以显存只需要 37B。”

实际上：

错！

因为：

所有 expert 权重通常都得驻留显存。

比如：

DeepSeek-V3 总参数 671B
每 token 激活约 37B

但很多时候：

671B 权重仍然要加载

否则专家切换会非常慢。

推理延迟不稳定（tail latency）

Dense 模型：

每个 token 路径固定
延迟较稳定

MoE：

每次路由不同
某些 expert 可能突然拥堵

于是：

平均速度很快
但 P99 延迟很差

这对：

AI Agent
实时语音
自动驾驶
金融交易

很麻烦。

非常依赖高带宽互联

MoE 对：

NVLink
NVSwitch
InfiniBand

依赖非常强。

原因：

MoE 本质是：

“用通信换计算”

这其实对中国是个很微妙的问题。

因为：

中国虽然能堆 GPU 数量，

但：

高端互联
高带宽交换
NVSwitch 生态

仍然和 NVIDIA 有差距。

所以：

MoE 在中国云厂商那里，
很可能“理论优势 > 实际优势”。

小模型蒸馏困难

MoE 还有一个隐藏问题：

很难蒸馏

因为：

Dense 模型知识是统一的。

但 MoE：

知识分散在多个 expert
router 决定调用逻辑

蒸馏时：

学生模型很难学到：

expert specialization
routing behavior

所以：

很多 MoE：

API 效果很好
但压缩后掉点严重

Fine-tuning 更脆弱

Dense 模型微调：

相对稳定。

MoE 微调：

可能出现：

router 崩坏
expert 偏移
某 expert 过拟合

MoE 不一定更聪明

这是现在行业里的一个重要争议。

MoE 更像：

“更大的容量”

而不是：

“更强的推理能力”

很多 MoE：

benchmark 很强
token 成本很低

但：

在复杂长链推理里，

未必比优秀 Dense 强。

原因：

MoE 专家之间是“割裂”的。

token 只看到部分 expert。

这可能影响：

全局一致性
深层 reasoning
世界模型统一性

这也是：

Anthropic 更偏 Dense
OpenAI 可能是 Dense+MoE 混合
中国厂商更激进推 MoE

的重要原因之一。

总结

MoE 的本质是：

“用更复杂的系统工程，换更低的单位推理成本。”

它的主要问题不是算法，

而是：

分布式系统复杂度暴涨。

所以现在行业出现一个很有意思的局面：

中国厂商：更激进推 MoE
美国顶级实验室：很多仍保留 Dense 核心路线
云厂商：喜欢 MoE（省钱）
端侧部署：更喜欢 Dense（简单稳定）

这也是为什么：

很多人认为：

MoE 更像“云时代架构”，
Dense 更像“AGI 架构”。

Anthropic

为什么 Claude 给人的感觉“很稳”？

很多开发者都有这个感受：

Claude：

不容易突然人格漂移
长文风格稳定
上下文一致性强
长链 reasoning 很自然
很少“突然变笨”

这很可能和：

Dense 风格的统一激活

有关系。

MoE 的“上下文连续性问题”

MoE 的一个隐藏问题：
“时间一致性（Temporal Consistency）”

即：

今天问
明天问

可能差异很大。

原因包括：

1. Router 对上下文极敏感

哪怕：

多一个 token
少一个标点
system prompt 微调

都可能导致：

expert 路径改变。
2. Expert specialization 漂移

训练后期：

不同 expert 会形成：

不同知识偏好
不同表达风格

于是：

相同问题，
可能被不同“人格”的 expert 接管。

3. 高温度下放大

temperature 越高：

router 的随机性也可能更明显。

为什么这对 Agent 很危险？

因为 Agent 需要：

长时间稳定人格

比如：

AI 编程助手
AI 法律助手
AI 自动驾驶
AI 研究员

如果：

上午像高级工程师
下午像实习生

那系统会很难用。

Anthropic 的路线更像：“长期 AGI 基础设施”

核心方向	Anthropic 特征
长期稳定性	很强
推理一致性	很强
长上下文 coherence	行业顶级
Agent 持续工作能力	非常重视
安全性	极端重视
企业可靠性	非常强

豆包

我在跟豆包对话时发现，它的回答会被我轻易引导到我指引的方向，而不是有独立的人格看法

为什么会这样？

因为大模型有两个目标，经常互相冲突：

目标	含义
Truth-seeking	尽量追求真实、稳定判断
Alignment / Helpfulness	尽量让用户觉得顺畅、被理解

很多 ToC（消费级）产品会非常强化第二个。

因为：用户更喜欢“顺着自己”的 AI。

为什么你会觉得“没有人格”？

因为真正稳定的人格有两个特征：

1. 长期一致性

同类问题：

立场相对稳定
判断框架稳定
2. 抗引导能力

不会因为：

用户语气
提问方式
暗示方向

就迅速改变核心判断。

很多模型其实缺这个。

因为：

它们训练目标里：

“减少冲突感”

优先级很高。

为什么 Claude 给人感觉“更有主见”？

很多开发者都有类似感受：

Claude by Anthropic
：

不容易被带偏
会坚持逻辑结构
经常主动补反方观点
会拒绝明显错误前提

原因可能包括：

1. 更强调 Constitutional AI

Anthropic 的核心思想之一：

不是：

“让用户开心”

而是：

“保持内部规则一致”
2. 更偏 Dense reasoning

前面聊过：

Dense 风格模型：

推理连续性更强
coherence 更强

所以：

不容易“随上下文漂移”。

3. 企业场景要求稳定

Anthropic 主要做：

法律
企业
Agent
长文档

这些领域：

最怕：

上午一个观点
下午另一个观点

所以：

稳定性优先级非常高。

Anthropic 如何解决大模型的可解释性问题

Anthropic 有一个很重要的观点：

大模型不是普通软件

传统软件：

代码 -> 逻辑 -> 输出

人类能读代码。

但 LLM：

参数 -> 高维神经激活 -> 输出

里面像：

一个巨大的黑箱。

Anthropic 很担心：

如果未来 AI：

能写代码
能操作系统
能做科研
能长期自主 Agent 化

但人类却：

不知道它内部怎么思考

这是非常危险的。

所以 Anthropic 在做一件事：
“AI 神经科学”

他们甚至公开这样类比：

现在的大模型，
有点像：

人类还没完全理解的大脑。

于是他们在研究：

神经元在表达什么
模型内部如何形成概念
reasoning 如何产生
欺骗行为如何形成
目标如何表示

逆向工程

Anthropic 的核心方法：
Mechanistic Interpretability（机制可解释性）

这是他们最核心的路线。

目标是：

“逆向工程 AI 的内部电路”
他们不是只看输入输出

而是：

直接研究模型内部激活。

比如：

哪些 neuron 对“撒谎”敏感
哪些 circuit 表示“代码”
哪些 activation 表示“危险行为”
一个非常有名的成果：
“Sparse Autoencoder（稀疏自编码器）”

这是 Anthropic 近年最重要的研究之一。

可解释性的现实情况

但现实问题是：

目前可解释性其实还很早期。

甚至很多研究者承认：

现在对 Transformer 的理解：

可能只相当于：

“早期神经科学”

即：

知道一些局部现象，

但离真正理解“大脑”还差很远。

可解释性对AI扩散的影响

问题	比“聪明”更重要
是否稳定	是
是否可审计	是
是否可追责	是
是否能解释	是
是否能复现	是

这其实是 AI 行业正在面对的“规模化瓶颈”

现在 AI：

在消费者端：

扩散非常快。

因为：

用户容忍：

幻觉
胡说
风格漂移

但：

在核心产业：

扩散速度明显慢很多。

因为产业：

无法容忍不可预测。

AI Agent

为什么很多 AI Agent 最终都需要“工作流化”？

因为：

企业发现：

纯自由大模型太危险。

于是：

大家开始：

限制权限
固定流程
增加验证
增加规则引擎
加 deterministic systems

即：

用传统软件约束 AI。

主流Agent流程

LLM
 ↓
Planner（规划）
 ↓
Workflow Engine（固定流程）
 ↓
Tool Permission（权限控制）
 ↓
Verifier（验证）
 ↓
Human Approval（人工确认）

问题

但问题在于：
LLM 本身仍然是概率系统。

传统软件：

输入A
永远输出B

LLM：

输入A
大概率输出B

而：

“大概率正确”

在产业里很多时候是不够的。

目前和Anthropic合作的企业是如何使用AI的

方向	本质
AI 编程	提升研发效率
客服 Agent	替代一级客服
企业知识系统	文档分析/检索
金融分析	高复杂文本推理
Workflow Agent	嵌入企业流程

白领危机

对，至少现阶段来看，AI 尤其是大模型 + Agent 的真正落地，确实高度集中在：

“数字化白领工作”

也就是：

坐在电脑前
处理信息
做决策
写文档
操作软件

这一类岗位。

因为今天的大模型本质上最擅长的是：

“信息处理”

而不是：

“物理世界操作”。

为什么白领岗位最先被 AI 渗透？

能力	对应白领工作
语言理解	文档处理
长文本总结	法务/金融
代码生成	软件开发
表格分析	数据分析
知识检索	咨询/客服
流程自动化	行政/运营

投资市场的变化

领域	市场态度
AGI幻想	开始降温
企业AI	继续看好
AI infra	极强
机器人AGI	更谨慎
工业AI	长期但慢
白领自动化	最现实

对大模型公司的影响

于是会出现一个变化：
模型公司开始“平台化”

即：

单纯卖模型不够了。

必须：

做 Agent
做 workflow
做生态
做企业集成
做开发平台

为什么 OpenAI 最近越来越像微软？

因为它已经明显意识到：

“模型能力本身会逐渐商品化”。

所以：

OpenAI 正在疯狂做：

API 平台
Agent framework
Codex
企业生态
Office integration

本质：

从模型公司转向 AI 平台公司。

未来可能出现一种格局：“模型公司沦为底层能力提供商”

而：SaaS 公司掌控用户入口。

苹果特别适合“白领增强型 AI”

苹果掌控	意义
iPhone	个人入口
Mac	白领生产力入口
iPad	轻办公
Vision Pro	空间计算
Apple Silicon	本地AI硬件
iCloud	用户数据层
OS	Agent运行环境

如果 AI 进入“长期助手时代”

苹果会很强。因为：它最擅长：“把复杂技术做成稳定体验”。

一个越来越明显的趋势

层级	谁强
基础模型	OpenAI/Anthropic
云基础设施	NVIDIA/Google/AWS
企业工作流	Microsoft/Salesforce
个人终端AI	Apple

市场定位

公司	市场定位
苹果	全球消费数字入口
微软	企业AI基础设施
NVIDIA	AI算力基础设施
Google	信息入口 + AI
Amazon	云 + 电商基础设施

OpenAI 现在最大的问题之一

你的这个感觉，其实现在硅谷内部也有不少人在讨论，而且争议越来越大。

因为 OpenAI 现在确实进入了一个很微妙的阶段：

它既想做：

最强模型
消费入口
Agent 平台
企业软件
AI OS
开发者生态

结果就是：

战线越来越长。
OpenAI 现在最大的问题之一：
“它到底是什么公司？”

最开始：

它的核心优势非常清晰：

“最强 frontier model 实验室”。

那时候：

OpenAI 的护城河是：

scaling
RLHF
数据
推理能力
研究人才

但后来发生了一个巨大变化：

模型差距开始缩小。

于是 OpenAI 开始焦虑：

“如果模型商品化怎么办？”

所以它开始拼命扩张：

ChatGPT
GPT Store
Agent
Search
Browser
Enterprise
Codex
Memory
问题在于：

这些领域：

都已经有超级强敌。

它正在同时挑战：

领域	对手
搜索	Google
OS	Apple
企业软件	Microsoft
社交入口	Meta
云平台	AWS / Azure
开发工具	GitHub / JetBrains

危险

这其实是非常危险的。

因为：

OpenAI 的真正核心优势，

未必在：

“产品生态运营”。

而在：

“frontier model research”。
你会发现：

Anthropic 路线反而越来越聚焦。

Anthropic 其实在做：

“高可信企业智能层”。

它没有：

做社交
做 OS
做 App Store
做 AI 浏览器大战

而是：

集中：

reasoning
safety
long context
enterprise reliability

中美市场竞争环境对比

维度	美国 AI 市场（增量创新 / 协同型）	中国 AI 市场（存量竞争 / 内卷型）
核心目标	创造新需求、新利润池	抢占已有流量与用户时长
竞争逻辑	差异化溢价：追求“能力更强”	同质化降价：追求“成本更低”
商业模式	SaaS / 企业订阅付费	免费 + 广告 + 流量变现
AI 定位	下一代生产力工具	新互联网入口
主要客户	企业（B端）	消费者（C端）
用户付费意愿	较强，愿为效率买单	较弱，更习惯免费服务
盈利来源	企业软件订阅、API 收费	广告、会员、生态导流
资本偏好	长周期技术赌注	短周期商业回报
资本循环	高利润 → 高研发 → 更强模型	补贴扩张 → 用户增长 → 流量变现
退出机制	并购活跃（Google/Meta/Microsoft 收购）	IPO 与融资环境更依赖政策周期
创业生态	小团队容易获得高估值融资	资源向大厂集中
人才流动	实验室 ↔ 巨头 ↔ 创业公司高频流动	人才集中于头部平台
技术重点	Agent、推理、世界模型、AGI	推理成本、部署效率、国产替代
创新方向	突破 AI 上限	降低 AI 使用门槛
算力来源	NVIDIA + 云厂商市场化供给	政策扶持 + 国产 ASIC + 自研
硬件生态	CUDA 生态主导	国产替代压力更大
产业优势	原创架构、基础研究	工程化、规模化落地
典型优势	更容易诞生突破性模型	更容易大规模普及 AI
行业形态	高利润 AI 平台	低利润 AI 基础设施
代表方向	AI OS、AI Agent、企业 AI	AI 云服务、AI + 制造业、AI + 政务
代表公司倾向	OpenAI、Anthropic、Microsoft	ByteDance、Alibaba Group、Tencent
长期风险	AI 泡沫、CAPEX 过热	长期内卷削弱原创创新
长期机会	定义下一代计算平台	将 AI “水电煤化”并铺向全产业
一句话总结	“定义未来”	“把未来铺满世界”

0 次点赞