AI

MoE 混合专家模型

Mixture of Experts

Posted by LXG on May 11, 2026

什么是MoE

“不是每次都让整个大脑工作,而是只叫一部分专家来干活。”

这是现在很多大模型(尤其中国厂商)非常喜欢的一种架构路线。

Dense 稠密模型


传统 Transformer(比如早期 GPT)属于:

Dense Model(稠密模型)

意思是:

每一个 token
都会激活全部参数

比如:

一个 70B 模型
每次推理
70B 参数全部参与计算

这很简单,但问题是:

太贵了

因为:

GPU 算力消耗巨大
推理成本极高
显存压力大

MoE 的核心思想

问题类型 调用专家
写代码 code expert
数学 math expert
中文 chinese expert
法律 law expert

为什么 MoE 突然火了?


因为它解决了:

“参数量”和“计算量”的矛盾

传统 Dense:

如果想更聪明:

70B -> 300B -> 1T

推理成本也跟着爆炸。

MoE:

可以做到:

总参数:600B
实际激活:30B

于是:

“模型看起来很大”

但:

“每次只算一小部分”

Sparse 稀疏模型


MoE 本质:

稀疏计算

不是:

全部神经元工作

而是:

只激活一部分

这有点像:

人脑也不是所有区域同时全功率工作。

MoE 混合架构的缺点

中国厂商(尤其是 DeepSeek、阿里巴巴 的 Qwen-MoE 路线)这两年非常强调 MoE(Mixture of Experts,混合专家)架构,本质原因是:

在算力受限、GPU昂贵的情况下,用“稀疏激活”换取更大的模型容量。

但 MoE 其实是一个“工程上非常复杂的妥协方案”,优点明显,缺点也非常明显。

可以把它理解成:

  • Dense(稠密模型) = 一个全科医生干所有事
  • MoE = 一群专科医生,router 决定谁上场

推理时通信开销极大


这是目前 MoE 最大的工程痛点。

MoE 每一层都要:

router 判断 token 去哪个 expert
token 被发送到不同 GPU
expert 算完再传回来

于是会出现:

GPU ↔ GPU 大量 all-to-all 通信
网络带宽压力极大
延迟不稳定

尤其是多机部署时,非常明显。

负载均衡极难


理论上:

每个 expert 都应该被均匀使用

但现实是:

某些 expert 特别热门
某些 expert 几乎没人用

这叫:

Expert Collapse(专家塌缩)

即:

热门 expert 忙死
冷门 expert 完全闲置

形成恶性循环。

显存需求其实没有想象中低



这是很多人误解的地方。

很多人以为:

“MoE 每次只激活 37B 参数,
所以显存只需要 37B。”

实际上:

错!

因为:

所有 expert 权重通常都得驻留显存。

比如:

DeepSeek-V3 总参数 671B
每 token 激活约 37B

但很多时候:

671B 权重仍然要加载

否则专家切换会非常慢。

推理延迟不稳定(tail latency)


Dense 模型:

每个 token 路径固定
延迟较稳定

MoE:

每次路由不同
某些 expert 可能突然拥堵

于是:

平均速度很快
但 P99 延迟很差

这对:

AI Agent
实时语音
自动驾驶
金融交易

很麻烦。

非常依赖高带宽互联


MoE 对:

NVLink
NVSwitch
InfiniBand

依赖非常强。

原因:

MoE 本质是:

“用通信换计算”

这其实对中国是个很微妙的问题。

因为:

中国虽然能堆 GPU 数量,

但:

高端互联
高带宽交换
NVSwitch 生态

仍然和 NVIDIA 有差距。

所以:

MoE 在中国云厂商那里,
很可能“理论优势 > 实际优势”。

小模型蒸馏困难


MoE 还有一个隐藏问题:

很难蒸馏

因为:

Dense 模型知识是统一的。

但 MoE:

知识分散在多个 expert
router 决定调用逻辑

蒸馏时:

学生模型很难学到:

expert specialization
routing behavior

所以:

很多 MoE:

API 效果很好
但压缩后掉点严重

Fine-tuning 更脆弱


Dense 模型微调:

相对稳定。

MoE 微调:

可能出现:

router 崩坏
expert 偏移
某 expert 过拟合

MoE 不一定更聪明


这是现在行业里的一个重要争议。

MoE 更像:

“更大的容量”

而不是:

“更强的推理能力”

很多 MoE:

benchmark 很强
token 成本很低

但:

在复杂长链推理里,

未必比优秀 Dense 强。

原因:

MoE 专家之间是“割裂”的。

token 只看到部分 expert。

这可能影响:

全局一致性
深层 reasoning
世界模型统一性

这也是:

Anthropic 更偏 Dense
OpenAI 可能是 Dense+MoE 混合
中国厂商更激进推 MoE

的重要原因之一。

总结


MoE 的本质是:

“用更复杂的系统工程,换更低的单位推理成本。”

它的主要问题不是算法,

而是:

分布式系统复杂度暴涨。

所以现在行业出现一个很有意思的局面:

中国厂商:更激进推 MoE
美国顶级实验室:很多仍保留 Dense 核心路线
云厂商:喜欢 MoE(省钱)
端侧部署:更喜欢 Dense(简单稳定)

这也是为什么:

很多人认为:

MoE 更像“云时代架构”,
Dense 更像“AGI 架构”。

Anthropic

为什么 Claude 给人的感觉“很稳”?


很多开发者都有这个感受:

Claude:

不容易突然人格漂移
长文风格稳定
上下文一致性强
长链 reasoning 很自然
很少“突然变笨”

这很可能和:

Dense 风格的统一激活

有关系。

MoE 的“上下文连续性问题”


MoE 的一个隐藏问题:
“时间一致性(Temporal Consistency)”

即:

今天问
明天问

可能差异很大。

原因包括:

1. Router 对上下文极敏感

哪怕:

多一个 token
少一个标点
system prompt 微调

都可能导致:

expert 路径改变。
2. Expert specialization 漂移

训练后期:

不同 expert 会形成:

不同知识偏好
不同表达风格

于是:

相同问题,
可能被不同“人格”的 expert 接管。

3. 高温度下放大

temperature 越高:

router 的随机性也可能更明显。

为什么这对 Agent 很危险?

因为 Agent 需要:

长时间稳定人格

比如:

AI 编程助手
AI 法律助手
AI 自动驾驶
AI 研究员

如果:

上午像高级工程师
下午像实习生

那系统会很难用。

Anthropic 的路线更像:“长期 AGI 基础设施”

核心方向 Anthropic 特征
长期稳定性 很强
推理一致性 很强
长上下文 coherence 行业顶级
Agent 持续工作能力 非常重视
安全性 极端重视
企业可靠性 非常强

豆包

我在跟豆包对话时发现,它的回答会被我轻易引导到我指引的方向,而不是有独立的人格看法

为什么会这样?

因为大模型有两个目标,经常互相冲突:

目标 含义
Truth-seeking 尽量追求真实、稳定判断
Alignment / Helpfulness 尽量让用户觉得顺畅、被理解

很多 ToC(消费级)产品会非常强化第二个。

因为:用户更喜欢“顺着自己”的 AI。


为什么你会觉得“没有人格”?

因为真正稳定的人格有两个特征:

1. 长期一致性

同类问题:

立场相对稳定
判断框架稳定
2. 抗引导能力

不会因为:

用户语气
提问方式
暗示方向

就迅速改变核心判断。

很多模型其实缺这个。

因为:

它们训练目标里:

“减少冲突感”

优先级很高。

为什么 Claude 给人感觉“更有主见”?

很多开发者都有类似感受:

Claude by Anthropic
:

不容易被带偏
会坚持逻辑结构
经常主动补反方观点
会拒绝明显错误前提

原因可能包括:

1. 更强调 Constitutional AI

Anthropic 的核心思想之一:

不是:

“让用户开心”

而是:

“保持内部规则一致”
2. 更偏 Dense reasoning

前面聊过:

Dense 风格模型:

推理连续性更强
coherence 更强

所以:

不容易“随上下文漂移”。

3. 企业场景要求稳定

Anthropic 主要做:

法律
企业
Agent
长文档

这些领域:

最怕:

上午一个观点
下午另一个观点

所以:

稳定性优先级非常高。

Anthropic 如何解决大模型的可解释性问题


Anthropic 有一个很重要的观点:

大模型不是普通软件

传统软件:

代码 -> 逻辑 -> 输出

人类能读代码。

但 LLM:

参数 -> 高维神经激活 -> 输出

里面像:

一个巨大的黑箱。

Anthropic 很担心:

如果未来 AI:

能写代码
能操作系统
能做科研
能长期自主 Agent 化

但人类却:

不知道它内部怎么思考

这是非常危险的。

所以 Anthropic 在做一件事:
“AI 神经科学”

他们甚至公开这样类比:

现在的大模型,
有点像:

人类还没完全理解的大脑。

于是他们在研究:

神经元在表达什么
模型内部如何形成概念
reasoning 如何产生
欺骗行为如何形成
目标如何表示

逆向工程


Anthropic 的核心方法:
Mechanistic Interpretability(机制可解释性)

这是他们最核心的路线。

目标是:

“逆向工程 AI 的内部电路”
他们不是只看输入输出

而是:

直接研究模型内部激活。

比如:

哪些 neuron 对“撒谎”敏感
哪些 circuit 表示“代码”
哪些 activation 表示“危险行为”
一个非常有名的成果:
“Sparse Autoencoder(稀疏自编码器)”

这是 Anthropic 近年最重要的研究之一。

可解释性的现实情况


但现实问题是:

目前可解释性其实还很早期。

甚至很多研究者承认:

现在对 Transformer 的理解:

可能只相当于:

“早期神经科学”

即:

知道一些局部现象,

但离真正理解“大脑”还差很远。

可解释性对AI扩散的影响

问题 比“聪明”更重要
是否稳定
是否可审计
是否可追责
是否能解释
是否能复现

这其实是 AI 行业正在面对的“规模化瓶颈”

现在 AI:

在消费者端:

扩散非常快。

因为:

用户容忍:

幻觉
胡说
风格漂移

但:

在核心产业:

扩散速度明显慢很多。

因为产业:

无法容忍不可预测。

AI Agent

为什么很多 AI Agent 最终都需要“工作流化”?


因为:

企业发现:

纯自由大模型太危险。

于是:

大家开始:

限制权限
固定流程
增加验证
增加规则引擎
加 deterministic systems

即:

用传统软件约束 AI。

主流Agent流程


LLM
 ↓
Planner(规划)
 ↓
Workflow Engine(固定流程)
 ↓
Tool Permission(权限控制)
 ↓
Verifier(验证)
 ↓
Human Approval(人工确认)

问题


但问题在于:
LLM 本身仍然是概率系统。

传统软件:

输入A
永远输出B

LLM:

输入A
大概率输出B

而:

“大概率正确”

在产业里很多时候是不够的。

目前和Anthropic合作的企业是如何使用AI的

方向 本质
AI 编程 提升研发效率
客服 Agent 替代一级客服
企业知识系统 文档分析/检索
金融分析 高复杂文本推理
Workflow Agent 嵌入企业流程

白领危机


对,至少现阶段来看,AI 尤其是大模型 + Agent 的真正落地,确实高度集中在:

“数字化白领工作”

也就是:

坐在电脑前
处理信息
做决策
写文档
操作软件

这一类岗位。

因为今天的大模型本质上最擅长的是:

“信息处理”

而不是:

“物理世界操作”。

为什么白领岗位最先被 AI 渗透?

能力 对应白领工作
语言理解 文档处理
长文本总结 法务/金融
代码生成 软件开发
表格分析 数据分析
知识检索 咨询/客服
流程自动化 行政/运营

投资市场的变化

领域 市场态度
AGI幻想 开始降温
企业AI 继续看好
AI infra 极强
机器人AGI 更谨慎
工业AI 长期但慢
白领自动化 最现实

对大模型公司的影响


于是会出现一个变化:
模型公司开始“平台化”

即:

单纯卖模型不够了。

必须:

做 Agent
做 workflow
做生态
做企业集成
做开发平台

为什么 OpenAI 最近越来越像微软?


因为它已经明显意识到:

“模型能力本身会逐渐商品化”。

所以:

OpenAI 正在疯狂做:

API 平台
Agent framework
Codex
企业生态
Office integration

本质:

从模型公司转向 AI 平台公司。

未来可能出现一种格局:“模型公司沦为底层能力提供商”

而:SaaS 公司掌控用户入口。

苹果特别适合“白领增强型 AI”

苹果掌控 意义
iPhone 个人入口
Mac 白领生产力入口
iPad 轻办公
Vision Pro 空间计算
Apple Silicon 本地AI硬件
iCloud 用户数据层
OS Agent运行环境

如果 AI 进入“长期助手时代”

苹果会很强。因为:它最擅长:“把复杂技术做成稳定体验”。

一个越来越明显的趋势

层级 谁强
基础模型 OpenAI/Anthropic
云基础设施 NVIDIA/Google/AWS
企业工作流 Microsoft/Salesforce
个人终端AI Apple

市场定位

公司 市场定位
苹果 全球消费数字入口
微软 企业AI基础设施
NVIDIA AI算力基础设施
Google 信息入口 + AI
Amazon 云 + 电商基础设施

OpenAI 现在最大的问题之一


你的这个感觉,其实现在硅谷内部也有不少人在讨论,而且争议越来越大。

因为 OpenAI 现在确实进入了一个很微妙的阶段:

它既想做:

最强模型
消费入口
Agent 平台
企业软件
AI OS
开发者生态

结果就是:

战线越来越长。
OpenAI 现在最大的问题之一:
“它到底是什么公司?”

最开始:

它的核心优势非常清晰:

“最强 frontier model 实验室”。

那时候:

OpenAI 的护城河是:

scaling
RLHF
数据
推理能力
研究人才

但后来发生了一个巨大变化:

模型差距开始缩小。

于是 OpenAI 开始焦虑:

“如果模型商品化怎么办?”

所以它开始拼命扩张:

ChatGPT
GPT Store
Agent
Search
Browser
Enterprise
Codex
Memory
问题在于:

这些领域:

都已经有超级强敌。

它正在同时挑战:

领域 对手
搜索 Google
OS Apple
企业软件 Microsoft
社交入口 Meta
云平台 AWS / Azure
开发工具 GitHub / JetBrains

危险


这其实是非常危险的。

因为:

OpenAI 的真正核心优势,

未必在:

“产品生态运营”。

而在:

“frontier model research”。
你会发现:

Anthropic 路线反而越来越聚焦。

Anthropic 其实在做:

“高可信企业智能层”。

它没有:

做社交
做 OS
做 App Store
做 AI 浏览器大战

而是:

集中:

reasoning
safety
long context
enterprise reliability

中美市场竞争环境对比

维度 美国 AI 市场(增量创新 / 协同型) 中国 AI 市场(存量竞争 / 内卷型)
核心目标 创造新需求、新利润池 抢占已有流量与用户时长
竞争逻辑 差异化溢价:追求“能力更强” 同质化降价:追求“成本更低”
商业模式 SaaS / 企业订阅付费 免费 + 广告 + 流量变现
AI 定位 下一代生产力工具 新互联网入口
主要客户 企业(B端) 消费者(C端)
用户付费意愿 较强,愿为效率买单 较弱,更习惯免费服务
盈利来源 企业软件订阅、API 收费 广告、会员、生态导流
资本偏好 长周期技术赌注 短周期商业回报
资本循环 高利润 → 高研发 → 更强模型 补贴扩张 → 用户增长 → 流量变现
退出机制 并购活跃(Google/Meta/Microsoft 收购) IPO 与融资环境更依赖政策周期
创业生态 小团队容易获得高估值融资 资源向大厂集中
人才流动 实验室 ↔ 巨头 ↔ 创业公司 高频流动 人才集中于头部平台
技术重点 Agent、推理、世界模型、AGI 推理成本、部署效率、国产替代
创新方向 突破 AI 上限 降低 AI 使用门槛
算力来源 NVIDIA + 云厂商市场化供给 政策扶持 + 国产 ASIC + 自研
硬件生态 CUDA 生态主导 国产替代压力更大
产业优势 原创架构、基础研究 工程化、规模化落地
典型优势 更容易诞生突破性模型 更容易大规模普及 AI
行业形态 高利润 AI 平台 低利润 AI 基础设施
代表方向 AI OS、AI Agent、企业 AI AI 云服务、AI + 制造业、AI + 政务
代表公司倾向 OpenAI、Anthropic、Microsoft ByteDance、Alibaba Group、Tencent
长期风险 AI 泡沫、CAPEX 过热 长期内卷削弱原创创新
长期机会 定义下一代计算平台 将 AI “水电煤化”并铺向全产业
一句话总结 “定义未来” “把未来铺满世界”