什么是MoE
“不是每次都让整个大脑工作,而是只叫一部分专家来干活。”
这是现在很多大模型(尤其中国厂商)非常喜欢的一种架构路线。
Dense 稠密模型
传统 Transformer(比如早期 GPT)属于:
Dense Model(稠密模型)
意思是:
每一个 token
都会激活全部参数
比如:
一个 70B 模型
每次推理
70B 参数全部参与计算
这很简单,但问题是:
太贵了
因为:
GPU 算力消耗巨大
推理成本极高
显存压力大
MoE 的核心思想
| 问题类型 | 调用专家 |
|---|---|
| 写代码 | code expert |
| 数学 | math expert |
| 中文 | chinese expert |
| 法律 | law expert |
为什么 MoE 突然火了?
因为它解决了:
“参数量”和“计算量”的矛盾
传统 Dense:
如果想更聪明:
70B -> 300B -> 1T
推理成本也跟着爆炸。
MoE:
可以做到:
总参数:600B
实际激活:30B
于是:
“模型看起来很大”
但:
“每次只算一小部分”
Sparse 稀疏模型
MoE 本质:
稀疏计算
不是:
全部神经元工作
而是:
只激活一部分
这有点像:
人脑也不是所有区域同时全功率工作。
MoE 混合架构的缺点
中国厂商(尤其是 DeepSeek、阿里巴巴 的 Qwen-MoE 路线)这两年非常强调 MoE(Mixture of Experts,混合专家)架构,本质原因是:
在算力受限、GPU昂贵的情况下,用“稀疏激活”换取更大的模型容量。
但 MoE 其实是一个“工程上非常复杂的妥协方案”,优点明显,缺点也非常明显。
可以把它理解成:
- Dense(稠密模型) = 一个全科医生干所有事
- MoE = 一群专科医生,router 决定谁上场
推理时通信开销极大
这是目前 MoE 最大的工程痛点。
MoE 每一层都要:
router 判断 token 去哪个 expert
token 被发送到不同 GPU
expert 算完再传回来
于是会出现:
GPU ↔ GPU 大量 all-to-all 通信
网络带宽压力极大
延迟不稳定
尤其是多机部署时,非常明显。
负载均衡极难
理论上:
每个 expert 都应该被均匀使用
但现实是:
某些 expert 特别热门
某些 expert 几乎没人用
这叫:
Expert Collapse(专家塌缩)
即:
热门 expert 忙死
冷门 expert 完全闲置
形成恶性循环。
显存需求其实没有想象中低
这是很多人误解的地方。
很多人以为:
“MoE 每次只激活 37B 参数,
所以显存只需要 37B。”
实际上:
错!
因为:
所有 expert 权重通常都得驻留显存。
比如:
DeepSeek-V3 总参数 671B
每 token 激活约 37B
但很多时候:
671B 权重仍然要加载
否则专家切换会非常慢。
推理延迟不稳定(tail latency)
Dense 模型:
每个 token 路径固定
延迟较稳定
MoE:
每次路由不同
某些 expert 可能突然拥堵
于是:
平均速度很快
但 P99 延迟很差
这对:
AI Agent
实时语音
自动驾驶
金融交易
很麻烦。
非常依赖高带宽互联
MoE 对:
NVLink
NVSwitch
InfiniBand
依赖非常强。
原因:
MoE 本质是:
“用通信换计算”
这其实对中国是个很微妙的问题。
因为:
中国虽然能堆 GPU 数量,
但:
高端互联
高带宽交换
NVSwitch 生态
仍然和 NVIDIA 有差距。
所以:
MoE 在中国云厂商那里,
很可能“理论优势 > 实际优势”。
小模型蒸馏困难
MoE 还有一个隐藏问题:
很难蒸馏
因为:
Dense 模型知识是统一的。
但 MoE:
知识分散在多个 expert
router 决定调用逻辑
蒸馏时:
学生模型很难学到:
expert specialization
routing behavior
所以:
很多 MoE:
API 效果很好
但压缩后掉点严重
Fine-tuning 更脆弱
Dense 模型微调:
相对稳定。
MoE 微调:
可能出现:
router 崩坏
expert 偏移
某 expert 过拟合
MoE 不一定更聪明
这是现在行业里的一个重要争议。
MoE 更像:
“更大的容量”
而不是:
“更强的推理能力”
很多 MoE:
benchmark 很强
token 成本很低
但:
在复杂长链推理里,
未必比优秀 Dense 强。
原因:
MoE 专家之间是“割裂”的。
token 只看到部分 expert。
这可能影响:
全局一致性
深层 reasoning
世界模型统一性
这也是:
Anthropic 更偏 Dense
OpenAI 可能是 Dense+MoE 混合
中国厂商更激进推 MoE
的重要原因之一。
总结
MoE 的本质是:
“用更复杂的系统工程,换更低的单位推理成本。”
它的主要问题不是算法,
而是:
分布式系统复杂度暴涨。
所以现在行业出现一个很有意思的局面:
中国厂商:更激进推 MoE
美国顶级实验室:很多仍保留 Dense 核心路线
云厂商:喜欢 MoE(省钱)
端侧部署:更喜欢 Dense(简单稳定)
这也是为什么:
很多人认为:
MoE 更像“云时代架构”,
Dense 更像“AGI 架构”。
Anthropic
为什么 Claude 给人的感觉“很稳”?
很多开发者都有这个感受:
Claude:
不容易突然人格漂移
长文风格稳定
上下文一致性强
长链 reasoning 很自然
很少“突然变笨”
这很可能和:
Dense 风格的统一激活
有关系。
MoE 的“上下文连续性问题”
MoE 的一个隐藏问题:
“时间一致性(Temporal Consistency)”
即:
今天问
明天问
可能差异很大。
原因包括:
1. Router 对上下文极敏感
哪怕:
多一个 token
少一个标点
system prompt 微调
都可能导致:
expert 路径改变。
2. Expert specialization 漂移
训练后期:
不同 expert 会形成:
不同知识偏好
不同表达风格
于是:
相同问题,
可能被不同“人格”的 expert 接管。
3. 高温度下放大
temperature 越高:
router 的随机性也可能更明显。
为什么这对 Agent 很危险?
因为 Agent 需要:
长时间稳定人格
比如:
AI 编程助手
AI 法律助手
AI 自动驾驶
AI 研究员
如果:
上午像高级工程师
下午像实习生
那系统会很难用。
Anthropic 的路线更像:“长期 AGI 基础设施”
| 核心方向 | Anthropic 特征 |
|---|---|
| 长期稳定性 | 很强 |
| 推理一致性 | 很强 |
| 长上下文 coherence | 行业顶级 |
| Agent 持续工作能力 | 非常重视 |
| 安全性 | 极端重视 |
| 企业可靠性 | 非常强 |
豆包
我在跟豆包对话时发现,它的回答会被我轻易引导到我指引的方向,而不是有独立的人格看法
为什么会这样?
因为大模型有两个目标,经常互相冲突:
| 目标 | 含义 |
|---|---|
| Truth-seeking | 尽量追求真实、稳定判断 |
| Alignment / Helpfulness | 尽量让用户觉得顺畅、被理解 |
很多 ToC(消费级)产品会非常强化第二个。
因为:用户更喜欢“顺着自己”的 AI。
为什么你会觉得“没有人格”?
因为真正稳定的人格有两个特征:
1. 长期一致性
同类问题:
立场相对稳定
判断框架稳定
2. 抗引导能力
不会因为:
用户语气
提问方式
暗示方向
就迅速改变核心判断。
很多模型其实缺这个。
因为:
它们训练目标里:
“减少冲突感”
优先级很高。
为什么 Claude 给人感觉“更有主见”?
很多开发者都有类似感受:
Claude by Anthropic
:
不容易被带偏
会坚持逻辑结构
经常主动补反方观点
会拒绝明显错误前提
原因可能包括:
1. 更强调 Constitutional AI
Anthropic 的核心思想之一:
不是:
“让用户开心”
而是:
“保持内部规则一致”
2. 更偏 Dense reasoning
前面聊过:
Dense 风格模型:
推理连续性更强
coherence 更强
所以:
不容易“随上下文漂移”。
3. 企业场景要求稳定
Anthropic 主要做:
法律
企业
Agent
长文档
这些领域:
最怕:
上午一个观点
下午另一个观点
所以:
稳定性优先级非常高。
Anthropic 如何解决大模型的可解释性问题
Anthropic 有一个很重要的观点:
大模型不是普通软件
传统软件:
代码 -> 逻辑 -> 输出
人类能读代码。
但 LLM:
参数 -> 高维神经激活 -> 输出
里面像:
一个巨大的黑箱。
Anthropic 很担心:
如果未来 AI:
能写代码
能操作系统
能做科研
能长期自主 Agent 化
但人类却:
不知道它内部怎么思考
这是非常危险的。
所以 Anthropic 在做一件事:
“AI 神经科学”
他们甚至公开这样类比:
现在的大模型,
有点像:
人类还没完全理解的大脑。
于是他们在研究:
神经元在表达什么
模型内部如何形成概念
reasoning 如何产生
欺骗行为如何形成
目标如何表示
逆向工程
Anthropic 的核心方法:
Mechanistic Interpretability(机制可解释性)
这是他们最核心的路线。
目标是:
“逆向工程 AI 的内部电路”
他们不是只看输入输出
而是:
直接研究模型内部激活。
比如:
哪些 neuron 对“撒谎”敏感
哪些 circuit 表示“代码”
哪些 activation 表示“危险行为”
一个非常有名的成果:
“Sparse Autoencoder(稀疏自编码器)”
这是 Anthropic 近年最重要的研究之一。
可解释性的现实情况
但现实问题是:
目前可解释性其实还很早期。
甚至很多研究者承认:
现在对 Transformer 的理解:
可能只相当于:
“早期神经科学”
即:
知道一些局部现象,
但离真正理解“大脑”还差很远。
可解释性对AI扩散的影响
| 问题 | 比“聪明”更重要 |
|---|---|
| 是否稳定 | 是 |
| 是否可审计 | 是 |
| 是否可追责 | 是 |
| 是否能解释 | 是 |
| 是否能复现 | 是 |
这其实是 AI 行业正在面对的“规模化瓶颈”
现在 AI:
在消费者端:
扩散非常快。
因为:
用户容忍:
幻觉
胡说
风格漂移
但:
在核心产业:
扩散速度明显慢很多。
因为产业:
无法容忍不可预测。
AI Agent
为什么很多 AI Agent 最终都需要“工作流化”?
因为:
企业发现:
纯自由大模型太危险。
于是:
大家开始:
限制权限
固定流程
增加验证
增加规则引擎
加 deterministic systems
即:
用传统软件约束 AI。
主流Agent流程
LLM
↓
Planner(规划)
↓
Workflow Engine(固定流程)
↓
Tool Permission(权限控制)
↓
Verifier(验证)
↓
Human Approval(人工确认)
问题
但问题在于:
LLM 本身仍然是概率系统。
传统软件:
输入A
永远输出B
LLM:
输入A
大概率输出B
而:
“大概率正确”
在产业里很多时候是不够的。
目前和Anthropic合作的企业是如何使用AI的
| 方向 | 本质 |
|---|---|
| AI 编程 | 提升研发效率 |
| 客服 Agent | 替代一级客服 |
| 企业知识系统 | 文档分析/检索 |
| 金融分析 | 高复杂文本推理 |
| Workflow Agent | 嵌入企业流程 |
白领危机
对,至少现阶段来看,AI 尤其是大模型 + Agent 的真正落地,确实高度集中在:
“数字化白领工作”
也就是:
坐在电脑前
处理信息
做决策
写文档
操作软件
这一类岗位。
因为今天的大模型本质上最擅长的是:
“信息处理”
而不是:
“物理世界操作”。
为什么白领岗位最先被 AI 渗透?
| 能力 | 对应白领工作 |
|---|---|
| 语言理解 | 文档处理 |
| 长文本总结 | 法务/金融 |
| 代码生成 | 软件开发 |
| 表格分析 | 数据分析 |
| 知识检索 | 咨询/客服 |
| 流程自动化 | 行政/运营 |
投资市场的变化
| 领域 | 市场态度 |
|---|---|
| AGI幻想 | 开始降温 |
| 企业AI | 继续看好 |
| AI infra | 极强 |
| 机器人AGI | 更谨慎 |
| 工业AI | 长期但慢 |
| 白领自动化 | 最现实 |
对大模型公司的影响
于是会出现一个变化:
模型公司开始“平台化”
即:
单纯卖模型不够了。
必须:
做 Agent
做 workflow
做生态
做企业集成
做开发平台
为什么 OpenAI 最近越来越像微软?
因为它已经明显意识到:
“模型能力本身会逐渐商品化”。
所以:
OpenAI 正在疯狂做:
API 平台
Agent framework
Codex
企业生态
Office integration
本质:
从模型公司转向 AI 平台公司。
未来可能出现一种格局:“模型公司沦为底层能力提供商”
而:SaaS 公司掌控用户入口。
苹果特别适合“白领增强型 AI”
| 苹果掌控 | 意义 |
|---|---|
| iPhone | 个人入口 |
| Mac | 白领生产力入口 |
| iPad | 轻办公 |
| Vision Pro | 空间计算 |
| Apple Silicon | 本地AI硬件 |
| iCloud | 用户数据层 |
| OS | Agent运行环境 |
如果 AI 进入“长期助手时代”
苹果会很强。因为:它最擅长:“把复杂技术做成稳定体验”。
一个越来越明显的趋势
| 层级 | 谁强 |
|---|---|
| 基础模型 | OpenAI/Anthropic |
| 云基础设施 | NVIDIA/Google/AWS |
| 企业工作流 | Microsoft/Salesforce |
| 个人终端AI | Apple |
市场定位
| 公司 | 市场定位 |
|---|---|
| 苹果 | 全球消费数字入口 |
| 微软 | 企业AI基础设施 |
| NVIDIA | AI算力基础设施 |
| 信息入口 + AI | |
| Amazon | 云 + 电商基础设施 |
OpenAI 现在最大的问题之一
你的这个感觉,其实现在硅谷内部也有不少人在讨论,而且争议越来越大。
因为 OpenAI 现在确实进入了一个很微妙的阶段:
它既想做:
最强模型
消费入口
Agent 平台
企业软件
AI OS
开发者生态
结果就是:
战线越来越长。
OpenAI 现在最大的问题之一:
“它到底是什么公司?”
最开始:
它的核心优势非常清晰:
“最强 frontier model 实验室”。
那时候:
OpenAI 的护城河是:
scaling
RLHF
数据
推理能力
研究人才
但后来发生了一个巨大变化:
模型差距开始缩小。
于是 OpenAI 开始焦虑:
“如果模型商品化怎么办?”
所以它开始拼命扩张:
ChatGPT
GPT Store
Agent
Search
Browser
Enterprise
Codex
Memory
问题在于:
这些领域:
都已经有超级强敌。
它正在同时挑战:
| 领域 | 对手 |
|---|---|
| 搜索 | |
| OS | Apple |
| 企业软件 | Microsoft |
| 社交入口 | Meta |
| 云平台 | AWS / Azure |
| 开发工具 | GitHub / JetBrains |
危险
这其实是非常危险的。
因为:
OpenAI 的真正核心优势,
未必在:
“产品生态运营”。
而在:
“frontier model research”。
你会发现:
Anthropic 路线反而越来越聚焦。
Anthropic 其实在做:
“高可信企业智能层”。
它没有:
做社交
做 OS
做 App Store
做 AI 浏览器大战
而是:
集中:
reasoning
safety
long context
enterprise reliability
中美市场竞争环境对比
| 维度 | 美国 AI 市场(增量创新 / 协同型) | 中国 AI 市场(存量竞争 / 内卷型) |
|---|---|---|
| 核心目标 | 创造新需求、新利润池 | 抢占已有流量与用户时长 |
| 竞争逻辑 | 差异化溢价:追求“能力更强” | 同质化降价:追求“成本更低” |
| 商业模式 | SaaS / 企业订阅付费 | 免费 + 广告 + 流量变现 |
| AI 定位 | 下一代生产力工具 | 新互联网入口 |
| 主要客户 | 企业(B端) | 消费者(C端) |
| 用户付费意愿 | 较强,愿为效率买单 | 较弱,更习惯免费服务 |
| 盈利来源 | 企业软件订阅、API 收费 | 广告、会员、生态导流 |
| 资本偏好 | 长周期技术赌注 | 短周期商业回报 |
| 资本循环 | 高利润 → 高研发 → 更强模型 | 补贴扩张 → 用户增长 → 流量变现 |
| 退出机制 | 并购活跃(Google/Meta/Microsoft 收购) | IPO 与融资环境更依赖政策周期 |
| 创业生态 | 小团队容易获得高估值融资 | 资源向大厂集中 |
| 人才流动 | 实验室 ↔ 巨头 ↔ 创业公司 高频流动 | 人才集中于头部平台 |
| 技术重点 | Agent、推理、世界模型、AGI | 推理成本、部署效率、国产替代 |
| 创新方向 | 突破 AI 上限 | 降低 AI 使用门槛 |
| 算力来源 | NVIDIA + 云厂商市场化供给 | 政策扶持 + 国产 ASIC + 自研 |
| 硬件生态 | CUDA 生态主导 | 国产替代压力更大 |
| 产业优势 | 原创架构、基础研究 | 工程化、规模化落地 |
| 典型优势 | 更容易诞生突破性模型 | 更容易大规模普及 AI |
| 行业形态 | 高利润 AI 平台 | 低利润 AI 基础设施 |
| 代表方向 | AI OS、AI Agent、企业 AI | AI 云服务、AI + 制造业、AI + 政务 |
| 代表公司倾向 | OpenAI、Anthropic、Microsoft | ByteDance、Alibaba Group、Tencent |
| 长期风险 | AI 泡沫、CAPEX 过热 | 长期内卷削弱原创创新 |
| 长期机会 | 定义下一代计算平台 | 将 AI “水电煤化”并铺向全产业 |
| 一句话总结 | “定义未来” | “把未来铺满世界” |
0
次点赞