AI 大模型展望

行业发展方向

Posted by LXG on February 25, 2026

Scaling Laws

Scaling Laws(规模定律): 当模型规模、数据量、计算量增加时,模型性能会按照可预测的数学规律提升

最早系统性提出这一规律的是 OpenAI 在 2020 年的论文《Scaling Laws for Neural Language Models》

规模定律正在失效

类别 核心问题 具体表现 本质原因 是否可通过继续堆算力解决
数学规律 幂律递减 算力增加10倍,性能只小幅提升 α 很小(<1),边际收益递减 ❌ 本质不可改变
数据瓶颈 高质量数据耗尽 新数据质量下降、重复率升高 人类高质量文本有限 ❌ 难以根本解决
数据污染 AI 训练 AI 模型生成内容反向进入训练集 信息增量变小 ❌ 需数据治理而非算力
架构上限 Transformer 限制 长链推理弱、无世界模型 架构不是认知系统 ❌ 需架构创新
Benchmark 饱和 接近测试上限 提升 1% 需巨大成本 测试已接近人类平均 ❌ 收益极低
物理限制 功耗墙 GPU 功耗与散热接近极限 半导体物理限制 ❌ 有物理上限
经济限制 成本爆炸 训练成本数亿美元 商业不可持续 ❌ 市场不允许
系统效率 推理成本过高 延迟大、部署贵 模型过于庞大 ❌ 需系统优化
智能本质 智能非单变量函数 算力增加不等于认知提升 缺少目标系统与记忆机制 ❌ 需结构性突破

大模型发展阶段

维度 🔵 Scaling 阶段(2020–2023) 🔴 后 Scaling 阶段(2024–以后)
核心策略 堆参数、堆数据、堆算力 提升推理能力与系统设计
技术信条 Bigger is better Smarter is better
性能提升方式 扩大模型规模即可提升 需要结构与算法创新
成本结构 成本高但可接受 成本增速远高于收益
数据依赖 大规模通用语料 高质量、结构化、专业数据
架构 纯 Transformer 推理增强 + 工具调用 + Agent
能力表现 语言流畅、知识广 复杂推理、多步规划
训练方式 一次性大规模预训练 小模型强化推理训练
商业模式 旗舰模型主导 分层模型 + 专用模型
主要瓶颈 资金与 GPU 数量 数据质量 + 架构效率
行业代表思路 GPT-3、GPT-4 规模跃升 Reasoning Models、Agent 系统

Anthropic CEO 在播客采访中说的瓶颈

层级 是否与 Scaling 相关
算力边际收益下降 ✅ 是
数据质量问题 ✅ 是
Transformer 结构限制 ✅ 是
推理深度不足 ⚠️ 不完全是规模问题
对齐难度上升 ❌ 与规模弱相关
可解释性问题 ❌ 结构问题

核心观点: 智能的增长点从“训练时(Training-time)”转到了“推理时(Inference-time/RL)”

推理侧 Scaling

什么是推理侧 Scaling?

就是模型在回答你之前,先在后台进行成千上万次的自我模拟、纠错和逻辑推演

通用大模型将像“基础科学”一样,由少数几家巨头(OpenAI, Anthropic, 阿里, 字节)维持,作为底层的语义和逻辑引擎;而碎片化的应用与垂直模型,则是各行各业真正的价值所在

Anthropic

协议标准化的“破局者”:MCP 协议

为了应对 AI 能力的碎片化,他们在 2024 年底发布了 Model Context Protocol (MCP)

MCP 就像是 AI 界的“USB-C 接口“

2026 年,MCP 已成为行业事实标准。无论是 OpenAI 还是微软,都在兼容这个协议。Anthropic 通过制定标准,成功地将自己变成了“碎片化应用”之间的调度中心,而不是一个孤立的聊天框

anthropic_mcp

MCP发展历史

时间 事件 关键意义
2023 下半年 Anthropic 内部提出 MCP 概念 解决“大模型接入工具和数据碎片化”的问题,尝试定义统一接口
2023–2024 内部实验与原型开发 Claude 系列模型开始支持通过 MCP 调用外部服务,如 Slack、Notion、数据库等
2024 年初 发布首个内部文档版本 对接外部开发者和企业,开始形成标准化思路
2024 下半年 MCP 对外介绍 向开发者社区展示 MCP 如何统一大模型和工具的接入方式,类似“通用接口协议”
2025 年 开放标准化推进 MCP 协议向 Linux 基金会捐赠,确立开放、社区治理路线
2025–2026 社区生态扩展 更多大模型厂商和工具开发者开始支持 MCP,实现模型与外部系统的无缝连接
未来趋势 进一步演进 可能加入更复杂的权限控制、数据安全、跨平台兼容和模型协作能力,成为 AI 基础设施标准之一

“代理化” (Agentic AI) 的实战标杆:Computer Use

2026 年的报告显示,Claude 在“复杂端到端任务执行”上的成功率(SWE-bench 等指标)持续领先,这让它在自动化办公领域几乎没有对手

极致的“企业级信誉”与“专注力”

当 OpenAI 忙着做视频生成(Sora)、搜索(SearchGPT)和社交时,Anthropic 始终死磕“代码、逻辑、长文本”这三个核心生产力维度。

截至 2026 年初,Anthropic 约 85% 的收入来自 B 端企业(而 OpenAI 超过 60% 仍依赖 C 端订阅)。这种“深挖洞、广积粮”的垂直化策略,让它在企业数字化转型这个最赚钱的碎片化市场里扎根最深

Anthropic 护城河

维度 复制难度 为什么难以复制? 通俗理解
技术层 (Constitutional AI) 中等 虽然原理公开,但微调出一套既“守规矩”又不“死板”的权重,需要极高的工程积淀 别人能学理论,但要让模型既安全又灵活,需要大量经验和工程能力
品牌层 (Trust Asset) 极高 Anthropic 创始人从 OpenAI 离职带着安全理念,这种“出身论”在金融和政府客户中形成强信誉背书,广告换不来 创始人的声誉和理念形成了难以复制的信任资产,客户愿意相信他们的模型安全
生态层 (Multi-Cloud) Anthropic 可在 AWS 和 Google Cloud 之间部署,而 OpenAI 深度绑定微软,非 Azure 客户可能担心供应商锁定 灵活的云生态让企业客户更容易接入,不受单一厂商绑定限制

发展方向对比

anthropic_openai_google

其他厂商(如 OpenAI、Google)在 B 端受挫或进展较慢,主要是因为 Anthropic 解决了企业最头疼的三个问题:

  • 法律与合规: Anthropic 始终坚持“激进透明”的安全对齐,这让它成为了受监管行业(金融、医疗、国防)的首选。
  • 多云/多芯战略: 相比于死磕微软 Azure 的 OpenAI,Claude 深度整合在亚马逊 AWS 和 Google Cloud 中,让大企业能灵活选择,不被单一云商“锁死”。
  • MCP 协议的标准化: 通过主导发布 Model Context Protocol (MCP),Anthropic 成功让企业内部的旧数据库(ERP, CRM)变成了 AI 随时可调用的工具。

大模型的可解释性

为什么大模型不可解释?

大模型的行为是由数千亿个参数共同作用的结果。

  • 神经元叠加(Superposition): 就像一个人的大脑里,同一个神经元可能既负责识别“猫”,又负责处理“微积分”和“幽默感”。这种特征的高度纠缠,让外界很难通过观察某个神经元的激活就断定模型在干什么。
  • 涌现的不可控性: 当模型规模大到一定程度,它会自发学会一些人类从未教过的技巧(比如下棋或写漏洞代码)。我们知道它学会了,但不知道它是通过哪条逻辑路径学会的。

稀疏自编码器(Sparse Autoencoders, SAEs)

SAE 的作用就像是一台“光谱分析仪”。它能把那些纠缠在一起的神经元激活,还原为人类能理解的“特征(Features)”

尽管有 SAE 这种工具,顶级科学家(如 Neel Nanda)在 2026 年的共识依然是:没有任何一种工具能完全解释大模型

“不可解释性”是大模型与生俱来的“基因缺陷”

如果 AI 无法解释其动作背后的因果逻辑,它就永远无法获得物理世界需要的“最高信用等级”。这也解释了为什么 2026 年的智谱、OpenAI 等公司虽然模型越来越强,但在涉及工业生产、自动驾驶等领域时,依然显得步履维艰。

特斯拉的自动驾驶模型可解释性

特斯拉正在联合行业推动一种新的监管逻辑:“功能安全”优于“逻辑透明”

传统的工业机器人需要工程师写死每一行坐标代码。而 2026 年领先的工厂(如 Tesla Gigafactory 或小米黑灯工厂)正在引入 VLA(Vision-Language-Action,视觉-语言-动作) 模型。

2026 企业使用AI的方式

Anthropic 的成功证明了:企业并不真的需要模型“住在”自家的机房里,他们需要的是“数据不泄露”和“结果可审计”的法律与技术双重保障。

部署模式 适用对象 典型特征 通俗理解
Claude for Teams 中小企业、创业公司 简单易用,按月订阅,SaaS 模式 就像用 SaaS 办公软件一样,开箱即用,免运维
Amazon Bedrock 托管 绝大多数 500 强企业 IAM 权限集成,利用现有云配额,数据不跨云 企业级云服务,安全、稳定,数据严格在单云内管理
MCP Hybrid(混合模式) 金融、医疗、制造业 数据本地保留,AI 仅作为“外挂大脑”访问 企业数据不出本地服务器,AI只提供计算和分析能力
Sovereign Cloud(主权云) 政府、国防、大型国企 物理隔离专属算力区域,符合 GDPR 2.0 高度安全隔离环境,适合极端敏感或合规要求高的场景

虚拟私有云(VPC)

公共云(AWS、阿里云、Google Cloud)上拥有一个逻辑隔离的、完全属于自己的网络空间,像自己在云里开了一片“独立小区”,只有你能管理

核心架构:模型“入驻”而非“访问”

  • 环境托管: AWS(通过 Bedrock 服务)或 Google Cloud(通过 Vertex AI)会在你的虚拟私有云(VPC)边界内,为你划出一个专属的“模型推理区”
  • 计算资源隔离: 运行模型(如 Claude 3.5/4)的 GPU 算力是由云厂商提供的,但这些算力在逻辑上只为你一家公司服务。
  • 流量不出网: 你的业务数据、员工提问、私有文档都通过 AWS PrivateLink 或 GCP Service Directory 传输。这意味着流量始终在云厂商的内部骨干网流动,不经过公共互联网。

数据处理的“三不”原则

  • 不参与训练: 你在 VPC 环境内输入的所有数据,都被锁死在你的租户(Tenant)里。云厂商和 Anthropic 都在法律和技术层面保证,绝不会用这些数据来迭代他们的下一个基础模型。
  • 不保留日志: 企业可以配置“零保留(Zero Retention)”策略。模型处理完请求后,内存会立即清空,云端不存储任何对话历史。
  • 不跨域访问: 即使是 Anthropic 的工程师,如果没有你的授权,也无法看到你的 VPC 内部发生了什么。

对比物理隔离

维度 VPC 托管模式 (AWS/GCP) 纯本地机房部署 (On-Prem) 通俗理解
部署速度 分钟级,直接调用预置好的模型 月级,需要采购 H100/H200 芯片,搭建算力集群 云上开箱即用,本地要先买硬件、安装环境
维护成本 极低,云厂商负责模型更新和负载均衡 极高,需要专门 AI 运维团队 云厂商帮你打理,本地得自己请运维
性能 极高,可动态调用数千张 GPU 受限于本地物理服务器数量 云上可按需扩容,本地算力有限
数据安全性 等同金融级云安全 理论最高,但受物理资产管理影响 云上安全标准高,本地如果管理不好也有风险

正如硅谷的一句名言:“Trust, but verify(信任,但要验证)”。对于大多数 B 端企业来说,云端 VPC 提供的“受控信任”比完全封闭但落后的自建机房更具商业价值

美国厂商对比

厂商 核心 B 端战略 代表产品/协议 核心信任背书 典型适用行业 通俗理解
Anthropic 极致合规与安全,将 AI 定义为可审计、守法律的“专业雇员” MCP 协议、Claude Enterprise 创始人的安全基因、PwC 审计认证 金融、医疗、审计、法律 走“安全第一”路线,让企业放心用 AI,合规和可审计是核心卖点
OpenAI 生态整合与行动力,利用微软全家桶,将 AI 变成能操作系统的 Agent OpenAI Frontier、GPT-5 Pro 微软生态、顶尖咨询公司代理 互联网、咨询、快消、泛创意 走“超级入口+Agent”路线,让 AI 能直接在企业生态中行动
Google 云原生一体化,利用 Vertex AI 基建优势,主打“数据不动,模型动” GDC (分布式云)、Gemini 3.5 Google Cloud 金融级安全隔离 零售、教育、政务、跨国企业 数据留在本地,AI 上云跑,企业不用搬数据,安全合规
xAI 垂直集成与重工业 AI,利用物理世界数据和极致算力 Enterprise Vault、Grok 工业版 SpaceX/Tesla 工业实战经验 能源、航天、高端制造、物流 高端工业场景,AI 结合物理环境和算力,解决重工业难题
Meta (Llama) 主权 AI 与开源底座,赋予企业完全“物理拥有权”,不依赖云厂商 Llama 4 (Open-weights) 社区透明度、自研硬件集成 国防、本国主权 AI 项目、科研 企业自己掌握模型和权重,不依赖第三方云,实现完全可控
Mistral 区域主权与高能效,欧洲企业的“合规避风港”,避免地缘政治风险 Mistral Compute 欧盟合规 (GDPR 2.0) 欧洲政府机构、欧洲金融机构 专注欧洲市场,合规安全高,降低地缘政治风险

中国厂商

收入结构的本质不同:项目制 vs 订阅制

Anthropic 的 B 端收入之所以被推崇,是因为其 ARR(年度经常性收入) 极高,主要靠标准化云端 API 订阅。而中国市场呈现以下反差:

  • “项目制”泥潭: 中国的大客户(银行、能源、政府)极其强势,倾向于“私有化部署+定制开发”。这导致像 智谱 AI(2026 年 1 月刚在港股上市)虽然 B 端收入占比高达 85%,但很大一部分是靠“重人力”的交付换来的,而非高毛利的纯 Token 订阅。
  • 客单价瓶颈: 智谱 2025 年上半年的营收约为 6.85 亿元人民币,虽然已是国内初创公司翘楚,但与 Anthropic 2025 年 140 亿美元 的营收规模相比,仍有数十倍的量级差距。

“价格屠夫” DeepSeek 的降维打击

API 价格战: DeepSeek 走的是极致的“性价比”路线,其 Token 价格仅为传统大厂的十分之一甚至更低。这导致中国 B 端市场的 Token 单价被迅速“自来水化”。

影响: 当大家都觉得 AI 应该像自来水一样便宜时,国内很难再长出一个像 Anthropic 那样靠“智力溢价”卖出高价 Token 的公司。

巨头的强力“内卷”挤压

在硅谷,OpenAI 与云厂商(微软)是合作关系;而在中国,华为、阿里、百度 既是模型厂商,又是云厂商。

  • 华为盘古的统治力: 在重工业、政务和能源领域,华为凭借其“昇腾算力+盘古大模型+本地化堆栈”的闭环,几乎垄断了最高价值的 B 端合同。
  • 初创公司的生存空间: 对于初创公司来说,如果不接入大厂的生态(如进入阿里通义或百度文心的智能体市场),很难独立拿到超大型企业的订单。

风险一:陷入“利润沙漠”的内卷陷阱

风险二:智力的“低位平庸”