小模型优先,大模型兜底
企业 90% 的需求可以用小模型解决——这是 36 场直播复盘中最频繁被印证的观点。
小参数模型(0.5B-3B)在摘要处理、文本结构化、调度分发中性价比极高。响应快(毫秒级)、成本低、部署灵活。大模型仅用于需要深度推理的复杂 case,作为兜底方案而非默认选择。
关键不是模型大小,而是需求拆解粒度。先把需求拆成足够细的单元,再用合适大小的模型处理,这是成本控制的核心。
中间调度层:不被重视的关键组件
多 AI 协同架构中,最容易被忽略的是中间调度层。它包含三个核心模块:
- 活性路由:根据任务特征动态分配模型——简单的文本结构化走小模型,复杂推理走大模型
- 上下文管理:控制 Token 窗口使用,避免一次性塞入过多上下文导致质量下降
- 质量检验:验证 AI 输出是否符合预期,不符合则触发重试或切换模型
关键教训:多 AI 协同必须做异步解耦,而非串行处理。上下层数搭多了会引发”雪崩”效应——一层出错,层层放大。记忆系统越简单越好,不要过度设计。
Agent 的核心是 Function Calling
无论是 MCP 还是 SKILL,本质都是告诉 AI”你可以用什么工具”。
MCP 是 Agent 与工具交互的标准协议,可以理解为 AI 的”USB 接口”。而 CLI 是更轻量的调用方式——直接通过命令行调用工具,省去了复杂的协议层。
A2A(Agent to Agent)协议正在成为 Agent 间通信的标准。未来多个 Agent 协同工作时,A2A 将扮演类似 HTTP 在 Web 中的角色。
AI 不会降低开发门槛,会拉大差距
这可能与直觉相反,但核心逻辑是:AI 降低的是代码实现的门槛,而非架构设计的门槛。
架构层的抽象能力——如何把复杂问题拆解为可处理的组件、如何定义组件间的接口和协议——这些才是真正的门槛。AI 让会的人更快,让不会的人面临更多的”看起来能跑但实际不可维护”的代码。
OpenClaw 等 Agent 框架分五层,最核心的第二层”工具层”需要极强的架构思维。这不是 AI 能替代的。
Claude Code 源码泄露的启示
约 51 万行 TypeScript 代码泄露(非黑客攻击,而是 Anthropic 打包失误),其中几个关键发现:
- Prompt 顺序影响输出质量:先定义再解释,效果显著优于先解释再定义
- 安全键移除不会让模型更强,反而更不可控
- 简化 Prompt:告诉 AI 目标而非具体步骤;用案例引导输出
关键技术选型速查
| 场景 | 推荐方案 | 说明 |
|---|---|---|
| 个人/小团队使用 | MiniMax 199元/月 | Token 量足够中小团队日常使用 |
| 企业内网部署 | 70B 开源模型 | 数据完全可控,核心价值在安全而非成本 |
| AI 编程 | Cursor / Claude Code | 按项目规模和专业度选择 |
| Agent 框架 | LangGraph | 工作流编排,适合企业级场景 |
| 记忆系统 | GraphRAG | 知识图谱 + 向量检索,双库制 |
实操建议
- 工程落地优先选用开源模型 API 接入,避免盲目微调
- 内网部署优先考虑 MCP 方案,技术门槛比 RPA 低
- 构建中间调度层是 AI 应用企业化的关键
- 从免费/低价模型开始验证需求,确认后再升级
- 控制 Token 消耗的关键是需求对齐——先拆解为细颗粒度文档,再执行