一句话定位
Combee 是一个解决”上下文过载”的分布式提示学习框架,让多个 AI Agent 能并行学习经验而不丢失关键知识,实现 17 倍加速且质量不降。
命名来源于蜂群隐喻——多 Agent 协同工作与蜂群 Boids Protocol 本质相同。
核心问题:上下文过载
当增加并行 batch size 来加速学习时,聚合器需要一次性处理大量 reflection(反思),导致严重的信息丢失:
| 指标 | batch=1 | batch=100 | 变化 |
|---|---|---|---|
| 准确率 | 87.0% | 72.5% | ↓14.5pp |
| 上下文条目 | 264 条 | 21 条 | ↓92% |
| 高价值条目 | 19 个 | 0 个 | 完全消失 |
根本原因是有损压缩:聚合器面对大量 reflection 时,默认保留宽泛的通用模式,丢弃具体的高价值洞察。
这像海绵吸水——一次性倒太多水,只能吸收表面,精华都流走了。
Combee 三层设计
1. 并行扫描聚合(Parallel Scan Aggregation)
采用 Map-Shuffle-Reduce 范式替代单一聚合器:
原始设计(Naive):
所有 reflection → 单一聚合器 → 输出 context
Combee 设计:
reflection 分成 k 组 → 每组内聚合 → 两级聚合 → 输出 context
k = √n(第一级处理 √n 个,第二级处理 √n 个)
这个设计借鉴了分布式计算中求前缀和的经典算法。通过分层聚合,每层处理的 context 量可控,避免了单点过载。
2. 增强洗牌(Augmented Shuffling)
每个 reflection 复制 2 份,随机打散后分发到 worker 节点,增加”被看到”的机会。
原理基于 self-consistency principle:重要信息值得多次曝光,多次出现的信息在聚合时更容易被保留。
3. 动态 Batch Size 控制器
自动寻找最优并行度:
- 测量不同 batch size 的延迟
- 拟合延迟曲线
- 当边际延迟减少小于 1.6% 时停止增加 batch
实验结果
在 Agent 基准测试上:
| 方法 | Batch | 时间 | 准确率 |
|---|---|---|---|
| ReAct+ACE | 1 | 86min | 58.1 |
| Naive | 40 | 5min | 55.7 |
| Combee | 40 | 7min | 65.8 |
Combee 用 7 分钟达到 65.8% 准确率——12 倍加速的同时,质量反超了 86 分钟的慢速基线。
在金融基准(FiNER 和 Formula)上,Combee 始终位于 Pareto 前沿——用更少时间达到更高准确率。
核心洞见
与传统 Prompt Engineering 的区别
| 维度 | Prompt Engineering | Prompt Learning |
|---|---|---|
| 时机 | 部署前优化 | 部署中迭代 |
| 目标 | 优化”说什么” | 优化”从经验中学到什么” |
| 方式 | 固定搜索 | generate-reflect-update 循环 |
与蜂群协作的深层呼应
| Combee 机制 | 蜂群 Boids Protocol |
|---|---|
| Parallel Scan | Separation(职责互斥) |
| Dynamic Batch | Alignment(对齐同一目标) |
| Augmented Shuffle | Cohesion(凝聚汇总) |
本质相同:规模扩大时如何防止系统降级——分层 + 随机 + 动态配额。
我的评论
Combee 的核心价值不是 17 倍加速(这是工程优化),而是识别出 context overload 这个基本矛盾:
- 规模与质量存在天然张力
- 单机思维无法解决,需要分布式架构
- 分层聚合 + 随机打散是通用解法
这与深度学习训练、蜂群协作、知识库维护面临的问题本质相同——当输入规模突破阈值时,系统必然降级,需要结构化手段防止。
下次遇到”规模一大就崩”的问题,优先想分层聚合,而非加大人力。
论文信息:arXiv 2604.04247v1,UC Berkeley + Stanford + Tensormesh + Gradient Network 联合发布。