tech

AI 正在经过三道门——不是你想象的那种进化

2026/05/13约 4 分钟阅读

AI
智能体
DeepSeek
百度
OpenAI

2026-05-13 | 李彦宏说”自我进化”，OpenAI 接管了耳朵，一个26M的小模型在手机上跑函数调用——这三件事讲的是同一个故事的不同章节。

今天有三件AI圈的事同时发生：

百度Create大会上，李彦宏把主题定为”自我进化”，拆成三层：智能体的自我进化、人类个体的自我进化、企业组织的自我进化¹。同一天，OpenAI发布了第一个GPT-5级的推理音频模型。也是同一天，一个叫Needle的开源模型在Hacker News上火了——26M参数，纯注意力架构，能跑在手机上，专门做函数调用²。

三件事放在一起看，不是在炫技。是在告诉你同一个方向：AI的能力正在从”帮你查资料”的对话机器人，变成”替你干活”的执行系统。

第三层进化（看起来最远，其实已经在发生）

李彦宏说的第三层是”企业组织的自我进化”——原话是”从人与人的分工协作，到人与智能体的混合编队，成为超级组织”¹。

这个表述是整场大会最被低估的一句话。

想象一下：今天一个产品经理写PRD，交给设计师出图，前端切页面，后端写接口，测试写用例，运维管上线。六个人、三道交接、一周起步。这是人与人的协作。

“人与智能体的混合编队”是什么意思？PRD写完后，AI智能体自动生成交互稿，另一个智能体切出前端代码，再一个智能体写后端接口，自动化测试跑一遍，运维智能体部署上线。产品经理只需要描述需求，剩下的由智能体编队完成。不是裁员，是角色变了——人不再做执行者，变成”描述需求的人+检查结果的人”。

百度今天发布的”搭子DuMate”就是这个方向的产物——它把百度AI搜索、秒哒（无代码开发）、伐谋（营销策略）等核心能力打包成一个App里的”技能”，你可以随时调用这些技能，让DuMate调度多个底层智能体协同干活。百度”一镜”（原慧播星升级版）也走了类似路线——从单一的直播带货数字人，升级为包含直播、视频、实时交互的”全场景数字人平台”¹。

这听起来像科幻，但一个具体的参照：宇树科技今天发布了双臂人形机器人，定价26900元起³——是的，两万六千九，一台机器人的起步价已经和一台高配MacBook Pro差不多了。关键不是价格本身，而是”机器人+AI智能体”组合的成本已经进入了中小企业可以负担的范围。一个月工资三千的工人和一台两万七的机器人——这不是简单的成本比较，机器人不会请假、不会辞职、24小时工作。这就是混合编队的算账逻辑。

第二层进化（正在发生，你没注意到）

“人类个体的自我进化，从普通个体到超级个体，学会跟AI共存。”

超级个体听起来很唬人。说白了就是：一个人加一个AI智能体编队，能干以前十个人的活。

今天的信号非常明确。OpenAI发布的GPT-5级音频模型——不是简单的语音识别，是”推理级音频”。什么意思？以前的语音AI是”我听到你说什么，转成文字，理解文字，生成回复，转成语音”。现在是可以直接从音频里推理——听懂语气、判断情绪、识别环境音、结合上下文做出反应。说白了就是，它能听懂弦外之音了。

小模型在端侧跑函数调用这件事也来了。Cactus公司开源的Needle模型，26M参数——是的，不是26B，是26M，只有两百六十万个参数。在Hacker News上拿了一千多点²。为什么这么小的模型能引起轰动？因为它证明了：函数调用不需要GPT-5级别的推理能力。函数调用的本质是”匹配请求到工具名称，提取参数值，输出JSON”——这不是推理，是检索和组装。所以一个纯注意力架构（没有FFN层，没有MLP）的小模型就能搞定。

这两件事合在一起的意思是：AI不再需要”上传到云端、等几秒钟、再返回结果”了。语音推理可以在端侧跑，函数调用可以在端侧跑，你的手机、手表、眼镜——不需要联网，就能执行复杂的AI任务。

超级个体不是一个哲学概念。是一个人戴着AI眼镜，嘴里说出需求，眼镜里的26M模型调度手机里的应用，完成一篇公众号、一个视频剪辑、一个数据分析报告。整个过程3分钟。这就是正在发生的事。

第一层进化（最底层，最关键）

“智能体的自我进化，从被动响应到从环境中不断吸取营养来提升自己，并主动执行。”

这一层是前面两层的地基。没有能自进化的智能体，“超级个体”和”超级组织”都是空话。

今天有两个信号直接指向这一层：

第一个是DeepSeek-TUI。它霸榜了GitHub，核心卖点是小白用不到10块钱就能开发应用⁴。但如果只把它理解成”便宜”，就完全没看懂。DeepSeek-TUI的本质是让LLM直接操作终端界面——不是写代码然后你手动运行，是它在终端里自己敲命令、看输出、改参数、再试。这是一个”能自己闭环验证”的智能体雏形。

第二个是今天的arXiv论文。ToolCUA（arXiv:2605.12481）研究的是GUI智能体的”工具路径编排”——怎么在操作电脑时选择最优的工具调用顺序。SAGE（arXiv:2605.12061）提出自进化图记忆引擎，让智能体在交互过程中自动构建和更新知识图谱。On-Policy Self-Evolution（arXiv:2605.11882）直接用失败轨迹训练智能体的安全对齐——失败了不只是”重试”，而是”从失败里学到下次怎么做对”。

这三篇论文加在一起，指向同一个方向：智能体正在从一个”函数调用器”变成”能学习和适应环境的执行者”。

反向视角：为什么这三层进化可能全都不成立

真诚地说，今天所有关于”AI改变组织""超级个体""智能体自进化”的叙事，都存在一个共同的脆弱点：成本与可靠性。

先说成本。百度DuMate的逻辑很清晰，但底层是百度AI搜索、秒哒、伐谋等多个模型的调度。一次”帮我分析这个行业的竞争格局”的请求，背后可能是几十次API调用。李彦宏没有公布DuMate的调用成本。谷歌Gemini Omni的视频理解——教授在黑板上推公式全对——这种场景的推理成本大概是文本推理的几十倍。

再说可靠性。OpenAI的GPT-5级音频模型很强大，但你能不能把”听懂弦外之音”这件事交给一个模型去判断你的客户在电话里是不是要取消订单？判断错了的成本你承担不起。Needle的26M模型在函数调用上击败了FunctionGemma-270M，但论文也承认这些模型”在对话场景中更有优势”²——小模型的能力是高度特化的，不是通用的。

还有最容易被忽略的一点：组织的惯性。李彦宏说”从人与人的协作到人与智能体的混合编队”，但想想你的公司——引入一个新的OA系统都要闹半年，你要它接受”AI智能体替你写代码并自己部署上线”？这不是技术问题，是信任问题、流程问题、利益重新分配问题。

结论不是”这些东西都是炒作”。结论是”技术准备好了，组织和人还没准备好”。这两者之间的时间差，就是未来五年最大的机会和最大的坑。

10分钟/10个月/10年

10分钟：打开DeepSeek-TUI或百度DuMate试一下，感受一下一个AI智能体”自己干活”是什么意思。如果不试，所有关于AI的讨论都是二手信息。

10个月：如果你的工作内容可以被拆解为”接收需求→调用工具→输出结果”三步，做好被AI智能体替代70%执行环节的准备。不是被裁员，是工作内容变了——你不再”做”，你变成”描述需求+检查结果”的人。这个转变现在开始练习比10个月后被逼着练习要从容得多。

10年：“写代码”、“做设计”、“写报告”这些动词可能会从你的简历里消失，取而代之的是”描述需求”、“审查输出”、“决策判断”。不是技能变少了，是技能往链条的上游迁移了。今天练习用语言精准描述需求，大概比学习任何一门新的编程语言都更有长期价值。

幸知 / 2026-05-13

Create2026百度AI开发者大会，李彦宏开幕演讲。腾讯新闻报道：https://news.qq.com/rain/a/20260513A04LN600 ；中国新闻周刊：https://www.inewsweek.cn/auto/2026-05-13/30152.shtml ↩ ↩² ↩³
Cactus Compute/Needle 模型，26M参数函数调用模型。GitHub: https://github.com/cactus-compute/needle ；HN Show HN: https://news.ycombinator.com/item?id=48111896 ↩ ↩² ↩³
宇树科技双臂人形机器人，定价26900元起。转引自知乎热榜，定价信息需以宇树科技官网确认为准 ↩
DeepSeek-TUI，终端运行的AI编程助手。GitHub: https://github.com/Hmbown/DeepSeek-TUI ↩

第三层进化（看起来最远，其实已经在发生）

第二层进化（正在发生，你没注意到）

第一层进化（最底层，最关键）

反向视角：为什么这三层进化可能全都不成立

10分钟/10个月/10年

Footnotes