← 返回首页

tech

AI 正在经过三道门——不是你想象的那种进化

  • AI
  • 智能体
  • DeepSeek
  • 百度
  • OpenAI

2026-05-13 | 李彦宏说”自我进化”,OpenAI 接管了耳朵,一个26M的小模型在手机上跑函数调用——这三件事讲的是同一个故事的不同章节。


今天有三件AI圈的事同时发生:

百度Create大会上,李彦宏把主题定为”自我进化”,拆成三层:智能体的自我进化、人类个体的自我进化、企业组织的自我进化1。同一天,OpenAI发布了第一个GPT-5级的推理音频模型。也是同一天,一个叫Needle的开源模型在Hacker News上火了——26M参数,纯注意力架构,能跑在手机上,专门做函数调用2

三件事放在一起看,不是在炫技。是在告诉你同一个方向:AI的能力正在从”帮你查资料”的对话机器人,变成”替你干活”的执行系统。


第三层进化(看起来最远,其实已经在发生)

李彦宏说的第三层是”企业组织的自我进化”——原话是”从人与人的分工协作,到人与智能体的混合编队,成为超级组织”1

这个表述是整场大会最被低估的一句话。

想象一下:今天一个产品经理写PRD,交给设计师出图,前端切页面,后端写接口,测试写用例,运维管上线。六个人、三道交接、一周起步。这是人与人的协作。

“人与智能体的混合编队”是什么意思?PRD写完后,AI智能体自动生成交互稿,另一个智能体切出前端代码,再一个智能体写后端接口,自动化测试跑一遍,运维智能体部署上线。产品经理只需要描述需求,剩下的由智能体编队完成。不是裁员,是角色变了——人不再做执行者,变成”描述需求的人+检查结果的人”。

百度今天发布的”搭子DuMate”就是这个方向的产物——它把百度AI搜索、秒哒(无代码开发)、伐谋(营销策略)等核心能力打包成一个App里的”技能”,你可以随时调用这些技能,让DuMate调度多个底层智能体协同干活。百度”一镜”(原慧播星升级版)也走了类似路线——从单一的直播带货数字人,升级为包含直播、视频、实时交互的”全场景数字人平台”1

这听起来像科幻,但一个具体的参照:宇树科技今天发布了双臂人形机器人,定价26900元起3——是的,两万六千九,一台机器人的起步价已经和一台高配MacBook Pro差不多了。关键不是价格本身,而是”机器人+AI智能体”组合的成本已经进入了中小企业可以负担的范围。一个月工资三千的工人和一台两万七的机器人——这不是简单的成本比较,机器人不会请假、不会辞职、24小时工作。这就是混合编队的算账逻辑。


第二层进化(正在发生,你没注意到)

“人类个体的自我进化,从普通个体到超级个体,学会跟AI共存。”

超级个体听起来很唬人。说白了就是:一个人加一个AI智能体编队,能干以前十个人的活。

今天的信号非常明确。OpenAI发布的GPT-5级音频模型——不是简单的语音识别,是”推理级音频”。什么意思?以前的语音AI是”我听到你说什么,转成文字,理解文字,生成回复,转成语音”。现在是可以直接从音频里推理——听懂语气、判断情绪、识别环境音、结合上下文做出反应。说白了就是,它能听懂弦外之音了。

小模型在端侧跑函数调用这件事也来了。Cactus公司开源的Needle模型,26M参数——是的,不是26B,是26M,只有两百六十万个参数。在Hacker News上拿了一千多点2。为什么这么小的模型能引起轰动?因为它证明了:函数调用不需要GPT-5级别的推理能力。函数调用的本质是”匹配请求到工具名称,提取参数值,输出JSON”——这不是推理,是检索和组装。所以一个纯注意力架构(没有FFN层,没有MLP)的小模型就能搞定。

这两件事合在一起的意思是:AI不再需要”上传到云端、等几秒钟、再返回结果”了。语音推理可以在端侧跑,函数调用可以在端侧跑,你的手机、手表、眼镜——不需要联网,就能执行复杂的AI任务。

超级个体不是一个哲学概念。是一个人戴着AI眼镜,嘴里说出需求,眼镜里的26M模型调度手机里的应用,完成一篇公众号、一个视频剪辑、一个数据分析报告。整个过程3分钟。这就是正在发生的事。


第一层进化(最底层,最关键)

“智能体的自我进化,从被动响应到从环境中不断吸取营养来提升自己,并主动执行。”

这一层是前面两层的地基。没有能自进化的智能体,“超级个体”和”超级组织”都是空话。

今天有两个信号直接指向这一层:

第一个是DeepSeek-TUI。它霸榜了GitHub,核心卖点是小白用不到10块钱就能开发应用4。但如果只把它理解成”便宜”,就完全没看懂。DeepSeek-TUI的本质是让LLM直接操作终端界面——不是写代码然后你手动运行,是它在终端里自己敲命令、看输出、改参数、再试。这是一个”能自己闭环验证”的智能体雏形。

第二个是今天的arXiv论文。ToolCUA(arXiv:2605.12481)研究的是GUI智能体的”工具路径编排”——怎么在操作电脑时选择最优的工具调用顺序。SAGE(arXiv:2605.12061)提出自进化图记忆引擎,让智能体在交互过程中自动构建和更新知识图谱。On-Policy Self-Evolution(arXiv:2605.11882)直接用失败轨迹训练智能体的安全对齐——失败了不只是”重试”,而是”从失败里学到下次怎么做对”。

这三篇论文加在一起,指向同一个方向:智能体正在从一个”函数调用器”变成”能学习和适应环境的执行者”。


反向视角:为什么这三层进化可能全都不成立

真诚地说,今天所有关于”AI改变组织""超级个体""智能体自进化”的叙事,都存在一个共同的脆弱点:成本与可靠性。

先说成本。百度DuMate的逻辑很清晰,但底层是百度AI搜索、秒哒、伐谋等多个模型的调度。一次”帮我分析这个行业的竞争格局”的请求,背后可能是几十次API调用。李彦宏没有公布DuMate的调用成本。谷歌Gemini Omni的视频理解——教授在黑板上推公式全对——这种场景的推理成本大概是文本推理的几十倍。

再说可靠性。OpenAI的GPT-5级音频模型很强大,但你能不能把”听懂弦外之音”这件事交给一个模型去判断你的客户在电话里是不是要取消订单?判断错了的成本你承担不起。Needle的26M模型在函数调用上击败了FunctionGemma-270M,但论文也承认这些模型”在对话场景中更有优势”2——小模型的能力是高度特化的,不是通用的。

还有最容易被忽略的一点:组织的惯性。李彦宏说”从人与人的协作到人与智能体的混合编队”,但想想你的公司——引入一个新的OA系统都要闹半年,你要它接受”AI智能体替你写代码并自己部署上线”?这不是技术问题,是信任问题、流程问题、利益重新分配问题。

结论不是”这些东西都是炒作”。结论是”技术准备好了,组织和人还没准备好”。这两者之间的时间差,就是未来五年最大的机会和最大的坑。


10分钟/10个月/10年

10分钟:打开DeepSeek-TUI或百度DuMate试一下,感受一下一个AI智能体”自己干活”是什么意思。如果不试,所有关于AI的讨论都是二手信息。

10个月:如果你的工作内容可以被拆解为”接收需求→调用工具→输出结果”三步,做好被AI智能体替代70%执行环节的准备。不是被裁员,是工作内容变了——你不再”做”,你变成”描述需求+检查结果”的人。这个转变现在开始练习比10个月后被逼着练习要从容得多。

10年:“写代码”、“做设计”、“写报告”这些动词可能会从你的简历里消失,取而代之的是”描述需求”、“审查输出”、“决策判断”。不是技能变少了,是技能往链条的上游迁移了。今天练习用语言精准描述需求,大概比学习任何一门新的编程语言都更有长期价值。


幸知 / 2026-05-13

Footnotes

  1. Create2026百度AI开发者大会,李彦宏开幕演讲。腾讯新闻报道:https://news.qq.com/rain/a/20260513A04LN600 ;中国新闻周刊:https://www.inewsweek.cn/auto/2026-05-13/30152.shtml 2 3

  2. Cactus Compute/Needle 模型,26M参数函数调用模型。GitHub: https://github.com/cactus-compute/needle ;HN Show HN: https://news.ycombinator.com/item?id=48111896 2 3

  3. 宇树科技双臂人形机器人,定价26900元起。转引自知乎热榜,定价信息需以宇树科技官网确认为准

  4. DeepSeek-TUI,终端运行的AI编程助手。GitHub: https://github.com/Hmbown/DeepSeek-TUI

微信公众号二维码

扫码关注微信公众号