← 返回首页

log

Kimi 把所有大模型揍了一遍,但这不是新闻

  • AI
  • Kimi
  • 判断框架
  • OODA
  • 贝叶斯
  • 决策

今天早上打开 Hacker News,Kimi K2.6 在编程挑战里把 Claude、GPT-5.5、Gemini 全超了。

截图不放了。HN 原帖 5 小时前发的,830 分,评论还在涨: https://news.ycombinator.com/item?id=47993235

同一页还有三条也值得看:

· “Specsmaxxing——克服 AI 精神病”:一位程序员发现 AI 写代码写到一半会”发疯”——忘记上下文、开始胡编。他的解法是用一种叫 YAML 的结构化格式把需求写死,不让 AI 有瞎编的空间。101 分,83 条评论 https://acai.sh/blog/specsmaxxing

· “当道金斯遇见了 Claude——这个 AI 有意识吗?“:哲学家开始认真讨论这件事了 https://news.ycombinator.com/item?id=47972481

· “马里兰州将禁止超市用 AI 动态涨价”:政府出手了 https://news.ycombinator.com/item?id=47992349

四条新闻,一条时间线。我把它拆开给你看。

排行榜不是答案,排行榜是问题

每次有新模型登顶,评论区永远两派人:

A 派:“太强了,我又要被淘汰了。“
B 派:“切,也就那样,我测了 XX 任务它还是不行。”

两派都在犯同一个错:把模型能力当成自己的判断力。

这个月 Kimi 第一,下个月 DeepSeek 反超,再下个月 Claude 出新版。你有没有想过——你跟 AI 合作的方式,过去半年变过一次没有?

我猜你的答案是:没有。你还是那句话扔进去,等它吐回来,然后判断”好”或者”不好”。跟用搜索引擎的逻辑一模一样。

区别只在于搜索引擎给你链接,AI 给你一段编好的人话。

这个循环在复制,不是因为模型不够好。是因为你不知道怎么判断”好”。

什么东西在让这件事持续发生

我观察到的结构很简单:

AI 的输出没有内置质量信号。 一段文字好不好,搜索引擎可以根据点击率、引用量、页面权重给你排。AI 生成的文字没有这些信号——它可能编得极其流畅但内容全错,也可能表达粗糙但内核准确。没有外部信号,你就只能用”感觉”来判断——而人类的感觉对于判断逻辑正确性,准确率只有抛硬币的水平。

这是我在自己知识库上做了半年实验得出来的。一开始 AI 帮我管笔记,我说什么它做什么,准确率大概七成。后来我给它更多自主权——准确率直接掉到五成。不是它变蠢了,是我的判断框架没跟上它犯错的维度。它开始编结论、捏造引用、声称读过没读过的卡片。这些错误我现在叫它幻觉——每次发生我都记录,追溯到出错前的上下文,然后调整给它的约束。

半年后回到九成。不是因为模型升级了,我中间换了三次模型无关紧要。是我建了自己的防幻觉工作流——不是检查一次,是循环检查。具体来说是一个四步循环:看 AI 输出了什么 → 猜它哪里可能编了 → 追问那个点 → 验证真假 → 回到第一步。战斗机飞行员管这叫 OODA 循环(观察、判断、决策、行动),越转越快。

AI 军备竞赛不会停。 原因不是技术,是钱。模型公司靠跑分(让 AI 做标准测试题,看谁得分高)来融资,跑分永远能找到新维度刷,媒体永远有标题可写。只要”跑分→融资→宣传→更多人关注跑分”这个循环还在,排行榜就是永动机。

你追榜,就是在给这个循环添柴。

放到10个月后看

我不预测哪个模型会赢。预测模型赢家是全世界最蠢的游戏——去年的冠军是谁还记得吗?

我看另一个东西:1970 年代的个人电脑。

当时每季度都有新机型发布,杂志上全是跑分对比,跟今天一模一样。但最终改变世界的不是跑分第一的机器,是那批最快搞懂”我拿这玩意儿到底能做什么”的人。

施乐 PARC 的人发明了图形界面,不是因为他们有最快的电脑——是因为他们想清楚了一个更根本的问题:人和机器的关系应该是什么样的。

今天这个问题变成了:你和 AI 的关系应该是什么样的?

我目前的答案是:把 AI 当成一个聪明但不可靠的同事。默认它的输出有错,默认自己需要验证,然后建一个持续运转的纠错循环。

具体的框架核心就三条:

  1. 别问它对不对,问它在哪种情况下容易错。 每次跟 AI 互动,更新你对”它在什么条件下会翻车”的概率判断。这个方法论叫贝叶斯更新——不是数学公式,是一种思维方式:承认自己不知道,然后根据新证据慢慢逼近真相。

  2. 好决策不等于好结果。 (来自《对赌》作者安妮·杜克)AI 这次给你对的答案,不代表你问对了;AI 这次犯错,不代表它不行。别用结果倒推决策质量。

  3. OODA 循环——观察、判断、决策、行动。 把 AI 嵌进这个循环里,不是让它替你走完。你才是那个转圈的人,AI 只是你手里多了一面镜子。

这三条放任何人身上都适用。不管用的是 Kimi 还是 Claude 还是 GPT-6。

一个你需要自己回答的问题

马里兰禁 AI 涨价。

道金斯在问 AI 有没有意识。

你在看排行榜谁又第一了。

这三件事发生在同一天。你觉得哪件事跟你关系最大?

三件事的答案分别是:政策、哲学、消遣。

而你没有自己的判断框架这件事——10个月后你还会遇到。


信息来源
Hacker News 2026-05-03 首页: https://news.ycombinator.com
知识库卡片: OODA循环与对赌-决策方法论 / 贝叶斯定理-通俗解释 / Karpathy-LLM知识库方法论