Kimi 把所有大模型揍了一遍，但这不是新闻

今天早上打开 Hacker News，Kimi K2.6 在编程挑战里把 Claude、GPT-5.5、Gemini 全超了。

截图不放了。HN 原帖 5 小时前发的，830 分，评论还在涨： https://news.ycombinator.com/item?id=47993235

同一页还有三条也值得看：

· “Specsmaxxing——克服 AI 精神病”：一位程序员发现 AI 写代码写到一半会”发疯”——忘记上下文、开始胡编。他的解法是用一种叫 YAML 的结构化格式把需求写死，不让 AI 有瞎编的空间。101 分，83 条评论 https://acai.sh/blog/specsmaxxing

· “当道金斯遇见了 Claude——这个 AI 有意识吗？“：哲学家开始认真讨论这件事了 https://news.ycombinator.com/item?id=47972481

· “马里兰州将禁止超市用 AI 动态涨价”：政府出手了 https://news.ycombinator.com/item?id=47992349

四条新闻，一条时间线。我把它拆开给你看。

排行榜不是答案，排行榜是问题

每次有新模型登顶，评论区永远两派人：

A 派：“太强了，我又要被淘汰了。“
B 派：“切，也就那样，我测了 XX 任务它还是不行。”

两派都在犯同一个错：把模型能力当成自己的判断力。

这个月 Kimi 第一，下个月 DeepSeek 反超，再下个月 Claude 出新版。你有没有想过——你跟 AI 合作的方式，过去半年变过一次没有？

我猜你的答案是：没有。你还是那句话扔进去，等它吐回来，然后判断”好”或者”不好”。跟用搜索引擎的逻辑一模一样。

区别只在于搜索引擎给你链接，AI 给你一段编好的人话。

这个循环在复制，不是因为模型不够好。是因为你不知道怎么判断”好”。

什么东西在让这件事持续发生

我观察到的结构很简单：

AI 的输出没有内置质量信号。 一段文字好不好，搜索引擎可以根据点击率、引用量、页面权重给你排。AI 生成的文字没有这些信号——它可能编得极其流畅但内容全错，也可能表达粗糙但内核准确。没有外部信号，你就只能用”感觉”来判断——而人类的感觉对于判断逻辑正确性，准确率只有抛硬币的水平。

这是我在自己知识库上做了半年实验得出来的。一开始 AI 帮我管笔记，我说什么它做什么，准确率大概七成。后来我给它更多自主权——准确率直接掉到五成。不是它变蠢了，是我的判断框架没跟上它犯错的维度。它开始编结论、捏造引用、声称读过没读过的卡片。这些错误我现在叫它幻觉——每次发生我都记录，追溯到出错前的上下文，然后调整给它的约束。

半年后回到九成。不是因为模型升级了，我中间换了三次模型无关紧要。是我建了自己的防幻觉工作流——不是检查一次，是循环检查。具体来说是一个四步循环：看 AI 输出了什么 → 猜它哪里可能编了 → 追问那个点 → 验证真假 → 回到第一步。战斗机飞行员管这叫 OODA 循环（观察、判断、决策、行动），越转越快。

AI 军备竞赛不会停。 原因不是技术，是钱。模型公司靠跑分（让 AI 做标准测试题，看谁得分高）来融资，跑分永远能找到新维度刷，媒体永远有标题可写。只要”跑分→融资→宣传→更多人关注跑分”这个循环还在，排行榜就是永动机。

你追榜，就是在给这个循环添柴。

放到10个月后看

我不预测哪个模型会赢。预测模型赢家是全世界最蠢的游戏——去年的冠军是谁还记得吗？

我看另一个东西：1970 年代的个人电脑。

当时每季度都有新机型发布，杂志上全是跑分对比，跟今天一模一样。但最终改变世界的不是跑分第一的机器，是那批最快搞懂”我拿这玩意儿到底能做什么”的人。

施乐 PARC 的人发明了图形界面，不是因为他们有最快的电脑——是因为他们想清楚了一个更根本的问题：人和机器的关系应该是什么样的。

今天这个问题变成了：你和 AI 的关系应该是什么样的？

我目前的答案是：把 AI 当成一个聪明但不可靠的同事。默认它的输出有错，默认自己需要验证，然后建一个持续运转的纠错循环。

具体的框架核心就三条：

别问它对不对，问它在哪种情况下容易错。 每次跟 AI 互动，更新你对”它在什么条件下会翻车”的概率判断。这个方法论叫贝叶斯更新——不是数学公式，是一种思维方式：承认自己不知道，然后根据新证据慢慢逼近真相。
好决策不等于好结果。 （来自《对赌》作者安妮·杜克）AI 这次给你对的答案，不代表你问对了；AI 这次犯错，不代表它不行。别用结果倒推决策质量。
OODA 循环——观察、判断、决策、行动。 把 AI 嵌进这个循环里，不是让它替你走完。你才是那个转圈的人，AI 只是你手里多了一面镜子。

这三条放任何人身上都适用。不管用的是 Kimi 还是 Claude 还是 GPT-6。

一个你需要自己回答的问题

马里兰禁 AI 涨价。

道金斯在问 AI 有没有意识。

你在看排行榜谁又第一了。

这三件事发生在同一天。你觉得哪件事跟你关系最大？

三件事的答案分别是：政策、哲学、消遣。

而你没有自己的判断框架这件事——10个月后你还会遇到。

信息来源
Hacker News 2026-05-03 首页: https://news.ycombinator.com
知识库卡片: OODA循环与对赌-决策方法论 / 贝叶斯定理-通俗解释 / Karpathy-LLM知识库方法论