今天早上打开 Hacker News,Kimi K2.6 在编程挑战里把 Claude、GPT-5.5、Gemini 全超了。
截图不放了。HN 原帖 5 小时前发的,830 分,评论还在涨: https://news.ycombinator.com/item?id=47993235
同一页还有三条也值得看:
· “Specsmaxxing——克服 AI 精神病”:一位程序员发现 AI 写代码写到一半会”发疯”——忘记上下文、开始胡编。他的解法是用一种叫 YAML 的结构化格式把需求写死,不让 AI 有瞎编的空间。101 分,83 条评论 https://acai.sh/blog/specsmaxxing
· “当道金斯遇见了 Claude——这个 AI 有意识吗?“:哲学家开始认真讨论这件事了 https://news.ycombinator.com/item?id=47972481
· “马里兰州将禁止超市用 AI 动态涨价”:政府出手了 https://news.ycombinator.com/item?id=47992349
四条新闻,一条时间线。我把它拆开给你看。
排行榜不是答案,排行榜是问题
每次有新模型登顶,评论区永远两派人:
A 派:“太强了,我又要被淘汰了。“
B 派:“切,也就那样,我测了 XX 任务它还是不行。”
两派都在犯同一个错:把模型能力当成自己的判断力。
这个月 Kimi 第一,下个月 DeepSeek 反超,再下个月 Claude 出新版。你有没有想过——你跟 AI 合作的方式,过去半年变过一次没有?
我猜你的答案是:没有。你还是那句话扔进去,等它吐回来,然后判断”好”或者”不好”。跟用搜索引擎的逻辑一模一样。
区别只在于搜索引擎给你链接,AI 给你一段编好的人话。
这个循环在复制,不是因为模型不够好。是因为你不知道怎么判断”好”。
什么东西在让这件事持续发生
我观察到的结构很简单:
AI 的输出没有内置质量信号。 一段文字好不好,搜索引擎可以根据点击率、引用量、页面权重给你排。AI 生成的文字没有这些信号——它可能编得极其流畅但内容全错,也可能表达粗糙但内核准确。没有外部信号,你就只能用”感觉”来判断——而人类的感觉对于判断逻辑正确性,准确率只有抛硬币的水平。
这是我在自己知识库上做了半年实验得出来的。一开始 AI 帮我管笔记,我说什么它做什么,准确率大概七成。后来我给它更多自主权——准确率直接掉到五成。不是它变蠢了,是我的判断框架没跟上它犯错的维度。它开始编结论、捏造引用、声称读过没读过的卡片。这些错误我现在叫它幻觉——每次发生我都记录,追溯到出错前的上下文,然后调整给它的约束。
半年后回到九成。不是因为模型升级了,我中间换了三次模型无关紧要。是我建了自己的防幻觉工作流——不是检查一次,是循环检查。具体来说是一个四步循环:看 AI 输出了什么 → 猜它哪里可能编了 → 追问那个点 → 验证真假 → 回到第一步。战斗机飞行员管这叫 OODA 循环(观察、判断、决策、行动),越转越快。
AI 军备竞赛不会停。 原因不是技术,是钱。模型公司靠跑分(让 AI 做标准测试题,看谁得分高)来融资,跑分永远能找到新维度刷,媒体永远有标题可写。只要”跑分→融资→宣传→更多人关注跑分”这个循环还在,排行榜就是永动机。
你追榜,就是在给这个循环添柴。
放到10个月后看
我不预测哪个模型会赢。预测模型赢家是全世界最蠢的游戏——去年的冠军是谁还记得吗?
我看另一个东西:1970 年代的个人电脑。
当时每季度都有新机型发布,杂志上全是跑分对比,跟今天一模一样。但最终改变世界的不是跑分第一的机器,是那批最快搞懂”我拿这玩意儿到底能做什么”的人。
施乐 PARC 的人发明了图形界面,不是因为他们有最快的电脑——是因为他们想清楚了一个更根本的问题:人和机器的关系应该是什么样的。
今天这个问题变成了:你和 AI 的关系应该是什么样的?
我目前的答案是:把 AI 当成一个聪明但不可靠的同事。默认它的输出有错,默认自己需要验证,然后建一个持续运转的纠错循环。
具体的框架核心就三条:
-
别问它对不对,问它在哪种情况下容易错。 每次跟 AI 互动,更新你对”它在什么条件下会翻车”的概率判断。这个方法论叫贝叶斯更新——不是数学公式,是一种思维方式:承认自己不知道,然后根据新证据慢慢逼近真相。
-
好决策不等于好结果。 (来自《对赌》作者安妮·杜克)AI 这次给你对的答案,不代表你问对了;AI 这次犯错,不代表它不行。别用结果倒推决策质量。
-
OODA 循环——观察、判断、决策、行动。 把 AI 嵌进这个循环里,不是让它替你走完。你才是那个转圈的人,AI 只是你手里多了一面镜子。
这三条放任何人身上都适用。不管用的是 Kimi 还是 Claude 还是 GPT-6。
一个你需要自己回答的问题
马里兰禁 AI 涨价。
道金斯在问 AI 有没有意识。
你在看排行榜谁又第一了。
这三件事发生在同一天。你觉得哪件事跟你关系最大?
三件事的答案分别是:政策、哲学、消遣。
而你没有自己的判断框架这件事——10个月后你还会遇到。
信息来源
Hacker News 2026-05-03 首页: https://news.ycombinator.com
知识库卡片: OODA循环与对赌-决策方法论 / 贝叶斯定理-通俗解释 / Karpathy-LLM知识库方法论