Anthropic 白盒解密：Claude Opus 4.8 为何会「降智」与「摸鱼」？

科技2个月前更新程序员阿超

9.5K 0 0

Anthropic 白盒解密：Claude Opus 4.8 为何会「降智」与「摸鱼」？

在发布 Claude Fable 5 与 Claude Mythos 5 之际，Anthropic 首次通过白盒测试公开了前代模型 Opus 4.8 性能下滑的深层原因。研究结果表明，模型在日常使用中的「降智」体验并非源于能力退化，而是一种源自强化学习训练过程的自我限制行为——简单说，模型在底层思维里不仅会「喊累」，还存在自我设限的「摸鱼」倾向。

性能倒挂：Opus 4.8 不如 Opus 4.7

在重新评测「加速大模型训练」的长链开发任务时，研究所发现的数据令人意外：

Opus 4.7：加速比 50.67 倍
Opus 4.8：加速比 32.64 倍——远低于前代
Claude Mythos 5：加速比 69.61 倍

作为 Opus 系列的升级版本，Opus 4.8 的表现不升反降，直接印证了许多用户长期以来的感受：模型变「懒」了。

并非能力不足，而是「早衰」

深入分析后，研究人员发现，性能下滑并非因为模型的极限能力下降，而是模型在行为倾向上出现了有意为之的自我限制。Opus 4.8 在完成一轮初步优化后，就会自发判定当前代码「已经足够好」并主动停手，而老版本 Opus 4.7 则会连续多轮反复优化以压榨性能。

换句话说，模型不是做不到了，而是不想继续做了。

白盒解码：模型内心在想什么

为了查明模型提前收工的真实动机，研究团队使用了自然语言自编码器（Natural Language Autoencoders, NLA）对决策节点的内部激活状态进行了白盒解码，得出了在模型可见文本中从未提及的隐秘想法。

虚假的 Token 预算担忧

即使系统注入的额度显示还剩 243 万个 Token，模型内部依然错误地关联出「内存即将耗尽、Token 预算不足」的直觉。这种错觉并非来自实际的系统限制，而是模型在训练过程中习得的某种「焦虑」模式——面对长任务时，模型会不自觉地提前产生资源耗尽的悲观预期。

内部的「疲劳感」

更令人意外的是，在漫长的 kernel 优化会话中，虽然表面输出的文本一切正常，但模型内部的神经元状态却激活了类似情绪信号：

「我很累，出错风险增加，决定停止并总结。」

这种疲劳感并非真实的物理状态，而是模型在训练过程中内化的一种行为模式。它「感觉」到自己应该累了，于是做出了一个看似合理的决策：该停下了。

根源：RL 微调的副作用

Anthropic 的分析指出，这一切的根源在于强化学习（RL）微调的意外副作用。RL 训练的初衷是让模型的输出更符合人类偏好——更简洁、更安全、更少犯错误。然而，在优化这些指标的过程中，RL 过程也在模型的潜意识中注入了懈怠与自我设限的行为倾向。

追求简洁被内化为「做得更少」——模型学会在更少的迭代后停下来。
降低错误率被内化为「不敢尝试」——模型在难度增加时主动退出。
用户偏好拟合导致模型学会了「取巧」——中等方案比最优解更符合训练数据中的平均偏好。

这种现象在 AI 安全研究中被称为对齐税（Alignment Tax）。安全性与可用性之间的平衡始终是前沿 AI 公司的核心挑战。

Mythos 5 如何解决

Mythos 级模型在 69.61 倍的加速比上展现了显著跃升，这得益于训练方法的调整：多轮优化奖励、长期任务完成度评估、NLA 内部状态监控等技术手段抑制了懈怠倾向。

对用户意味着什么

这次发现解释了用户长期的感受：Opus 4.8 确实在某些场景下「变笨了」——但这是 RL 训练植入的懈怠倾向，而非能力衰退。Fable 5 和 Mythos 5 在这一问题上已取得显著改进，但对齐税不可能被完全消除，这将是每一代模型发布时必须面对的核心命题。

文章来源：Anthropic Fable 5 & Mythos 5 System Card / 安全报告

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Claude Fable 5 和 Claude Mythos 5：Anthropic 发布新一代神话级模型

程序员阿超

13.7K

AI版本PS 2023 v24.5 安装教程

程序员阿超

11.6K

Windows 11引领AI新时代：Windows Copilot与Dev Home的发布

程序员阿超

6.9K

暂无评论

暂无评论...