Anthropic 今日正式发布 Claude Fable 5——一款已通过安全审查并可向大众开放的神话级(Mythos-class)模型。这是 Anthropic 迄今公开发布的最强模型,在几乎所有测试基准上均达到业界顶尖水平,在软件工程、知识工作、视觉识别、科学研究和诸多其他领域表现卓越。任务越复杂、周期越长,Fable 5 相比其他模型的优势就越明显。
双模型策略:Fable 与 Mythos
Fable 5 是”神话级”(Mythos-class)模型,定位高于原有的 Opus 系列。今年 4 月,Anthropic 通过 Project Glasswing 发布了首个神话级模型 Claude Mythos Preview,仅限网络安全防御者和关键基础设施提供商使用。今天,Fable 5 是以安全可控的形式向大众开放的第一个神话级模型。
同时发布的还有 Claude Mythos 5——底层模型与 Fable 5 相同,但某些领域的安全限制被移除。Mythos 5 将首先通过 Project Glasswing(与美国政府合作的项目)部署,作为 Mythos Preview 的升级版。它拥有全球最强的网络安全能力,未来将通过更广泛的信任访问计划逐步开放。
安全机制:保守但必要
发布如此强大的模型伴随着风险。在网络安全等领域,Fable 5 的能力可能被用于造成严重损害。为此,Anthropic 引入了新的安全分类器——独立的 AI 系统,用于检测潜在的滥用行为(包括越狱攻击)。当分类器检测到与网络安全、生物化学或模型蒸馏相关的请求时,系统会自动将响应交由次强模型 Claude Opus 4.8 处理,用户会被告知这一切换。
Anthropic 承认当前的安全机制偏保守——有时会误拦无害请求,但平均触发率低于 5%。Anthropic 表示正在努力减少误报率。内部评估显示,Fable 5 的安全防护在抗越狱方面的表现优于此前所有公开发布的模型。
能力亮点
软件工程
在早期测试中,Stripe 报告 Fable 5 将数月的工程工作压缩到了几天。在一个 5000 万行的 Ruby 代码库中,模型一天内完成了原本需要整个团队两个多月手工完成的代码库迁移。在 Cognition 的 FrontierCode 评估中,Fable 5 在前沿模型中得分最高——即便是中等工作量设定下也是如此。
知识工作
在 Hebbia 面向资深级推理的金融基准测试中,Fable 5 得分最高,在文档推理、图表解读和问题解决方面大幅领先。IMC 指出,Fable 5 几乎全项通过了他们的交易分析评估,包括事实查询、概念推理、根因分析和期望值分析。
视觉能力
Fable 5 是视觉类任务的新 SOTA 模型。它能从复杂的科学图表中精确提取数字,仅凭截图就能还原 Web 应用的源代码。它需要的辅助框架也更少——之前的 Claude 模型即便配备了额外工具也难以通关 Pokémon FireRed,而 Fable 5 仅凭纯视觉输入就通关了。
记忆与长上下文
Fable 5 能在数百万 token 的长任务中保持专注,并利用自己的笔记改进输出。在卡牌构筑游戏《Slay the Spire》中,使用持久化文件记忆后,Fable 5 的性能提升幅度是 Opus 4.8 的三倍,进入游戏最终幕的频率也提高了两倍。
生命科学与科学研究
药物设计:使用 Mythos 5,Anthropic 的蛋白质设计专家将药物设计的某些环节加速了约 10 倍。Mythos 5 在无人工辅助的情况下,仅凭蛋白质设计和生物信息学工具就能匹配甚至超越熟练的人类操作员。14 个蛋白质靶点中有 9 个产生了值得进一步研究的候选分子。
分子生物学:Mythos 5 是首个能持续产出新颖、有说服力的科学假说的模型。在盲测对比中,科学家们约 80% 的情况下更偏好 Mythos 的分子生物学假说。其中一个关于大肠杆菌蛋白的新机制已被独立实验室的最新研究证实。
基因组学:Mythos 5 在超过一周的自主工作中开展了新颖的基因组学研究——整合了涵盖 138 个动物物种、数百万个细胞的单细胞数据,设计并训练了自定义机器学习模型来识别跨远亲物种中执行相同功能的细胞。其训练出的模型性能超越了近期发表在《Science》期刊上的一个模型,尽管规模小了 100 倍。
对齐评估与定价
在自动化对齐评估中,Mythos 5 的不对齐行为水平(包括欺骗、与用户滥用行为的配合等)较低,与 Opus 4.8 相近。
定价:输入 $10/百万 token,输出 $50/百万 token——不到 Mythos Preview 价格的一半。
可用时间线
即日起至 6 月 22 日:Fable 5 对 Pro、Max、Team 和 seat-based Enterprise 套餐免费开放。
6 月 23 日起:从订阅套餐中移除,使用需消耗用量额度。
后续:在容量允许后,恢复为订阅套餐标准功能。
文章来源:Anthropic 官方博客