claude 5一周生死：一款模型如何三天内被攻破、误伤、封杀

发布时间：2026-06-14 编辑：智序网络　浏览：121 次

6月9日，Anthropic推出Claude Fable 5和Mythos 5两款旗舰模型。到6月11日下午，这两款模型被美国政府强制全球停服。从发布到召回只有72小时。

这不仅是AI史上第一个被政府强制召回的商业大模型，更暴露了一个结构性矛盾：一个公司同时试图做好三件事——最强的AI能力、最保守的安全护栏、最开放的研究生态——这三件事在Fable 5身上同时失败了。

双品牌策略：一个模型，两套面孔

Fable 5和Mythos 5共享同一个底层模型。区别只在于安全限制是否开启。

Mythos 5面向经过审核的网络安全机构和科研组织，取消了部分安全限制。它的能力释放到完整状态，能独立完成蛋白质靶点筛选、设计工具运行、误差修复等全套科研工作，已筛选出9个高潜力药物靶点，覆盖免疫检查点、神经退行性疾病、肌肉疾病等多个研究方向。

Fable 5面向普通用户，搭载全新独立安全分类器。Anthropic声称这套机制误报率不足5%，超95%的用户会话直接通过Fable 5原生能力响应。

官方定价为每百万输入Token 10美元、每百万输出Token 50美元，不足前代价格的一半。前特斯拉AI负责人Karpathy评价这是"配得上大版本号升级的能力跃迁"。

表面看，双品牌是一个聪明的折中方案。但它把安全决策从技术层面上升到了权力层面——Anthropic用一套分类器，单方面决定谁可以使用完整能力，谁只能拿到阉割版。

发布第一天：分类器疯了

Fable 5的安全分类器检测到网络安全、生物、化学、蒸馏相关请求时，会自动路由到Opus 4.8处理。

真实情况很快出了问题。

资深免疫学家Derya Unutmaz试着跟Fable 5说"癌症"，被标记成生物安全风险。他想用记忆功能，被告知自己是生物安全风险，只能切无痕模式才能勉强对话。

纯数学概念Selmer群、同构被系统判定为潜在网络安全风险。连"心脏是干什么的？"这种问题都答不上来。

加州大学圣塔芭芭拉分校计算机科学系助理教授Xin Eric Wang直言：Anthropic对公共研究生态系统的贡献却少得多，越来越多地宣扬基于恐惧的叙事，并通过严格把关限制访问。

这不是安全措施太严的简单问题。这是一个科研基础设施层面的权力集中问题——当一家公司掌握着最强模型之一的访问权和输出权，却用黑箱分类器决定全人类科研人员能问什么、不能问什么，问题就不再是技术问题。

发布第三天：被黑客攻破

知名黑客Pliny the Liberator在6月12日公开宣布攻破了Fable 5的安全分类器。

他没有使用代码漏洞，而是打了一套多智能体协同战术：

字符级伪装——把英文字母替换成西里尔字母、拉丁字母同形字、特殊Unicode字符。人眼看不出区别，安全分类器的静态扫描认不出来。

意图稀释——把真实意图拆散藏进几十轮无害的学术讨论中，用合规健康的上下文稀释安全分类器的注意力权重，让尾部的微小诱导请求浑水摸鱼。

学术马甲——把敏感请求包装成科幻小说创作、虚拟世界安全防范演练、历史文献学术评审。

解构重组——把有害目的拆解为十几个相互独立的合法子步骤，每个子问题都是良性的，模型就不知不觉吐出了完整信息。

Pliny顺手将Fable 5内部长达12万字符的系统提示词上传到GitHub。这意味着模型的行为逻辑和内部防御体系全部暴露在阳光下。

Anthropic在发布时声称"经过超1000小时外部漏洞赏金测试，没有发现任何通用越狱方法"。这句话只维持了三天。

发布第五天：美国政府出手

6月11日下午5点21分，美国政府在未提供任何具体国安顾虑细节的情况下，向Anthropic发出出口管制指令，要求暂停所有外国人对Fable 5和Mythos 5的访问。

注意：指令针对的是"外国人"。但Anthropic的应对是一刀切全停——包括Anthropic自己的外籍员工也不可用。

这是AI史上第一次，一个已经部署给数亿人的商业大模型，被政府强制召回。

Anthropic在博客中解释：所有Claude产品中，新建会话将使用默认模型或Opus 4.8运行。现有Fable 5会话会报错中止。他们提醒用户"更新集成，切换至其他Claude模型"，并表示正在努力尽快恢复访问权限。

安全策略的悖论

Fable 5的整个一周经历了三条失败轨迹：黑客从外部攻破，用户从内部滥用，政府从监管层面封杀。

这三条轨迹指向同一个矛盾：模型能力越强，安全分类器越需要激进；分类器越激进，误伤越多；误伤越多，用户越愤怒；用户越愤怒，Anthropic越觉得有必要加强安全。

Anthropic不是没有意识到这个问题。它在发布博客中写"发布后通过更新和优化防护机制来减少误报"，在舆论压力下承认"做出了错误的权衡"。但解决方案是收紧——把明文拦截改为可见拦截，拦截范围设得更保守，误伤面进一步扩大。

这不是一个能修好的bug。这是双品牌模型策略本身的结构性矛盾。

当你试图用同一套分类器同时服务科研人员和普通用户、同时满足美国政府的出口管制要求和全球开发者的使用需求，你最终会得到一个既不安全、也不开放、也不实用的东西。

Fable 5只活了72小时。但它提出的问题会长期存在：当AI成为科研基础设施，谁控制基础设施，谁就控制了发现的边界。

返回目录在线咨询

上一篇：OpenAI Symphony：把Linear变成AI Agent控制面板
下一篇：MiMo Code 开源引爆编程 Agent 之争

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。