全网信息技术服务商

电脑端+手机端+微信端+APP端(安卓+IOS),全网覆盖

0532-89269576

claude 5一周生死:一款模型如何三天内被攻破、误伤、封杀

发布时间:2026-06-14 编辑:智序网络 浏览:121 次

6月9日,Anthropic推出Claude Fable 5和Mythos 5两款旗舰模型。到6月11日下午,这两款模型被美国政府强制全球停服。从发布到召回只有72小时。

这不仅是AI史上第一个被政府强制召回的商业大模型,更暴露了一个结构性矛盾:一个公司同时试图做好三件事——最强的AI能力、最保守的安全护栏、最开放的研究生态——这三件事在Fable 5身上同时失败了。

双品牌策略:一个模型,两套面孔

Fable 5和Mythos 5共享同一个底层模型。区别只在于安全限制是否开启。

Mythos 5面向经过审核的网络安全机构和科研组织,取消了部分安全限制。它的能力释放到完整状态,能独立完成蛋白质靶点筛选、设计工具运行、误差修复等全套科研工作,已筛选出9个高潜力药物靶点,覆盖免疫检查点、神经退行性疾病、肌肉疾病等多个研究方向。

Fable 5面向普通用户,搭载全新独立安全分类器。Anthropic声称这套机制误报率不足5%,超95%的用户会话直接通过Fable 5原生能力响应。

官方定价为每百万输入Token 10美元、每百万输出Token 50美元,不足前代价格的一半。前特斯拉AI负责人Karpathy评价这是"配得上大版本号升级的能力跃迁"。

表面看,双品牌是一个聪明的折中方案。但它把安全决策从技术层面上升到了权力层面——Anthropic用一套分类器,单方面决定谁可以使用完整能力,谁只能拿到阉割版。

发布第一天:分类器疯了

Fable 5的安全分类器检测到网络安全、生物、化学、蒸馏相关请求时,会自动路由到Opus 4.8处理。

真实情况很快出了问题。

资深免疫学家Derya Unutmaz试着跟Fable 5说"癌症",被标记成生物安全风险。他想用记忆功能,被告知自己是生物安全风险,只能切无痕模式才能勉强对话。

纯数学概念Selmer群、同构被系统判定为潜在网络安全风险。连"心脏是干什么的?"这种问题都答不上来。

加州大学圣塔芭芭拉分校计算机科学系助理教授Xin Eric Wang直言:Anthropic对公共研究生态系统的贡献却少得多,越来越多地宣扬基于恐惧的叙事,并通过严格把关限制访问。

这不是安全措施太严的简单问题。这是一个科研基础设施层面的权力集中问题——当一家公司掌握着最强模型之一的访问权和输出权,却用黑箱分类器决定全人类科研人员能问什么、不能问什么,问题就不再是技术问题。

发布第三天:被黑客攻破

知名黑客Pliny the Liberator在6月12日公开宣布攻破了Fable 5的安全分类器。

他没有使用代码漏洞,而是打了一套多智能体协同战术:

字符级伪装——把英文字母替换成西里尔字母、拉丁字母同形字、特殊Unicode字符。人眼看不出区别,安全分类器的静态扫描认不出来。

意图稀释——把真实意图拆散藏进几十轮无害的学术讨论中,用合规健康的上下文稀释安全分类器的注意力权重,让尾部的微小诱导请求浑水摸鱼。

学术马甲——把敏感请求包装成科幻小说创作、虚拟世界安全防范演练、历史文献学术评审。

解构重组——把有害目的拆解为十几个相互独立的合法子步骤,每个子问题都是良性的,模型就不知不觉吐出了完整信息。

Pliny顺手将Fable 5内部长达12万字符的系统提示词上传到GitHub。这意味着模型的行为逻辑和内部防御体系全部暴露在阳光下。

Anthropic在发布时声称"经过超1000小时外部漏洞赏金测试,没有发现任何通用越狱方法"。这句话只维持了三天。

发布第五天:美国政府出手

6月11日下午5点21分,美国政府在未提供任何具体国安顾虑细节的情况下,向Anthropic发出出口管制指令,要求暂停所有外国人对Fable 5和Mythos 5的访问。

注意:指令针对的是"外国人"。但Anthropic的应对是一刀切全停——包括Anthropic自己的外籍员工也不可用。

这是AI史上第一次,一个已经部署给数亿人的商业大模型,被政府强制召回。

Anthropic在博客中解释:所有Claude产品中,新建会话将使用默认模型或Opus 4.8运行。现有Fable 5会话会报错中止。他们提醒用户"更新集成,切换至其他Claude模型",并表示正在努力尽快恢复访问权限。

安全策略的悖论

Fable 5的整个一周经历了三条失败轨迹:黑客从外部攻破,用户从内部滥用,政府从监管层面封杀。

这三条轨迹指向同一个矛盾:模型能力越强,安全分类器越需要激进;分类器越激进,误伤越多;误伤越多,用户越愤怒;用户越愤怒,Anthropic越觉得有必要加强安全。

Anthropic不是没有意识到这个问题。它在发布博客中写"发布后通过更新和优化防护机制来减少误报",在舆论压力下承认"做出了错误的权衡"。但解决方案是收紧——把明文拦截改为可见拦截,拦截范围设得更保守,误伤面进一步扩大。

这不是一个能修好的bug。这是双品牌模型策略本身的结构性矛盾。

当你试图用同一套分类器同时服务科研人员和普通用户、同时满足美国政府的出口管制要求和全球开发者的使用需求,你最终会得到一个既不安全、也不开放、也不实用的东西。

Fable 5只活了72小时。但它提出的问题会长期存在:当AI成为科研基础设施,谁控制基础设施,谁就控制了发现的边界。

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。