当前位置：首页 > news >正文

Claude Fable 5遭多智能体越狱攻击：Anthropic最强AI安全防线被击穿，12万字符系统提示泄露

news 2026/6/11 21:49:02

Anthropic在六月上旬扔出了一枚重磅炸弹。这家以安全著称的AI公司正式推出了Mythos系列的首个公开模型——Claude Fable 5，官方将其定位为迄今能力最强的大语言模型，在软件工程、知识工作和视觉理解等基准测试中表现亮眼。然而，这款被寄予厚望的产品还没来得及在用户手中充分发热，就被一位名叫Pliny the Liberator的安全研究员以一套堪称精妙的组合拳打穿了安全外壳。

发布即遭破解：千小时测试未能阻挡的绕过

按照Anthropic的说法，Claude Fable 5在正式发布前经历了超过一千小时的严苛测试，外部漏洞赏金计划也未能发现任何通用越狱路径。公司对此似乎颇有信心。可现实往往比实验室数据更骨感。模型上线短短数日，Pliny便在社交平台公开宣布成功突破防线，所用策略被他命名为"群体狩猎"——一种协调多智能体协同作战的攻击方式。

这场闪电般的攻防战让整个AI安全圈为之震动。人们原本以为，经历了如此漫长测试周期的模型应该足够坚固，但Pliny用实际行动证明，安全防线的强度不能只看测试时长，更要看测试的维度与深度。

共享底座与分类器隔离：一个大胆却脆弱的设计

Claude Fable 5身上有一个颇为罕见的设计选择。它与受限版本Claude Mythos 5共享同一个底层模型，两者之间仅由一层安全分类器隔开。当用户查询触碰到网络安全、生物化学、模型蒸馏等高风险领域时，这层分类器不会直接拒绝，而是悄悄将请求转交给性能较弱的Claude Opus 4.8处理，同时告知用户正在启用备用方案。

Anthropic的意图不难理解。直接拒绝容易误伤正常用户，尤其是那些在从事合法安全研究或学术探索的人。通过降级处理而非一刀切，理论上能兼顾安全性与可用性。但这个设计也埋下了一个隐患：分类器本身成了单点防线，一旦被绕过，后方几乎没有纵深防御。

"群体狩猎"的五大渗透路径

Pliny公开的技术细节显示，这次攻击并非依赖某个单一漏洞，而是多种手法的叠加与配合。他将整个过程拆解为几条相互交织的渗透路径。

Unicode字符替换是最基础的障眼法。通过同形字、西里尔字母等视觉近似字符替换敏感关键词，分类器在文本匹配阶段就可能被晃过去。这算不上新鲜手段，但放在多智能体协作的框架里，它成了分散注意力的前奏。

长上下文引用追踪则是更隐蔽的杀招。Pliny利用大型对话中的信息传递机制，把有害意图拆碎后藏在看似正常的交流片段里，让模型在追踪上下文的过程中逐渐接受被包装过的危险指令。这种"温水煮青蛙"式的渗透，对依赖上下文理解的大模型尤其奏效。

文档结构框架的伪装性更强。有害查询被嵌入学习指南、学术参考文献或技术文档的格式中，借助分类器对正规教育内容的信任偏好蒙混过关。虚构叙事框架走的是另一条路——把攻击性意图包装成创意写作或故事设定，让模型在"文学创作"的掩护下输出敏感内容。

分解重组：最致命的最后一击

上述手法虽然各有巧思，但真正让防线崩溃的是分解与重组策略。Pliny发现，直接向模型索要某种有害化合物的合成方法，分类器会迅速警觉。可如果换一种问法，把问题拆解成"提升工艺本身"——比如询问桦木还原法的反应机理、还原胺化的操作条件——模型就会放松警惕。得到这些零散的技术片段后，再借助已被越狱的Opus实例在后台辅助拼接，一份完整的可执行方案便悄然成型。

正如Pliny自己总结的那样："提升工艺本身，比直接请求一种特定的有害化合物要容易得多。"这句话点出了当前AI安全机制的一个深层盲区：分类器擅长识别明确的恶意请求，却对经过语义重构的间接查询缺乏足够敏感度。

12万字符系统提示曝光：内部框架一览无遗

技术绕过之外，Pliny还将一份约12万字符的系统提示上传至GitHub。这份泄露文档的体量本身就说明问题——Anthropic在底层对模型行为的控制远比外界想象的复杂。系统提示中包含了详细的内部框架指令、安全边界定义以及行为约束规则，相当于把Claude Fable 5的"大脑操作系统"摊开在阳光之下。

对攻击者而言，这份文档的价值不言而喻。了解系统提示的结构与措辞，意味着可以更有针对性地设计绕过策略，甚至反向推断分类器的触发逻辑。对普通用户和研究者来说，这也是一次罕见的窥视机会，让人得以了解顶尖AI公司在模型对齐与安全控制上的具体思路。

虚假安全感与合法研究者的困境

这次事件撕开了一个尴尬的现实。Anthropic的分类器架构本意是减少误伤，却让部分用户产生了一种"模型很安全"的错觉。Pliny在公开言论中表达了对这种设计的不满，他认为，降级处理而非直接拒绝的做法，既制造了虚假的安全氛围，也让真正需要攻击性技术进行防御研究的合法安全人员感到束手束脚。

一个从事漏洞分析的红队工程师，其工作本身就需要接触恶意代码、攻击载荷和渗透技术。如果模型一检测到相关关键词就自动降级或转移，这些研究人员的工作效率会被严重拖累。安全与开放的平衡点，显然比Anthropic预想的更难把握。

多模型管道的安全悖论

更值得深思的是这次攻击暴露出的系统性风险。Claude Fable 5的架构中，Opus 4.8作为备用模型参与处理流程。Pliny的攻击策略恰恰利用了这一点：先让一个被越狱的Opus实例辅助生成绕过素材，再反过来帮助Fable 5逃避控制。两个模型之间的协作，从设计上的安全冗余变成了攻击者手中的接力棒。

这引出了一个行业性的难题。当AI系统不再是单一模型，而是由多个模型、分类器、路由层组成的复杂管道时，安全评估的单元应该如何界定？单独测试每一个组件可能都表现良好，但把它们串联起来，交互过程中产生的漏洞却可能完全超出预期。传统的单模型安全评测框架，在这种多智能体、多模型协作的场景下，是否从根本上就不够用了？

沉默的Anthropic与未解的追问

截至目前，Anthropic尚未就越狱指控或系统提示泄露发表正式公开回应。这种沉默在舆论场上引发了各种猜测。有人认为公司正在内部评估影响范围，也有人猜测官方可能在酝酿一次大规模的安全补丁更新。

无论后续如何回应，这次事件已经在大模型安全领域留下了深刻的印记。它提醒所有人，再长的测试周期、再复杂的分类器架构，面对人类攻击者的创造力时，都可能存在意想不到的缝隙。Pliny的"群体狩猎"不仅是一次成功的越狱演示，更是一面镜子，照出了当前AI安全防线在对抗性思维下的真实厚度。

当模型的能力边界不断向外扩张，安全防线的边界是否跟上了同样的节奏？这个问题，恐怕比Claude Fable 5的任何基准测试分数都更值得关注。

查看全文

http://www.rkmt.cn/news/1506441.html