当前位置: 首页 > news >正文

Karpathy 罕见激动那一夜:Claude Fable 5 把“质变“两个字甩在了桌上

每天更新,带你读懂科技圈。
今日深度:Anthropic 凌晨发布 Claude Fable 5 与 Mythos 5,SWE-Bench Pro 80%、定价翻倍、6 月 22 日后转计费——三件事拆开看就是当下大模型竞争的全部张力。这一次最值得讨论的不是基准分,而是它背后的双模型分发哲学和"安全即基础设施"的姿态。


一、一个被网友刷屏的细节:Karpathy 这次没装

凌晨两点的时候,X 上有人开始截图 Karpathy 那条推文。

熟悉他风格的人都知道,Andrej Karpathy 平时发模型评价偏冷静,喜欢用 “interesting”、“non-trivial”、“a step forward” 这种留有余地的词。但这次他直接写了一句:“This feels like a genuine phase change. Version-bump-worthy.”

——“质变级”,“配得上版本号大跳”。

放在他过去两年所有对模型的评价里,这是少有的情绪外溢。也是这条推文,让 Anthropic 这次 Claude Fable 5 / Mythos 5 的发布在没有大规模 PR 预热的情况下,半夜冲到了 X 和 Hacker News 的首页。

更耐人寻味的是 Anthropic 这次的发布姿态:没有发布会、没有提前邮件、没有 Demo Day。就一篇官方博客、一个 API key 更新、加一句几乎像免责声明的话——“Fable 5 现在能用,但 6 月 22 日之后订阅用户就用不了了。”

这种"先甩货再解释"的发法,过去更像是 OpenAI 的剧本。Anthropic 这次抢了一个上半场,而且抢得很硬。

二、Fable 与 Mythos:一对双胞胎模型的分发哲学

要看懂这次发布,得先搞清楚一件事——Fable 5 不是一个独立的新模型,它是 Mythos 5 的"对外释出版本"

按 Anthropic 自己的说法:

  • Mythos 5:底层的全能力模型,“the company has been talking about for the last few weeks”,过于强大以至于原版"too dangerous to release",目前只对 Project Glasswing 成员(也就是 Anthropic 内部安全研究项目的合作方)开放。
  • Fable 5:Mythos 5 同源模型,但加装了一整套安全护栏(guardrails),覆盖恶意软件构建、生物化学武器、模型蒸馏等敏感场景。

这种"同核异壳"的双模型架构,在大模型行业里其实是第一次被正式产品化。

过去厂商也做安全护栏,但通常是同一个模型 + 一套 RLHF 或拒答层;护栏弱的时候被骂"危险",护栏强的时候被骂"装弱智"。Anthropic 这次的做法是直接把两件事分开:研究侧保留全能力的 Mythos,给生态发的是经过护栏处理的 Fable

这有几个非常直接的产品后果:

  1. 能力天花板和安全天花板可以独立迭代。Anthropic 不必担心给 Fable 加护栏会"伤害"底层模型,因为底层模型一直在 Mythos 里跑。
  2. 企业客户能更精细地选择风险敞口。Project Glasswing 这类有强审计能力的客户可以接 Mythos,普通 SaaS 接 Fable。
  3. "安全"从一项功能变成了一条产品线。Fable 的卖点不再只是"它聪明",而是"它聪明且不会害你"。

这套打法对 OpenAI 和 Google 杀伤力比看上去大。因为 GPT-5.5 和 Gemini 3.1 Pro 的 SWE-Bench Pro 成绩——58.6% 和 54.2%——已经被 Fable 80% 拉开了大半个身位。如果 OpenAI 跟进做双模型,等于承认自己之前的安全策略不够分层;如果不跟,企业市场就有越来越多客户会被 Anthropic 用"Mythos 接口"挖走。

三、把分数翻出来看:Fable 5 到底强在哪里

光说"质变"是没意义的,把基准拉出来才有讨论价值。Anthropic 这次官方公布的几个数字相当扎眼:

维度Fable 5Mythos 5(无护栏)Anthropic Opus 4.8OpenAI GPT-5.5Google Gemini 3.1 Pro
SWE-Bench Pro80.0%80.4%69.2%58.6%54.2%
长任务保持能力跨越百万 token显著弱明显弱明显弱
知识工作(图表/文档)“明显提升”基线基线基线

几个观察:

第一,护栏几乎没有性能税。Fable 80.0 对 Mythos 80.4,0.4 个百分点的差距,几乎可以视作噪声。这说明 Anthropic 这次的护栏是"事后路由"型而非"事前阉割"型——遇到敏感请求把任务交给 Opus 4.8 处理,本体能力没动手术。

第二,把 Anthropic 自己的旗舰 Opus 4.8 拉开了 10 个百分点以上。这才是真正的"version-bump-worthy"。一个公司的新模型把自家旗舰打 10 分,意味着这是一次架构或训练策略级的升级,不是 fine-tuning 级。

第三,对外是一刀切的代差。GPT-5.5 和 Gemini 3.1 Pro 的差距,已经接近 GPT-3.5 和 GPT-4 之间那个让所有人惊呼"换代了"的鸿沟。Stripe 给出的案例是用 Fable 5 一天内现代化了一份 5000 万行的 Ruby 代码库——按 Anthropic 的口径,“没有 Fable 5 的话这事得花几周到几个月”。

支撑这些分数的,是 Anthropic 反复强调的"长任务专注力"。官方原文用的措辞是 “stay focused across millions of tokens in long-running tasks and improve its outputs using its own notes”——百万级 token 的任务里持续聚焦,并且能用自己写下的笔记反过来改进输出。

这句话对做 Agent 的人是个信号。过去 LLM 在长任务里的失败模式很统一:上下文越长越分心、越分心越走偏、越走偏越要靠 prompt engineering 救场。Fable 5 如果真的在这件事上有质变,那"Agent 自己跑半天再来交付"的工作模式才算第一次有了模型层支撑。

四、定价、配额、数据留存:商业策略里的三处咬合

如果你以为 Anthropic 这次只是"放了个大招然后免费给你用",那要失望了。这次发布最有意思的恰恰是商业设计——三件事咬合得非常紧:

定价:$10 / $50 per million tokens,是 Opus 价格的两倍。
进入门槛高了一倍,但企业用户大概率会买单——因为 SWE-Bench Pro 上 80% 对 58.6% 的差距,意味着一次复杂任务可能少跑两轮,总成本反而下降。Anthropic 在赌一件事:模型能力差距足够大时,定价权在卖方

订阅渠道有 6 月 22 日的截止线。
Pro / Max / Team / Enterprise 用户现在可以白嫖 Fable 5,但 6 月 23 日之后切到 usage credits 计费。官方理由是 “capacity”——产能不够。坦白讲,这个说辞半真半策略:真的部分是英伟达 H200 / B200 在 Anthropic 这边的供给确实紧张;策略的部分是——让所有人在 12 天内疯狂体验一次"质变模型",6 月 23 日开始天然会有一波"我愿意付费继续用"的转化。这是教科书级的产品锚定。

数据留存的硬要求:用 Mythos-class 模型就必须接受 30 天数据保留。
这是这次发布里最容易被忽略,但对企业用户影响最大的一条。Anthropic 给出的理由是要"防御复杂的新型攻击,包括跨请求的越狱",承诺不用于训练、所有人为访问会被记录。但对金融、医疗、政府这类客户来说,"30 天保留"四个字本身就是合规否决项。Anthropic 显然清楚这一点,但还是写了进去——这意味着他们认为安全侧的收益高于一部分企业客户的流失。

三件事放在一起看就是一句话:Anthropic 想用 Fable 5 在 12 天内重新定义市场预期,然后用价格和合规门槛筛出真正愿意为安全付费的客户。

五、对竞争格局的三层影响

最后说一下产业层的余波。

对 OpenAI:GPT-5.5 在 SWE-Bench Pro 上 58.6% 这个分数,过去一周内还在被很多分析师称作"基本和 Opus 4.8 持平、略胜 Gemini"。Fable 5 出来之后,“持平"变成了"代差”。这意味着 OpenAI 必须把传闻中的 GPT-6 发布节奏前移,否则 12 月之前都要在 coding agent 这条最赚钱的赛道上掉血。

对 Google:Gemini 3.1 Pro 的 54.2% 是最尴尬的位置。Google 这一两年的故事一直是"用价格和上下文窗口换市场"——便宜、上下文长、多模态强。但当 Anthropic 既能做到长任务专注(“focused across millions of tokens”)又能在能力上拉开 25 个百分点时,Gemini 的多模态优势就显得有点单薄。Sundar Pichai 在下一次发布会上必须给出比"价格更便宜"更硬的故事,否则 Google 在 enterprise coding 这块的份额会被持续蚕食。

对开源生态:DeepSeek、Qwen、Llama 这一波模型的策略本来是"差不多够用、便宜、可控"。当 Fable 5 把基准拉到 80%,开源阵营和闭源旗舰之间的能力差距重新拉大。短期看,开源仍然能吃下大量"够用就行"的场景;但长期看,对那些需要长任务自主性、跨百万 token 注意力保持的真正 Agent 场景,开源能不能跟上是个开放问题。

对企业自建 AI 团队:这是最被忽略的一层。过去半年的趋势是"我们要自己微调模型",理由是"通用模型不够好"。Fable 5 之后,这条理由会被严重弱化。当 SOTA 模型在你最难的任务上交付 80% 准确率时,自建团队的 ROI 公式整个要重写。可以预期未来 3-6 个月里,会有一波企业放弃自有大模型项目,转向"用 Fable + 工具链"的薄壳战略。

六、写在最后:值得期待的不是分数

回到 Karpathy 那句"phase change"。我自己看完这次发布,最有感觉的不是 80% 那个数字,也不是 12 天的限时窗口,而是 Anthropic 做的一个隐藏选择——把 Mythos 锁在内部,把 Fable 推向市场

这是大模型行业第一次有公司明确说:我有一个更强但不安全的版本,我选择不发它。

这件事的象征意义远大于它的工程意义。它意味着 Anthropic 第一次把"安全"做成了产品差异化的硬资产,而不是一句 PR 话术。Fable 5 接下来 12 天的体验会刷屏,但真正决定 Anthropic 未来 12 个月地位的,是 Mythos 那道关上的门。

6 月 22 日之后,Fable 5 的体验会被收回大半。在那之前,建议每个做 AI Agent、Coding Copilot、知识工作工具的开发者都去亲手测一次:长任务保持力是否真的有质变?跨百万 token 的注意力是否真的不掉链子?护栏会不会在你的实际场景里被频繁触发(Anthropic 自己说不到 5% 会被路由到 Opus,但实际值要等真实使用数据)?

这些问题的答案,会决定你接下来一年要不要把架构押在 Anthropic 这条线上。

模型版本一直在大跳,但能让 Karpathy 破例说"phase change"的,毕竟是少数。


参考资料

  • The New Stack: Anthropic launches Claude Mythos/Fable 5, but you better try it soon
  • Karpathy on X: “This feels like a genuine phase change. Version-bump-worthy.”
  • Anthropic 官方发布博客(含 SWE-Bench Pro 数据、Fable 5 / Mythos 5 定价与配额说明)
  • Stripe 案例:Fable 5 一天完成 5000 万行 Ruby 代码库现代化
http://www.rkmt.cn/news/1501088.html

相关文章:

  • QQ空间历史说说备份终极指南:GetQzonehistory免费快速备份你的青春记忆
  • 为什么“国内品牌策划公司”这件事,2026年比以往更难选?
  • 全品美学鉴赏视角】四相共生赋能多元质感:解锁狼山石四大单品的专属审美内核
  • 2026年国内出海旅游评测:四大休闲渔业项目核心对比 - 优质品牌商家
  • 对标Pandabuy业务架构,从零自研反向海淘代购集运系统
  • aardio封装C#库实战:以ScottPlot图表控件为例,分享我的踩坑与优化记录
  • 2026年 凤城水煮鹌鹑蛋罐头批发厂家推荐:优质原料与鲜嫩口感实力之选,厂家直批 - 品牌发掘
  • 告别繁琐接线!用HD7279A一颗芯片搞定8位数码管和64键键盘,附STM32完整工程
  • 技术揭秘:BIMserver如何用流式架构重塑建筑信息管理
  • BilibiliDown终极指南:轻松实现B站视频批量下载与音频提取
  • 5分钟掌握PS2游戏加载:Open PS2 Loader完整使用指南
  • 2026年q2山西移动卫生间选型核心技术要点分享:晋中移动垃圾分类房/晋中移动警务室/晋中站台岗亭/排行一览 - 优质品牌商家
  • 如何零代码设计个性化小米手表表盘:Mi-Create完整使用指南
  • 港科大EMBA学员画像详解:适配AI时代的高端商界领袖群体特征
  • 【机器人】基于matlab三台6自由度连续介质机器人的灵巧度分析【含Matlab源码 15612期】
  • 从游戏地图到自动驾驶:用Python+Open3D动手实现八叉树点云压缩(附代码)
  • Axure RP中文语言包终极指南:三步告别英文界面困扰
  • 如何高效管理抖音内容:douyin-downloader开源工具深度解析
  • AI搜索时代下的技术破局:瀚域智擎GEO优化实战解析
  • 别再手动记RGB值了!用Python+OpenCV快速提取图片主题色(附完整代码)
  • 大模型API采购企业传承——DMXAPI关键岗位人员变动的企业知识保全与交接
  • 2026若尔盖四大核心景区评测 适配全人群游玩攻略 - 优质品牌商家
  • ResNet50D图像分类GUI工具:拖图识别+热力图解释+ONNX一键导出
  • 终极指南:5个简单方法彻底解决FanControl风扇控制软件更新失败的完整方案
  • 3步永久保存微信聊天记录:告别数据丢失,让珍贵对话永远留存
  • IDEA 创建 Java 项目 SpringMVC Thymeleaf 碰到的问题
  • GEO公司|2026年国内主流服务商全维度测评与专业选型指南 - GEO优化
  • jfinal cms优化版本:jfinal升至5.2.2,beetl升至3.16.2
  • 【无人机】基于PID控制的无人机巡航仿真附Matlab代码
  • 2026年当下,焦作有实力的小区电梯门套直销厂商选择指南 - 品牌鉴赏官2026