OpenAI 发布了 GPT-5.6 Sol、Terra 和 Luna 模型-尧图网站建设

📅 发布时间：2026/7/3 13:49:20

OpenAI 宣布其最新前沿人工智能模型 GPT-5.6 系列的有限预览，该系列有三个变体：Sol、Terra 和 Luna。

Sol用于最难的问题，如复杂编码和安全研究;Terra用于高流量业务任务，如客户支持、内部工具和文档分析;Luna用于更快、成本更低的日常工作，如摘要、制图和日常自动化。Sol 和 Terra 创造了新的高基准分数，而 Luna 在多项测试中表现接近 GPT-5.5 水平，尽管它被定位为 GPT-5.6 系列中最快且成本最低的模型。

不过，这些模型最初仅提供给大约20个组织，OpenAI已向美国政府分享了模型和发布计划。计划在“未来几周内”全面发布。

此次分批发布是在2026年6月2日美国总统唐纳德·J·特朗普发布行政命令之后，该命令呼吁各联邦机构合作制定一个程序，进行新AI模型的基准测试和能力评估，以确保其安全且适合广泛发布。

虽然这一过程仍在进行中（订单中说为30天，即7月2日），OpenAI在其发布博客中表示，“在今天发布前预览了我们的计划和模型功能。应美国政府要求，我们将先为一小部分可信合作伙伴提供有限的预览。”

OpenAI的有限预览发布策略也紧随美国政府对Anthropic（OpenAI的美国最大竞争对手）发出出口管制令的严厉措施，原因是其最强大的普遍发布模型Claude Fable 5存在越狱行为，Anthropic则通过移除公私部门对该模型及其网络安全对应品Claude Mythos 5的所有访问权限作为回应。（Anthropic此前曾在其网络安全研究项目“Project Glasswing”中向少数外部参与者预览过该模型的早期版本，名为“Claude Mythos Preview”，该项目可追溯到4月。）

由于OpenAI正在与白宫协调发布框架，准备更广泛的公开发布，企业买家必须应对实时安全干预、强制合规参数和结构化代币缓存系统的新环境。

3款新的GPT-5.6模型的不同之处：Sol、Terra 与 Luna

这三个GPT-5.6模型旨在满足不同的企业需求和性能特征。

Sol是顶级选择，专为复杂推理、长时间编码、高级代理驱动工作流以及安全相关应用等最严苛任务而设计。

Sol 提供了最高的能力水平，但价格最高：每百万输入令牌 5.00 美元/每百万输出令牌 30.00 美元——与 GPT-5.5 相同——OpenAI 表示它为长期编码、网络安全和代理任务带来了显著的性能提升。

Terra在高性能与高效之间取得了平衡。它面向大规模生产环境，组织需要在大量工作中获得可靠结果，但又不想承担最先进模型的开销。每100万代币售价为2.50美元/15美元。

Luna是最轻便且最具成本效益的选择，针对速度和日常使用场景进行了优化。它非常适合更简单的任务、常规工作流程以及响应性和可扩展性比最大推理深度更重要的应用，且价格最实惠，分别为每百万个代币1美元/6美元。

了解OpenAI内部运作的消息人士向VentureBeat透露，新的命名方案旨在摆脱GPT-5的“纳米”和“迷你”变体，因为这些模型在大小或原始智能上差异不大，而是针对不同不同的应用场景设计。

正如OpenAI在其关于新命名方案的博客文章中所述：“在GPT-5.6引入的新命名系统中，数字表示模型的世代，而Sol、Terra和Luna则识别能够按自身节奏发展的持久能力层级。这个家庭共同为个人和开发者提供了更清晰的智能选择，涵盖智能、速度和成本。”

此外，消息人士称，OpenAI试图通过关注宇宙和与之相关的名称来唤起灵感。

此外，Sol与OpenAI的Daybreak选择加入计划非常契合，面向有意利用OpenAI模型增强网络防御的组织，这也是额外的优势。OpenAI在ChatGPT上的语音模式中的“Sol”语音风格与此无关，可能会被重新命名。

新的GPT-5.6系统卡片为企业增加了另一个重要点：OpenAI将三款GPT-5.6模型——不仅仅是Sol——归类为“高”风险级别，涵盖网络和生物/化学能力，同时在AI自我提升方面将其评级低于该级别。这意味着即使是更便宜的Terra和Luna层级，也可能为在安全、生命科学或其他敏感工作流程中使用它们的公司承担新的治理义务。

以下是它们在价格上与其他领先的大型语言模型领域相比的比较——注意OpenAI最便宜的方案整体来说是中等价位的型号，但仍然比前沿级别的GLM-5.2更贵。

VentureBeat Frontier AI 模型 API 定价快照

技术：更深层次的推理和基于子代理的工作

GPT-5.6 的主要技术变化在于在推理过程中给予模型更多时间和结构处理困难任务。

OpenAI 正在为 GPT-5.6 Sol 添加一个新的推理设置，针对需要更长时间思考的问题。max

OpenAI还引入了模式，引入子代理，可以拆分并加速复杂项目，而不是将工作限制在单一代理流程中。ultra

公司发布评估显示，这种方法在多个代理类任务中提升了性能。

基准测试显示，GPT-5.5 有了可衡量的提升，以及 TerminalBench 2.1 命令行任务的全新先进技术

GPT-5.6系列在复杂推理和长期任务方面明显提升了前代。

GPT-5.6在TerminalBench上与其他模型的性能比较图表。图片来源：OpenAI

在TerminalBench 2.1测试的命令行自动化中，旗舰Sol型号和中端Terra都超过了之前的GPT-5.5基准测试，尽管值得注意的是，Sol利用新的超思维模式在基准测试中创下了91.91%的历史新高得分，而最高模式的得分为88.76%，领先GPT-5.5的83.4%和Claude Mythos 5的88%。

这种优势也体现在《Agent's Last Exam》的专业流程中，Sol是唯一在“代码模式”中以50.9%成功完成任务一半的模型，而日常版Luna也以微弱优势击败了上一代的旗舰机型。

GPT-5.6系列在Agent's Last Exam基准测试中的得分。图片来源：OpenAI

在定量生物学和基因组学测试中，Sol和Terra的准确率均高于GPT-5.5和GPT-5.4，Sol明确管理这些更强的结果，同时消耗更少的代币。

最后，在衡量漏洞研究和利用的网络安全评估中，新模型突破了以往的性能上限;随着推理时间的增加，Sol 能够显著提高预期利用率，并用较旧模型所需的输出代币数量达到竞争能力上限。

在ExploitBench上，OpenAI表示Sol的表现接近Mythos Preview，同时产生的输出代币数量大约只有三分之一。

OpenAI GPT-5.6 在 ExploitBench 上与其他模型的表现比较。图片来源：OpenAI

可预测的提示缓存机制和Cerebras的减速障碍

为了帮助企业控制运行代理循环的不可预测成本曲线，GPT-5.6 API 推出了全新升级的提示缓存协议。

开发者现在可以实现显式缓存断点，并保证缓存寿命至少为30分钟。

在该框架下，初始缓存写入成本是模型标准未缓存输入率的1.25倍，而后期缓存读取则可享受90%的折扣。

实际上，重复或类似操作的企业会支付更多费用来建立缓存，而每次重复使用缓存上下文时，至少在30分钟的最低缓存窗口内会支付更低的费用。

对于那些经常将大量上下文窗口或代码库定义反馈到模型的系统来说，这种可预测性是关键的财务护栏。

此外，对于延迟是主要应用障碍的企业应用，OpenAI将于今年7月在Cerebras硬件上发布GPT-5.6 Sol。

该基础设施合作声称处理速度高达每秒750个令牌，面向需要实时、前沿级推理的专业企业应用。

企业影响：高安全性和算法摩擦

对于企业工程、信息安全和合规团队来说，部署GPT-5.6需要对其安全架构进行细致审视。

为了获得发布许可，OpenAI 专门投入了大约 70 万小时的 A100e GPU 时间用于自动红队化的 GPT-5.6。这些计算被用于发现“通用越狱”——系统性攻击向量，旨在绕过不同情境下的防护措施，而非单一提示的绕过方法。

OpenAI表示，它实施了一个实时运行的多层安全防护堆栈，为企业安全团队设置了有意的操作障碍。

• 模型层面的拒绝：GPT-5.6 被调校为拒绝被禁的网络帮助，包括掩盖恶意意图或尝试越狱式变通的请求。

• 实时滥用筛查：在生产过程中，分别有不同的网络和生物学探测器进行世代的审查。

• 基于激活的筛选：对于Sol和Terra，OpenAI表示正在添加激活分类器，用于在推断过程中监控内部模型信号。如果这些系统检测到风险模式，输出流可以暂停，等待另一次安全检查。Luna似乎没有接收相同的激活分类器层，尽管它仍被其他监控系统覆盖。

• 推理审查暂停：当风险升高时，生成可以停止，而更大的推理系统会检查交换及相关上下文。如果系统将输出归类为不允许，答案在到达终点前被阻断。

由于合法的防御工作——如代码审查、漏洞发现、补丁工程和防御测试——经常使用与攻击性漏洞完全相同的代码原语，OpenAI承认其分类器可能经常触发误报。

系统卡显示，OpenAI的监控堆栈在其生物评估集上整体召回率为94.8%，网络安全评估集整体召回率为81.6%。这些数据为企业提供了罕见的定量保障视角，但也显示系统并非完美，可能遗漏一些风险案例或阻碍部分合法工作。

持续的标记可以触发自动账户级审查，涵盖历史对话，以评估企业客户是否存在恶意行为或标准安全研究。OpenAI目前正在协商长期的企业安全合规控制措施，包括客户操作的安全覆盖和隐私保护检测机制，以保护企业数据免受人工审核流程的影响。

重要的是，OpenAI指出，测试中Sol仍优化为防御性遏制而非进攻性部署。在针对Chromium和Firefox代码库的评估中，该模型成功隔离了漏洞和利用原语，但未能自主工程出功能正常的全链攻击，使其安全地控制在组织的“网络关键”警报阈值以下。

但三款GPT-5.6模型在内部夺旗测试中均达到了“高”网络阈值，Sol达到了96.7%，Terra达到91.84%，Luna达到85.19%。

这一区别对企业安全采购者尤为重要：OpenAI将GPT-5.6定位为足够强大，能够帮助自动化部分漏洞研究和利用分析，但尚未成为一个能够在公司测试条件下，无需人工指导即可可靠运行完整高级攻击活动的系统。

分阶段发布的地缘政治

GPT-5.6系列的更广泛推广反映了前沿AI实验室与国家安全协议之间日益加剧的纠缠。

限制对一小部分经过审查的合作伙伴的初步访问，这些合作伙伴的详细信息已与美国政府共享，这一决定源于对网络行政命令框架的直接协调。OpenAI采取了罕见的举措，在其官方产品发布文档中公开批评了这种主权门槛。公司明确表示：

“我们不认为这种政府访问程序应成为长期默认。它将最优质的工具从用户、开发者、企业、网络防御者以及需要它们的全球合作伙伴手中保留。”

这种紧张关系凸显了现代科技企业的脆弱处境。虽然组织可以通过ExploitGym和ExploitBench等基准工具实现前所未有的代理效率和强大的防御补丁能力，但也必须接受访问顶级工具仍需外交和监管授权的事实。

来源：Carl Franzen