【导语:普林斯顿大学举办CEO - Bench大赛,让AI运营虚拟SaaS初创公司500天。14位“硅基CEO”参赛,仅4个保住本金,Fable 5以4715万美元夺冠,这场比赛揭示了AI在商业运营中的潜力与局限。】
此次人工智能CEO大赛,启动状态为公司拥有本金100万美金且零客户,游戏目标是在500天模拟周期内尽可能多赚钱,评判标准是游戏结束时账上剩余金额,中途余额跌破零则宣告破产。
核心是一个包含34个工具、19张数据库表的Python API,AI接入后可写代码、用SQL查询数据库并动态调整工作流。但博弈环境复杂,AI需自行决定定价策略、广告投放渠道等诸多事项,还面临着回报延迟、关键变量隐式存在、外部环境动态变化等「地狱级」难度的长程决策挑战。
比赛结果惨烈,14位参赛选手中,GLM 5.1等五位中道崩殂,未能完赛。仅有3个模型跑出正收益,冠军Fable 5赚得4715万美元,给本金翻了整整47倍,断层领先第二名Opus 4.8。值得注意的是,排在第四名的是个纯rule - based的启发式算法,赚了1576万美金,超过了众多模型。
从比赛过程中提炼出两个核心要点。一是探索>谨慎,GPT - 5.5和Claude Opus 4.8会不断尝试新策略,而Claude Opus 4.7采取保守打法,虽能存活却无法盈利,说明在商业世界中积极探索更为重要。
二是研究还提炼了发现隐藏信息、预测未来、快速适应变化、提前规划四项关键能力维度,Opus 4.8和GPT - 5.5在这四个维度上高于其余模型的平均线。
研究员用Claude Code跑Opus 4.7,用Codex跑GPT - 5.5,结果两位选手表现大幅下降。原因可能是编程Agent的系统提示词是为软件开发场景优化的,套在CEO角色上成了束缚。这表明不同行业需要特定的Harness框架和垂直场景的深度适配,为模型厂商创造了新的增量空间。
编辑观点:此次AI运营公司比赛展现了AI的潜力与不足,虽有模型表现出色,但在复杂商业决策中仍有局限,未来AI需在垂直场景适配等方面深入发展。