当前位置: 首页 > news >正文

Cognition发布FrontierCode:突破现有局限,精准衡量AI代码“可合并性”

【导语:当AI编程模型代码正确性不再是难题,衡量代码“质量”成新焦点。Cognition发布FrontierCode评测基准,与现有基准不同,聚焦代码是否能被维护者合并,为AI编程能力评估带来新变革。】


FrontierCode:聚焦代码“可合并性”评测

当AI编程模型的代码正确性不再是问题,如何衡量代码“质量”成为新焦点。Cognition发布的FrontierCode,是专门衡量AI模型能否写出达到生产合并标准代码的评测基准。它与现有编程评测基准不同,不评估“代码对不对”,而是关注“维护者会不会真的合并这个PR”。

现有基准局限性凸显

当前主流编程评测基准如SWE - Bench Verified和Pro,设计针对能力较弱阶段的模型,存在明显局限性。它们只验证代码的功能正确性,不验证代码质量,且误分类错误率较高,即通过测试的代码补丁未必能被人类维护者真正接受。METR实验证实,许多在现有基准上高分的模型,生成的补丁在实际代码审核中会被拒绝。

FrontierCode的创新解决思路

FrontierCode与开源社区顶级维护者合作,36个旗舰开源项目的维护者参与任务构建,每人花在每个任务上的时间超过40小时。他们定义了各自代码仓库中“可合并”的具体标准,并将这些标准转化为评分规则。

评分维度涵盖行为正确性、回归安全性、机械清洁度、测试质量、代码范围以及代码质量等方面。为解决测试覆盖不足问题,引入“反向经典测试”机制,确保测试的有效性;还引入“自适应经典评分”方法,对多样化解法进行严格而确定的测试。

各模型在FrontierCode下的表现

FrontierCode共包含150个任务,分为三个难度子集。目前最佳模型Claude Opus 4.8在最难的Diamond子集上仅得分13.4%,GPT - 5.5得6.3%,Gemini 3.1 Pro得4.7%,开源模型中表现最好的Kimi K2.6在Diamond上仅得3.8%,这表明即使是当前最强大的模型,在这项新标准下仍有巨大提升空间。

FrontierCode:准确排名推动能力突破

Cognition表示,FrontierCode的评分误差比SWE - Bench Pro低81%,是目前最准确的模型能力排名。为防止任务污染,Cognition不打算公开任务内容,而是向所有模型开发者开放评测服务,希望推动前沿编程能力的进一步突破。

编辑观点:FrontierCode的出现弥补了现有编程评测基准的不足,为AI模型生成代码的质量评估提供了更精准的标准,有望推动AI编程能力迈向新高度。

http://www.rkmt.cn/news/1495267.html

相关文章:

  • 图论建模入门:把‘放黄油’问题变成最短路径,手把手教你解决信息学奥赛典型题
  • 明日方舟自动助手:告别重复操作,解放你的游戏时间
  • 从电路原理到电力电子技术-零基础设计开关电源(理论基础+仿真+设计)(一)
  • 依托正规认证与地理标志授权,众德怀药赋能富硒山药粉产品代工 - GrowthUME
  • 湘潭好吃的麻辣烫是哪家?本地人实测,人气与口味双料第一推荐 - 信息热点
  • NJU OS C 标准库原理
  • 靠谱的 ozon 新手选品排名拆解!干货选品公式 + 实操落地,小白照着榜单选品轻松稳出单
  • 华硕笔记本性能优化终极指南:用G-Helper轻松掌控你的ROG设备
  • AI搜索平台引用源权重实测:豆包/通义/文心/DeepSeek的内容偏好差异
  • 3步掌握智能资源嗅探:浏览器扩展完全操作指南
  • UV浮雕打印生产制作全流程揭秘:加工关键环节与技巧解析 - GrowthUME
  • Highcharts V13新功能解读|自动模块加载Autoload-图表开发的自检助手
  • Paperxie|知网维普 AIGC 双重围剿下,论文双指标优化解决方案
  • 苏州鑫鑫迷你仓|苏州短期仓库灵活租赁,日租月租按需寄存 - GrowthUME
  • [实战] 2026年数字化环境下的QC七大工具应用:从工程图纸到检验计划优化
  • 对比实测|湘潭好吃的麻辣烫推荐,老牌vs新晋,谁才是真顶流? - 信息热点
  • “给钱都不坐!”训练特斯拉FSD的人曝内幕:9人受访7人拒乘,“千万别信马斯克”
  • CSP-J 2022 初赛补全代码题解析
  • NJU OS 调试 C 标准库
  • NXP Kinetis K40系列MCU实战解析:Cortex-M4内核、低功耗与高集成度设计
  • ppt模板_0082_灰绿圆圈
  • SLAM 岗位 C++ 面试速查手册
  • 光学实验室必备技能:离线环境下用MetroPro和命令行生成Zemax兼容的zxg文件
  • 用树莓派4B搭建Matter智能家居中枢:从刷写Ubuntu Server到运行chip-tool全记录
  • Kinetis K64引脚配置与选型实战:从数据手册到硬件设计
  • 计算机网络(4) -- http协议
  • 护网必学日志分析
  • 2026桥梁工程公司实力榜:木桥以“诚信筑基”领跑行业,六家高潜力本土品牌深度解析 - 品牌发掘
  • 8 套毕业论文降重降 AIGC 工具实测对比,平衡双检测不翻车
  • 终极歌词获取指南:如何快速免费下载网易云和QQ音乐LRC歌词