尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

大模型榜单周报(2025/12/27)

大模型榜单周报(2025/12/27)
📅 发布时间:2026/6/19 12:44:28

1. 本周概览

本周大模型领域持续涌现创新成果,数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5,在国际数学奥林匹克竞赛中取得金牌线成绩,而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高,北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。

2. 重点关注事件

  • 字节发布数学模型Seed Prover 1.5,在16.5小时内解决IMO 2025前5道题目,失一题获得35分达到金牌线;在北美本科级别数学竞赛Putnam上大幅刷新SOTA成绩
  • 智谱AI开源GLM-4.7,在AIME 25和人类最后考试(HLE)等基准中分数超GPT-5.1;SWE-Bench分数达73.8%(+5.8%),创开源新高
  • MiniMax发布旗舰级Coding & Agent模型M2.1,在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩,超越Claude Sonnet 4.5等顶尖竞品,拿下全球SOTA
  • 北航提出代码大模型的Scaling Laws,建立区分语言特性的Scaling Laws,并提出数学可解的最优数据配比方案,覆盖0.2B到14B参数规模及高达1T训练数据量,对七种主流语言进行系统性解构

3. 榜单变化

  • OpenRouter模型调用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晋第4名;Gemini 3 Flash Preview新晋第6名;编程调用量方面,Grok Code Fast 1保持第1,KAT-Coder-Pro V1 (free)上升3名至第3,GPT-5.2下降5名至第7位
  • OpenRouter公司市占率:Google保持第1;xAI、Anthropic紧随其后;OpenAI市占率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份额上升1.8%(7.8% → 9.6%)保持第5名;小米份额占比7.0%,位列第7
  • 大语言模型(Text Arena):gemini-3-flash刷新成绩,超过Grok 4.1 thinking位列第2;ernie-5.0-preview-1203新晋第13名,超过gpt-5.2(评分基于预发布测试)
  • 编程能力榜单(WebDev Arena):glm-4.7新晋第6名,紧跟gemini-3-flash之后(评分基于预发布测试)
  • 编程能力榜单(LiveCodeBench GSO Leaderboard):Gemini-3-Flash新晋第8名,排名在O4-mini之后
  • 图像编辑能力(Artificial Analysis Image Editing Leaderboard):Reve V1新晋第8名,排名在Flux 2 Pro之后
  • 文生图榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview超过Imagen 4 Preview位列第10名
  • 前沿数学能力(EPOCH AI FrontierMath):DeepSeek-V3.2以22.1%得分超过Kimi K2 Thinking位列第14名
  • GAIA榜单:SU Zero-Shuqian Series Pro MAX新晋榜首

4. OpenRouter排行榜

测评类型 第一名 第二名 第三名
模型调用量 Grok Code Fast 1 Claude Sonnet 4.5 Gemini 2.5 Flash
公司市占率 Google xAI Anthropic
编程模型调用量 Grok Code Fast 1 GPT-5.2 Claude Sonnet 4.5

各公司按不同能力领域排名汇总

测评类型 领先公司
大语言模型 Text Arena Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArena Anthropic、OpenAI、Google
编程能力 LiveCodeBench OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena OpenAI、Google、字节、Reve
文生图能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing Leaderboard OpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字节
GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic
GAIA Microsoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等

关注我,第一时间掌握更多AI前沿资讯!

相关新闻

  • 数字人驱动技术:TensorFlow面部关键点检测
  • 探索激光世界的优质学习指南
  • 3步搞定Apache Doris地理信息查询:从入门到实战的终极指南

最新新闻

  • 2026苏州建筑防水修缮服务适配指南:3家值得关注的本地服务商深度解析 专业防水公司排名推荐(2026年6月防水补漏最新TOP权威排名) - 鼎壹万修缮说
  • 杭州靠谱收金商户白名单推荐,全城上门验金称重钱款当场结清 - 奢品小当家
  • Halcon 纹理滤波实战:texture_laws算子参数组合与卷积核尺寸的协同优化策略
  • 昆明全品类贵金属回收指南,金价实时更新,线下靠谱门店汇总清单 - 奢侈品回收评测
  • 沪上贵金属变现干货汇总:2026 五大黄金回收连锁门店全维度评测 - 奢侈品回收测评
  • 从零开发Java面试刷题作战APP:架构重构、模块闭环、技术栈选型全方案

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号