大模型榜单周报（2025/12/27）-尧图网站建设

📅 发布时间：2026/6/19 12:44:28

1. 本周概览

本周大模型领域持续涌现创新成果，数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5，在国际数学奥林匹克竞赛中取得金牌线成绩，而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高，北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。

2. 重点关注事件

字节发布数学模型Seed Prover 1.5，在16.5小时内解决IMO 2025前5道题目，失一题获得35分达到金牌线；在北美本科级别数学竞赛Putnam上大幅刷新SOTA成绩
智谱AI开源GLM-4.7，在AIME 25和人类最后考试（HLE）等基准中分数超GPT-5.1；SWE-Bench分数达73.8%（+5.8%），创开源新高
MiniMax发布旗舰级Coding & Agent模型M2.1，在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩，超越Claude Sonnet 4.5等顶尖竞品，拿下全球SOTA
北航提出代码大模型的Scaling Laws，建立区分语言特性的Scaling Laws，并提出数学可解的最优数据配比方案，覆盖0.2B到14B参数规模及高达1T训练数据量，对七种主流语言进行系统性解构

3. 榜单变化

OpenRouter模型调用量：Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三；小米MiMo-V2-Flash (free)新晋第4名；Gemini 3 Flash Preview新晋第6名；编程调用量方面，Grok Code Fast 1保持第1，KAT-Coder-Pro V1 (free)上升3名至第3，GPT-5.2下降5名至第7位
OpenRouter公司市占率：Google保持第1；xAI、Anthropic紧随其后；OpenAI市占率下降7.2%（17.7% → 10.5%）至第4位；DeepSeek份额上升1.8%（7.8% → 9.6%）保持第5名；小米份额占比7.0%，位列第7
大语言模型（Text Arena）：gemini-3-flash刷新成绩，超过Grok 4.1 thinking位列第2；ernie-5.0-preview-1203新晋第13名，超过gpt-5.2（评分基于预发布测试）
编程能力榜单（WebDev Arena）：glm-4.7新晋第6名，紧跟gemini-3-flash之后（评分基于预发布测试）
编程能力榜单（LiveCodeBench GSO Leaderboard）：Gemini-3-Flash新晋第8名，排名在O4-mini之后
图像编辑能力（Artificial Analysis Image Editing Leaderboard）：Reve V1新晋第8名，排名在Flux 2 Pro之后
文生图榜单（Artificial Analysis Text to Image Leaderboard）：ImagineArt 1.5 Preview超过Imagen 4 Preview位列第10名
前沿数学能力（EPOCH AI FrontierMath）：DeepSeek-V3.2以22.1%得分超过Kimi K2 Thinking位列第14名
GAIA榜单：SU Zero-Shuqian Series Pro MAX新晋榜首

4. OpenRouter排行榜

测评类型	第一名	第二名	第三名
模型调用量	Grok Code Fast 1	Claude Sonnet 4.5	Gemini 2.5 Flash
公司市占率	Google	xAI	Anthropic
编程模型调用量	Grok Code Fast 1	GPT-5.2	Claude Sonnet 4.5

各公司按不同能力领域排名汇总

测评类型	领先公司
大语言模型 Text Arena	Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArena	Anthropic、OpenAI、Google
编程能力 LiveCodeBench	OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite	基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena	OpenAI、Google、字节、Reve
文生图能力 Text-to-Image Arena	OpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing Leaderboard	OpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image Leaderboard	OpenAI、Google、Black Forest Labs、字节
GPQA	OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath	OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam	Google、OpenAI、Anthropic
GAIA	Microsoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等

关注我，第一时间掌握更多AI前沿资讯！