上周二晚上刷 GitHub trending 的时候,看到 Qwen 发了个新项目。
名字叫 Qwen-AgentWorld。
点进去看了一眼,我整个人愣了好一会儿。
不是因为这是个新模型,而是因为这个模型做的事情,跟所有现有模型都不一样。
它不是聊天模型。不是推理模型。不是代码模型。不是 Agent 模型。
它是一个Language World Model,语言世界模型。
翻译成大白话就是,你给它一个智能体的当前状态和一个动作,它会预测环境下一步会返回什么。
你给它「在 Terminal 里敲了ls」,它告诉你终端会输出什么。你给它「搜索了某个关键词」,它告诉你搜索引擎会返回哪几条结果、URL 长什么样、排名怎么排。你给它「在 Android 上点击了某个按钮」,它告诉你 UI 层级树会怎么变。
它在模拟世界。
看完之后我第一个念头就是,这东西能不能在 LlamaFactory 里直接跑起来?
于是我提了个 PR。
一个只有 13 行的 PR
PR #10615 在 LlamaFactory 里做的事情,非常非常简单。
就是在constants.py里加了一个模型注册:
# Qwen-AgentWorld,基于 Qwen3.5-35B-A3B 构建的语言世界模型# MoE 架构,总参数 35B,激活参数仅 3B,支持 256K 上下文# 参考仓库,https,//github.com/QwenLM/Qwen-AgentWorldregister_model_group(models={# 模型名称,后缀 -Thinking 会自动绑定推理模板"Qwen-AgentWorld-35B-A3B-Thinking",{# 支持 HuggingFace 和 ModelScope 两个下载源DownloadSource.DEFAULT,"Qwen/Qwen-AgentWorld-35B-A3B",DownloadSource.MODELSCOPE,"Qwen/Qwen-AgentWorld-35B-A3B",},},# 复用已有的 qwen3 聊天模板,推理时用 --reasoning-parser qwen3# 不需要新增模板,因为模型共享 Qwen3 的标准聊天格式template="qwen3",)13 行代码,加了一个模型。
但你想想,这 13 行代码背后是什么?
它意味着你现在可以在 LlamaFactory 里,一键微调一个能模拟七个智能体交互领域的 AI 世界模型。
而且最离谱的是,它只有 3B 激活参数。3B。我笔记本上的 GPU 都能跑。
但这还不是最让我震撼的。
最让我震撼的是,我仔细读了一遍论文之后发现,这个模型在模拟环境这件事上,干掉了 GPT-5.4。
什么是语言世界模型?AI 学会了「预知未来」
在往下聊之前,我得先把「语言世界模型」这个概念讲清楚。
你想想传统的 AI 模型是怎么训练的。
大语言模型,训练目标是「预测下一个 token」。你给它前半句话,它预测后半句。
Agent 模型,训练目标是「给定状态,选择正确的动作」。你给它一个环境状态,它决定下一步该做什么。
但没有任何一个语言模型,被训练成去预测「环境接下来会怎样」。
这就是 Qwen-AgentWorld 做的事情。
它的训练目标是一个数学公式,论文里是这么写的。
o ^ t + 1 = f θ ( c , o ≤ t , a ≤ t ) \hat{o}_{t+1} = f_\theta(c, o_{\leq t}, a_{\leq t})o^t+1=fθ(c,o≤t,a≤t