当前位置：首页 > news >正文

新范式思维增强Qwen3-235B-A22B-Thinking-2507-FP8：3个月持续进化

news 2026/6/13 10:07:19

新范式思维增强Qwen3-235B-A22B-Thinking-2507-FP8：3个月持续进化

【免费下载链接】Qwen3-235B-A22B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

Qwen3-235B-A22B-Thinking-2507-FP8是一款经过3个月持续进化的思维增强型大语言模型，专为复杂推理任务设计。作为Qwen3系列的重要成员，该模型在保持高效性能的同时，通过FP8量化技术实现了资源优化，成为开源社区中推理能力领先的思维模型之一。

🌟 核心进化亮点

过去三个月，Qwen3-235B-A22B的思维能力实现了跨越式提升，主要体现在三个维度：

🧠 推理能力全面升级

多领域突破：在逻辑推理、数学问题、科学研究、代码生成等需要深度思考的任务上性能显著提升，多项指标达到开源思维模型的领先水平
复杂问题解决：特别优化了学术基准测试表现，能够处理需要人类专家级知识的挑战
思维链延长：支持更长的思考过程，默认配置下可生成更详尽的推理步骤

🚀 通用能力显著增强

指令遵循：对复杂指令的理解和执行精度提升
工具使用：与外部工具的协作能力优化，支持更复杂的任务流程
文本生成：内容质量和连贯性提高，更符合人类偏好
长上下文理解：原生支持262,144 tokens（约20万字）的超长文本处理，比上一代提升显著

💾 FP8量化技术优势

通过精细的FP8量化（块大小128），在保持模型性能的同时：

降低存储需求，模型文件更易于管理和部署
减少计算资源消耗，提升推理速度
兼容主流推理框架，包括transformers、sglang和vllm

📊 性能表现解析

Qwen3-235B-A22B-Thinking-2507-FP8在各项基准测试中表现出色，特别是在需要深度思考的任务上：

🔬 推理能力测试

数学竞赛：AIME25测试中达到92.3分，接近OpenAI O4-mini的92.7分
科学推理：HMMT25测试以83.9分位居榜首，超过Gemini-2.5 Pro的82.5分
复杂问题：SuperGPQA测试获得64.9分，排名第一

💻 代码生成能力

LiveCodeBench v6：以74.1分的成绩领先所有参测模型
CFEval：获得2134分，超越Deepseek-R1-0528的2099分
编程挑战：在需要多步骤思考的编程任务中表现突出

🌐 多语言能力

MultiIF：以80.6分排名第一
PolyMATH：获得60.1分，领先第二名5.4分
跨语言理解：在多语言推理任务中保持高水平表现

🚀 快速开始指南

环境准备

确保安装最新版本的transformers库（4.51.0及以上）：

pip install transformers>=4.51.0

模型获取

git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

基础使用示例

from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507-FP8" # 加载tokenizer和模型 tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto" ) # 准备输入 prompt = "请详细解释大语言模型的工作原理" messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) model_inputs = tokenizer([text], return_tensors="pt").to(model.device) # 生成内容 generated_ids = model.generate( **model_inputs, max_new_tokens=32768 ) output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # 解析思考内容和最终回答 try: index = len(output_ids) - output_ids[::-1].index(151668) # 寻找思考结束标记 except ValueError: index = 0 thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n") content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n") print("思考过程:", thinking_content) print("最终回答:", content)

部署选项

使用SGLang部署

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 --tp 4 --context-length 262144 --reasoning-parser deepseek-r1

使用vLLM部署

vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 --tensor-parallel-size 4 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1

💡 最佳实践技巧

参数设置建议

为获得最佳性能，推荐以下参数组合：

温度(Temperature)：0.6
TopP：0.95
TopK：20
输出长度：普通任务32,768 tokens，复杂任务（如数学竞赛）建议81,920 tokens

提示词工程

数学问题：加入"请逐步推理，并将最终答案放在\boxed{}中。"
选择题：指定JSON输出格式，如"请在answer字段中仅用选项字母表示您的选择，例如："answer": "C"。"
复杂推理：明确要求模型展示思考过程，如"请详细展示您的思考步骤，然后给出最终结论。"

多轮对话注意事项

在多轮对话中，历史记录应只包含最终输出部分，不需要包含思考内容。聊天模板已默认实现此功能，但使用不支持Jinja2模板的框架时需手动处理。

🤖 智能体应用

Qwen3-235B-A22B-Thinking-2507-FP8在工具调用方面表现出色，推荐使用Qwen-Agent来充分发挥其智能体能力。以下是基本使用示例：

from qwen_agent.agents import Assistant # 定义LLM配置 llm_cfg = { 'model': 'Qwen3-235B-A22B-Thinking-2507', 'model_server': 'http://localhost:8000/v1', # 本地部署的API端点 'api_key': 'EMPTY', 'generate_cfg': { 'thought_in_content': True, }, } # 定义可用工具 tools = [ {'mcpServers': { # MCP服务器配置 'time': { 'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai'] }, "fetch": { "command": "uvx", "args": ["mcp-server-fetch"] } } }, 'code_interpreter', # 内置代码解释器 ] # 创建智能体 bot = Assistant(llm=llm_cfg, function_list=tools) # 流式生成响应 messages = [{'role': 'user', 'content': '分析最新的Qwen发展动态并生成报告'}] for responses in bot.run(messages=messages): pass print(responses)

📄 模型配置详情

Qwen3-235B-A22B-Thinking-2507-FP8的核心配置参数：

模型类型：Qwen3MoeForCausalLM（混合专家模型）
总参数：2350亿，激活参数220亿
隐藏层大小：4096
注意力头数：64（查询头），4（键值头）
专家数量：128，每token激活8个专家
层数：94
上下文长度：262,144 tokens
量化方式：FP8，块大小128
分词器词汇量：151,936

详细配置可参考config.json文件。

📚 资源与引用

如需了解更多技术细节，可参考以下资源：

技术报告：Qwen3 Technical Report (arXiv:2505.09388)
官方文档：Documentation
GitHub仓库：GitHub

如果您的工作受益于Qwen3，请考虑引用：

@misc{qwen3technicalreport, title={Qwen3 Technical Report}, author={Qwen Team}, year={2025}, eprint={2505.09388}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.09388}, }

Qwen3-235B-A22B-Thinking-2507-FP8代表了开源大语言模型在思维能力上的重要进步，为研究人员和开发者提供了一个强大而高效的工具，助力解决更复杂的问题。随着持续进化，我们期待看到它在更多领域发挥价值！

【免费下载链接】Qwen3-235B-A22B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.rkmt.cn/news/1428468.html