当前位置: 首页 > news >正文

Token烧不起了?比肩Claude Opus 4.6免费模型来了,还将开源

养虾、养马、养人(OpenHuman)、养电子宠物,Token都快掏空钱包了。

连微软都宣告,Claude的Token烧不起了。

别急,比肩Claude Opus 4.6的 Agent(智能体)免费大模型来了。

昆仑万维旗下的天工 AI(Skywork)发布了 SkyClaw-v1.0,一个为 Agent 场景深度优化的模型。

现在免费试用,而且试用过后将开源。

即使不免费,价格也打穿地板。百万上下文窗口,输入价格最低 0.3 元/百万 token。

性能超越同级别开源对手,逼近闭源巨头。

实战如何

官方强烈推荐将 SkyClaw-v1.0 模型作为 Hermes, Claude Code 和 Codex 等智能体框架的大脑来使用,而不是标准的聊天模型。

搭配智能体框架使用,直接自然语言提示,就能完成 APP 开发。

比如下面这个航班和旅行预订 APP,就是 SkyClaw-v1.0 构建的,搜索、结果浏览、预订和行程规划视图都非常完整。

还有这类似小红书的 APP,非常完美

交互网页与游戏设计也是一把好手。

比如带有图表、股票列表、提示板和新闻布局的交互式金融市场分析终端。

直接上手就能玩的超级玛丽。

深度研究和数据可视化也非常在行。

比如写一份中国新能源汽车市场报告,市场份额和定价分析等综合到仪表板中。

硬核跑分

SkyClaw-v1.0 是为主流 Agent 环境打造的高性能模型,重点适配 OpenClaw、Hermes、Nanobot 这类智能体框架。

SkyClaw-v1.0 和 SkyClaw-v1.0-lite 与 DeepSeek V4 Flash、MiniMax M2.7、Qwen 3.6 27B、DeepSeek V4 Pro 在 6 个 Agent 基准上的对比:

在 PinchBench-v2 上,SkyClaw-v1.0 拿到 87.2 分。Claw-Eval 的 Pass^3 稳定性测试得分 59.7,平均分 74.2。

Pass^3 是个值得多聊两句的指标,它要求模型连续三次执行同一任务都成功,能力之外,更考验稳定性。智能体场景里,一次跑通不算本事,次次跑通才算靠谱。

Skywork 自研的 Skywork-Claw-Bench 得分 62.9。

横向对比,SkyClaw-v1.0 在这些 Agent 基准上全面超过 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 的 35B A3B 及 27B 版本。

在 OpenClaw 相关任务上,它的表现接近体积大得多的闭源模型,包括 DeepSeek V4 Pro、Claude Opus 4.6 和 Qwen 3.6 Plus。

SkyClaw-v1.0 用更小的体量、更低的成本,做到了接近的成绩,性价比的优势非常明显。

SkyClaw-v1.0-lite 轻量版速度更快、价格更低,但继承了不错的智能体能力,比如性能依然优于 Minimax 2.7。

对成本敏感的基础 Agent 任务,lite 版是个实惠选择。两个版本可搭配使用,旗舰版啃硬骨头,lite 版跑高频轻任务。

代码任务评估上,SkyClaw-v1.0 同样有显著提升。智能体场景中,代码生成和工具调用往往是绑定的,能写对代码、能调对工具,两个能力缺一不可,SkyClaw 在这两条腿上都站得稳。

训练三板斧

模型性能从哪来?SkyClaw-v1.0 的训练围绕三个核心环节展开:环境构建、高质量数据合成、端到端强化学习。

搭环境是起点。

团队基于 OpenClaw 构建了一个高复杂度的训练模拟环境,配备了常用的高质量工具和技能,让模型在训练阶段就能探索和利用这些工具。

光有工具还不够,他们还分析了 OpenClaw 类环境中的真实用户任务,结合高频在线技能的使用统计和反馈,画出了一张工具之间的关系图。有的工具经常被组合调用,有的工具之间存在前后依赖,这些关系都被建模进来。

有了这张图,就能合成出更贴近真实用户需求的复杂任务。训练数据越像真实场景,模型的实战能力就越扎实。

数据合成做 SFT(监督微调)是关键一环。

在验证过的 OpenClaw 环境上,团队合成了大量针对中期训练和 SFT 的训练数据。

数据质量把控很严,不只看最终答案对不对,还要审查整个求解过程中每一步动作的质量。一条轨迹,答案对了但过程歪七扭八,照样淘汰。

团队还做了一系列数据混合实验,找到 Agent 任务训练数据的最优配比,这活儿看着枯燥,实际上直接决定了模型的上限。

端到端的 Agent RL(强化学习)收尾。

天工自建的 OpenClaw 环境天然支持探索和强化学习训练,不用额外搭桥铺路。端到端的智能体 RL 训练,进一步提升了模型在通用 Agent 任务上的泛化能力和稳定性。

强化学习的价值在于,模型不光学会了解题,还学会了在各种意外情况下保持镇定,该回退回退,该重试重试,不掉链子。

相比只靠 SFT 的模型,经过 RL 打磨的 SkyClaw-v1.0 在面对分布外任务时更从容,出错率更低,这对生产环境的可靠性至关重要。

三个环节走完,SkyClaw-v1.0 在主流 OpenClaw 类环境任务上表现突出,跨不同 Agent Harness(智能体框架)的泛化能力也同步增强。

训练中对环境的深耕,让模型换个框架照样能打。

SkyClaw-v1.0 通过 apifree.ai 提供服务,API 接口与 OpenAI 兼容,换行改个 base_url 就能跑起来。百万 token 的上下文窗口,适合长链路的 Agent 工作流。

天工团队特别强调了一点:SkyClaw-v1.0 的最佳使用方式是嵌入 Agent 框架,比如 Hermes、Claude Code 或 Codex,让模型在框架内完成规划、编辑、测试、迭代的完整工作流。

赶紧给你的虾、马换上 SkyClaw-v1.0 免费大脑,试试效果如何。

参考资料:

https://skyworkai.github.io/skyclaw/

https://www.apifree.ai/model/skywork-ai/skyclaw-v1?tab=info

https://github.com/SkyworkAI/skyclaw

http://www.rkmt.cn/news/1402590.html

相关文章:

  • 华硕笔记本性能管理终极指南:GHelper轻量控制工具完全教程
  • 软判决与置信度驱动:RIS辅助毫米波波束训练新方法
  • 2026新疆高评分持证导游TOP8榜单全维度纯玩|全年零投诉权威汇总 - 必辉旅行
  • 多模型聚合平台如何帮助团队清晰掌控API使用成本
  • 基于交互分析的作战场景过程建模:从FBS框架到Petri网验证
  • CMake编译参数设置避坑指南:add_compile_options和CMAKE_CXX_FLAGS到底用哪个?
  • OBS多平台直播解决方案:obs-multi-rtmp插件实现高效一键同步推流
  • 2026年东莞电动阀品牌推荐榜:电动二通阀/电动迷你球阀/断电复位,精准温控与稳定品质优选 - 企业推荐官【官方】
  • Mask2Former图像分割避坑指南:从ViT特征提取到Dice损失调参的全流程解析
  • 基于Postman的Redfish接口自动化测试实战
  • 3步掌握LeagueAkari:从LCU API到自动化对局管理的完整实践指南
  • 英文论文降AI只靠换词?错!亲测3种进阶方法,Turnitin从80%降至10%(附工具测评)
  • 2026南通市本地人必选的公共卫生检测专业机构TOP5推荐!美容院、足疗店、酒店宾馆卫生检测、许可证办理,正规CMA资质检测公司排名推荐 (2026年5月商铺卫生办证最新深度调研方案) - 防水补漏3
  • ARM NEON SIMD技术:VMLSL与VMOV指令深度解析与优化实践
  • 生成式引擎优化的6个深坑:我踩过的和你正在踩的
  • 5分钟终极指南:Mermaid Live Editor免费在线图表编辑器完整使用教程
  • 2026年4月镀锌管采购攻略:精选厂家一览,20#无缝钢管/薄壁精密钢管/异型管/厚壁无缝钢管/方管,镀锌管公司推荐 - 品牌推荐师
  • 天龙八部单机版GM工具:专业游戏数据管理解决方案
  • MLCRP:基于重用距离谱与机器学习的GPU缓存性能快速建模
  • 从‘ANOVA’到‘Z-score’:用贾俊平《统计学》第七版词汇解锁你的第一个Kaggle数据分析项目
  • 从‘unwrap’函数到三维点云:Matlab四步相移条纹三维重建全流程拆解
  • MIT与斯坦福联手打造“地图导航仪“
  • 如何使用革命性开源工具5分钟快速获取PDF电子课本:智能解析下载终极指南
  • 基于TF-IDF与LightGBM的轻量级钓鱼邮件检测实战
  • 运营矩阵系统实战指南:从“人管号“到“系统管号“的效率跃迁
  • JavaQuestPlayer:一站式解决QSP游戏运行与开发的终极指南
  • 【他山之石】《蛤蟆先生去看心理医生》导读
  • JiYuTrainer:极域电子教室反控制终极指南与完整技术解析
  • 导师严选!盘点2026年最受欢迎的的降AIGC软件
  • novel-downloader:如何用开源工具永久保存你的数字阅读资产?