当前位置: 首页 > news >正文

VLA未死但需成长,具身智能数据工厂战争谁能笑到最后?

具身智能VLA的翻车现状

2026年5月,具身智能圈子流传一个杜撰笑话:VLA模型演示时,被要求“把桌上那个苹果拿给我”,机械臂却抓住马克杯,现场死寂,工程师赶紧“重新定义苹果”。过去半年,类似翻车笑话很多,国内独角兽及大洋彼岸的Figure AI、Physical Intelligence都未能幸免。前两年,行业为VLA技术路线摇旗呐喊,Covariant的RFM - 1露面时,媒体想扣“通用机器人奇点”帽子;谷歌DeepMind的RT - 2论文一出,二级市场分析师提前具身智能商业化时间表。但现在,没人再提“奇点”,大家关心它能否在工厂正常工作,英伟达Jim Fan高呼“VLA已死”,不过这话可能太早。

活在互联网里的“缸中大脑”

要理解VLA为何频频翻车,需了解其基因缺陷。现在主流VLA架构,如谷歌的RT - 2和国内星尘智能等公司的,逻辑一脉相承。先用互联网海量图文数据对齐视觉和语言,让模型看懂图、听懂人话,再接入机器人动作数据做端到端微调,输出动作指令。这套打法“省钱”,试图复用基础设施,把机器人学习变成“轻量化”微调任务,投资人爱听。但互联网数据有局限,只教会模型“苹果是红色圆形物体”,没教会“苹果受力会形变滚开”。互联网视频剪辑后充满跳跃,VLA学到的是“伪物理”,面对新物体组合或精细力控场景,泛化能力下降。Physical Intelligence论文显示,扩大模型规模、灌入更多网络图片,对物理交互预测能力提升有限。所以VLA演示像精心排练的魔术,只能在特定条件下看到机器人流畅抓取,改变背景或放入特殊物体,其“缸中大脑”本质就暴露,它只知答案不知过程。

世界模型:唯一的解药

“世界模型”热度高,Yann LeCun和英伟达黄仁勋都提及。在具身智能中,它被寄予厚望,但一些团队做法简单粗暴,在VLA输出端套壳物理仿真引擎“修正”动作,这只是打补丁。真正的融合核心是内在化,强大的世界模型应是VLA的“潜意识”和“直觉模块”,在决策前快速推演物理变化,约束和指导动作生成。李飞飞团队的RoboAgent工作等新尝试,让模型学习动作时预测下一帧相关内容,建构内部物理表征。当模型能准确预测物理变化,抓取动作才会更合理。前景可见,机器人公司开始融合VLA和世界模型,Jim Fan喊出的“WAM万岁”本质也是这种组合,未来具身智能公司会在技术白皮书中体现相关概念。

数据工厂的沉默战争

争论VLA和世界模型的问题,最终都回归到数据。头部人形机器人公司数据采集人员表示,头疼的是让标注员不打瞌睡,采集高质量操作数据困难,老工程师操作有问题,真正能喂给模型的数据不到10%。要让VLA + 世界模型学会泡咖啡,需要多种物理交互数据,互联网图文数据库无法提供。这是一场数据工厂战争,特斯拉Optimus团队迁移自动驾驶数据体系,形成自我造血的数据飞轮。国内多数机器人公司用“堆人”模式,数据质量差、成本高。这导致VLA + 世界模型技术路线虽成共识,但技术壁垒会转移到数据工厂规模和效率上。未来竞争分层,最高层是构建“物理世界基础模型”的公司,中间层是有高效私有数据工厂的机器人公司,没有高效数据工厂的公司会处于劣势。数据是VLA最终能用的唯一弹药,Physical Intelligence疯狂签合作协议,就是为获取物理交互数据。具身智能的Uber时刻虽未到,但已在倒计时。

结语

VLA没死,它要从互联网温室进入物理世界,长出世界模型理解物理因果。这取决于数据工厂的工作,具身智能宏大叙事落幕,工程战刚刚开场。

http://www.rkmt.cn/news/1452644.html

相关文章:

  • 杰理之清除TWS配对的功能(恢复出厂设置)【篇】
  • GBase 8a MPP Cluster数据库之虚拟集群技术解析
  • python新手福音:用快马ai生成你的第一个pycharm风格实战项目
  • 构建可解释AI:从SHAP、LIME到模型公平性的工程实践
  • 不止是解析工具:用GROBID+Python构建你的学术PDF信息自动提取流水线
  • Python写的汽车UDS诊断工具库,支持CAN通信、ISO-14229服务和J2534硬件
  • 3分钟让你的Windows右键菜单秒开如飞!ContextMenuManager完全使用指南
  • 保姆级教程:在Ubuntu 22.04上从源码编译FLEXPART-WRF(含依赖库避坑指南)
  • 聚丙烯阻燃剂技术解析与济南合规厂家选型参考 - 奔跑123
  • 开放维修数据标准 ORDS:助力小型电气和电子产品维修数据整合
  • 放弃传统图传?用OpenIPC+WFB-NG+RTL8812AU打造百元级开源高清FPV方案实战
  • 怀化市全品类贵金属黄金回收白银回收门店推荐 2026年最新黄金回收门店口碑排行榜+联系方式 - 前途无量YY
  • 别再只盯着RMSE了!用sklearn的mean_absolute_error评估模型,这份避坑指南请收好
  • FunASR实战:如何用Python给会议录音自动加标点和分段?
  • 2026 台北国际电脑展开幕,英伟达、英特尔等科技巨头发布多款新品
  • 别再被AI培训割韭菜了!从战略到变现,老板必知的AI智能体应用部署4大内幕
  • 淮北市全品类贵金属黄金回收白银回收门店推荐 2026年最新黄金回收门店口碑排行榜+联系方式 - 前途无量YY
  • 告别手抖废片:用DeblurGAN-v2的MobileNet-DSC版,手机也能实时搞定图像去模糊
  • 7-Zip-zstd终极指南:让文件压缩速度提升300%的智能解决方案
  • 零基础入门计算机网络:一文搞懂体系结构与分层思想
  • 别再手动画圆了!用Arcpy脚本工具批量生成矢量圆(附完整Python代码)
  • 小升初规划决策模型:基于能力发展阶段的分年级策略
  • 从收音机到手机:三极管放大电路三种组态(共射、共集、共基)在实际产品中的经典应用拆解
  • ExtractorSharp:5步掌握游戏资源编辑的完整指南
  • CST时域求解器仿真总是不收敛?手把手教你调准Accuracy和Maximum Duration
  • 工业质检实战:用YOLOv8+DCNv4搞定NEU-DET钢材缺陷检测,mAP提升到0.737的保姆级配置
  • 从关键词匹配到语义理解:构建智能混合搜索系统的核心技术与实践
  • 如何快速免费解锁QQ音乐加密文件:qmcdump解码工具终极指南
  • Ki67抗体(MIB-1):解码细胞增殖的利器
  • WeFlow:可视化前端工作流工具的核心价值与技术架构创新