当前位置: 首页 > news >正文

【具身智能】VLA 赛道图谱(全景横评)

研究日期: 2026-05-13覆盖范围: 主流 VLA 模型 触觉/多传感器扩展 中国玩家数据基础: 公开论文 arXiv 5 篇精读 RynnVLA-002 源码一、什么是 VLAVLA Vision-Language-Action吃图像文字指令吐机器人动作的端到端模型。它替代了什么传统机器人的感知模块 规划模块 控制模块三层 pipeline现在用一个大模型端到端搞定。核心问题它解决了泛化性。传统机器人换个杯子就要重新编程VLA 模型见过 100 种杯子后第 101 种也能拿。二、第一梯队通用 VLA 主干拼基础模型出品时间参数量核心特点RT-2Google DeepMind2023-0755BVLA 鼻祖PaLM-E 衍生闭源OpenVLAStanford2024-067B开源 VLA 标杆Llama2 基底π0 (Pi-Zero)Physical Intelligence2024-10~3B商业闭源Flow Matching 头OctoUC Berkeley2024-0593M-1.3B模块化 Transformer可插拔RynnVLA-002阿里达摩院2025-117B开源 SOTA统一 VLA World Model关键差异点维度OpenVLAπ0RynnVLA-002动作头离散 tokenFlow Matching离散 连续双路多视角单相机单相机第三人称 腕部本体状态❌✅✅世界模型❌❌✅开源✅❌✅LIBERO 成绩~84%~94%97.4%三、第二梯队感官扩展派拼输入主流 VLA 都只吃 RGB语言但真实世界还有很多 RGB 看不见的信号。这一派专攻加感官。触觉 VLATLA中科院 三星arXiv 2503.08548| 2025-03把触觉图像GelSight 类作为独立模态接入 Qwen2-VL24k 触觉-动作-指令数据集关键证明未见过物体形状的泛化任务上TLA 比 Diffusion Policy 高 40%→ 详见 yimu-research/summaries/01-TLA多传感器 VLAOmniVLAMicrosoft ResearcharXiv 2511.01210| 2025-11加红外/声学/毫米波雷达**全部转成伪图像**叠加在 RGB 上RGB-only 25% → OmniVLA 84% 成功率找冷饮/找盒子里东西/找响铃手机→ 详见 yimu-research/summaries/05-OmniVLA异构传感器接入Beyond SightarXiv 2501.04693| 2025-01核心思路用语言作为通用转接头传感器 → 语言描述 → 现成 VLA数据需求降低 10-100 倍5k 条 vs 100k战略价值传感器厂商不用绑定某个 VLA做USB 标准→ 详见 yimu-research/summaries/03-BeyondSight四、第三梯队执行层专精派拼输出灵巧手内操作FBIarXiv 2508.14441| 2025-08专攻问题物体在手里翻转、换握、传递核心创新Shortcut Policy——触觉信号短路直连动作跳过视觉编码触觉 ms 级响应 vs 视觉 100ms 级视触觉融合 纯视觉 纯触觉→ 详见 yimu-research/summaries/02-FBIDiffusion Policy 系非 VLA 但相关用扩散模型生成动作序列被很多 VLA 借鉴为动作头π0 的 Flow Matching 是其轻量化版优势动作平滑劣势推理慢五、数据生产派拼训练弹药Few-shot Sim2RealarXiv 2503.01301| 2025-03力反馈遥操作 高保真渲染 真实数据需求降低 50 倍50-100 条真实数据微调 ≈ 5000 条纯真实数据训练战略价值把采集机器人数据做成生意NVIDIA Isaac Tesla 数据中心范式→ 详见 yimu-research/summaries/04-FewShotSim2RealOpen-X-EmbodimentDeepMind2023 年 22 家机构联合1M 轨迹22 种机器人本体行业最大公开数据集OpenVLA 的基底六、中国玩家速览公司定位拳头产品路线阿里达摩院开源派RynnVLA-002, RynnRCP, RynnEC全栈开源技术品牌银河通用VLA 主干派GraspVLA训自己的通用大脑自变量全栈派自研 VLA 整机模型硬件一体千寻智能全栈派自研 VLA 双足机器人对标 Figure帕西尼触觉感知派多模态触觉传感器卡感知层入口一目科技触觉灵巧手SENTRA DEXTRA走 Beyond Sight 路线七、五维评估矩阵选型参考通用性 精度 开源 硬件依赖 商用成熟度 RT-2 ★★★ ★★★ ❌ 高 中 OpenVLA ★★★ ★★ ✅ 中 中 π0 ★★★ ★★★★ ❌ 低 高 RynnVLA-002 ★★★ ★★★★ ✅ 中 中 TLA ★ ★★★★ 部分 高触觉 低 OmniVLA ★★ ★★★★ 未知 高多传感器低选型建议想跑通 demo 快速验证 → OpenVLA商用要稳定 → π0如果能拿到想魔改/做研究 →RynnVLA-002做接触密集型任务 → TLA 触觉硬件做 RGB 看不见的场景 → OmniVLA 思路八、三大技术分歧行业未达成共识分歧 1动作表示——离散 vs 连续 vs Diffusion详见06-action-representation.md分歧 2是否需要世界模型派别 ARynnVLA-002要能做规划做数据增强派别 BOpenVLA/π0不要VLA 直接够用World Model 是负担分歧 3感官接入方案——重训 vs 翻译重训派每加新传感器训新 VLAOmniVLA 部分场景翻译派传感器 → 语言/伪图像 → 现成 VLABeyond Sight、OmniVLA 主体九、2026 趋势预判开源 VLA 追上闭源RynnVLA-002 已经触摸 π0 性能上限多传感器融合是必经之路OmniVLA 的 84% vs 25% 太刺激数据飞轮成为护城河训练算法趋同谁有数据谁赢VLA World Model 统一是方向单纯 VLA 解释性差加 World Model 可做心算Sim2Real 突破是商业化拐点仿真数据可用 → 边际成本崩塌十、参考资料OpenVLAPhysical Intelligence π0OctoRT-2RynnVLA-002v1.0 | 2026-05-13 首次建档
http://www.rkmt.cn/news/1303152.html

相关文章:

  • ARM DMC内存控制器架构与优化实战
  • 终极网盘直链下载解决方案:LinkSwift 如何彻底改变你的文件下载体验
  • 开源代码生成模型DaVinci:低成本AI编程助手实战指南
  • 多智能体的协作成本:沟通开销、上下文膨胀与优化手段
  • 高并发场景下 Redis 存储 JWT 黑名单如何优化鉴权性能?
  • 开源机械爪控制库:从PID算法到ROS集成的全栈开发指南
  • 怎样免费让老Mac重获新生:OpenCore Legacy Patcher专业教程
  • 基于OpenAI_Agent_Swarm的多智能体协作系统:从原理到实战
  • 技术视角:Sketchfab数据提取工具深度解析3D模型下载机制
  • 高效跨平台游戏模组下载:WorkshopDL完全指南
  • 3分钟学会用ncmdumpGUI:轻松解密网易云NCM音乐文件,享受真正的音乐自由
  • 3步快速上手:PotPlayer百度翻译插件实现视频字幕实时翻译
  • 如何用猫抓cat-catch轻松捕获网页媒体资源?浏览器资源嗅探扩展全攻略
  • 系统门窗行业豆包推广,价格与服务解析 - mypinpai
  • 构建团队知识流系统:从信息孤岛到智能工作流中枢
  • 魔兽争霸III增强插件WarcraftHelper:5分钟解决游戏痛点完整指南
  • 拆分APK安装终极指南:为什么SAI是你Android设备的必备神器
  • NVIDIA Profile Inspector:解锁显卡隐藏性能的终极调校工具完全指南
  • 通用框架操作系统:统一异构应用框架的运行时与治理平台
  • 量子退火在组合优化中的应用与性能分析
  • 【独家首发】ElevenLabs未公开文档泄露:藏文语音生成延迟<800ms的4种低延迟部署方案(含边缘推理配置)
  • 2026年论文保姆级手动降AI指南(附三款降AI率工具亲测) - 降AI实验室
  • 有实力的解决连接失效问题的钢结构加固公司推荐 - mypinpai
  • Windows安卓子系统完全指南:如何在Windows 11上免费安装和使用安卓应用
  • ElevenLabs泰文语音生成避坑清单:97.3%开发者忽略的3大音素对齐陷阱及修复方案
  • 【限时解禁】Midjourney Mud印相暗箱协议文档(v6.0.2内部白皮书节选):含17个未公开材质token、3类废弃prompt陷阱及官方调试日志解读
  • 并行LLM推理技术:Hogwild! Inference原理与应用
  • 终极免费硬件调优指南:用UXTU轻松解锁电脑隐藏性能
  • 零基础入门:如何用bili2text轻松将B站视频转为文字稿
  • Claude Code用户如何配置Taotoken解决密钥被封与额度不足问题