VLA技术调研及学习从一篇综述开始有关VLA的一些简单应用为什么要了解VLAVLA与自动驾驶VLA技术调研Qwen3-VL关于微调关于实时性关于本地部署结论从一篇综述开始面向具身操作的视觉-语言-动作模型综述一、核心背景与 VLA 模型定位具身智能强调智能体通过与物理环境交互实现学习机器人操作是其典型应用场景。传统机器人系统采用模块化设计各模块独立工作难以应对开放环境的多样化任务需求。VLA 模型受大模型启发将视觉、语言、动作深度融合实现 “环境理解 - 物理执行” 的闭环成为具身操作的核心基础智能。二、VLA 模型发展历程萌芽阶段未明确 VLA 概念通过语言辅助视觉模仿学习实现多任务操作如 CLIPort 框架但存 在泛化能力弱、网络容量有限等问题。探索阶段2023 年 7 月 VLA 概念正式提出RT-2 等模型亮相Transformer 成为骨干架构主流OXE 等大规模数据集出现同时开始探索继承 LLM/VLM 权重以提升泛化能力。快速发展阶段2024 年底至今分层架构成为热点如双层、三层系统聚焦泛化能力提升同时探索多模态数据融合、模型推理效率优化等方向。三、VLA 模型核心技术模块3.1 模型架构基础结构分为观测编码、特征推理、动作解码三部分观测编码将多模态输入视觉、语言、触觉等转化为特征令牌特征推理通过 Transformer、DiT、MoE 等骨干网络建模依赖关系动作解码输出离散或连续动作。分层系统拆解长时域任务理解与短时域动作生成通过文本语言、动作轨迹、隐特征向量实现层间通信平衡泛化性与实时性。3.2 训练数据数据类型包括互联网图文数据如 COCO、视频数据如 Ego-4D、仿真数据如 RoboCasa、真实机器人采集数据如 DROID构成 “数据金字塔”。核心挑战机器人轨迹数据规模与多样性不足多模态数据融合难度大仿真与真实环境数据存在分布差异。3.3 训练方法预训练方法分为单一领域数据训练、跨域数据分阶段训练、跨域数据联合训练、思维链增强四类其中跨域联合训练和思维链增强是提升泛化能力的关键方向。后训练方法包括监督微调主流手段、强化微调潜力方向、推理扩展无需额外数据核心目标是适配具体机器人与任务场景。3.4 模型评估评估方式分为真实环境评估反映实际性能成本高、仿真器评估可复现性强如 LIBERO、SimplerEnv、世界模型评估新兴方向依赖视频生成能力。评估核心指标包括任务成功率分布内 / 分布外、泛化能力、实时性等。四、面临的挑战与未来方向4.1 核心挑战泛化能力不足对视觉变化、机器人形态、跨任务场景的适应性有限。精细操作性能差依赖高质量遥操作数据且缺乏力 / 触觉等多模态信息支撑。实时推理难度大模型参数量大机器人端计算资源有限难以满足动态环境响应需求。4.2 未来趋势模型架构优化分层设计探索多模态信息融合方案提升跨形态泛化能力。数据利用扩大真实场景数据规模优化仿真 - 真实数据迁移完善多模态数据标准化。训练优化改进强化学习的奖励函数设计与样本效率深化思维链与动作生成的耦合。部署落地探索 “端 - 云” 协同部署模式优化模型精简与量化技术。有关VLA的一些简单应用为什么要了解VLA简单来说就是VLA是一套结合大模型的新技术可以用它来做控制系统值得去了解和学习。但是呢VLA的学习和了解涉及到大量的知识深入学习和了解付出成本巨大且VLA本身只是个概念而且VLA的好坏完全取决于视频-语言模型的好坏其次才是后面的动作控制。所以呢了解这个一方面是为了看一下本地部署的成熟方案是否合适一些项目的需求另一方面是为了看一下VLA相关的一些简单应用有哪些能不能本地部署看一下效果。VLA与自动驾驶视频VLA能实现真正的自动驾驶自动驾驶系统的两个方向1.端到端模型输入是摄像头、激光雷达、位置、车辆位置、导航等各种信息输出是车辆的行驶轨迹缺点训练数据不足会导致一些极端情况或者偶尔前面有个人或者自行车经过这个系统就会犯傻。2.VLAVLM视觉语言模型VLA Vision Language-Action 视觉语言动作模型缺点同样十分明显本地部署算力不足以支撑大语言模型短时间内反应不足。世界模型World-Action-Model端到端模型的延伸VLA技术调研pdfVLA技术调研作者的个人观点如下VLA视觉语言模型的精度有多大精确到像素级别还是VLA对于特定场景的话需要微调模型如何微调VLA模型的输入是视频或者图像那么输出是文字Qwen3-VL视频视觉能力倍增Qwen3-VL史诗级更新https://github.com/QwenLM/Qwen3-VLVLM模型能力强大尤其是对一些图片的理解但对于一些特殊的场景可能是没有对应场景数据的训练所以实现的效果还是有所偏差。关于微调关于实时性关于本地部署视频10.qwen2.5vl 目标检测任务微调结论微调也很麻烦也有很多限制。Qwen2.5 VL 本地部署实践没有实时的图像输入只能支持图片语言然后得到的也是图片语言。【视频如何在本地实时运行VLMs】VLM貌似就是语言图片然后输出语言描述本质上就是改变了大模型的输入。我看这个视频里的实时性还好能达到40ms不过这种模型最好还是远程部署在服务器上比较合适不适合本地部署算力太低。结论VLA本质上还是大语言模型Language本地部署依赖强大的算力小算力只能得到一个阉割版的智能。基于目前的项目需求来说VLA的本地部署不太现实做不到实时的推理更何况还得进一步微调对于小公司来说也不实用。后记如有侵权请后台私信联系我我会第一时间删除相关信息。