尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

NeurIPS 2025 spotlight |FSDrive 自动驾驶最新VLA+世界模型 - 详解

NeurIPS 2025 spotlight |FSDrive 自动驾驶最新VLA+世界模型 - 详解
📅 发布时间:2026/6/20 2:10:48
论文地址:https://arxiv.org/abs/2505.17685
代码地址:https://github.com/MIV-XJTU/FSDrive

自动驾驶还在玩“文字游戏”?当下的VLM模型习惯于将视觉信息压缩成文本再进行推理,丢失了大量关键细节。阿里高德与西安交大联合提出FutureSightDrive,首创“时空思维链”(Spatio-Temporal CoT),让自动驾驶模型学会像人类驾驶员一样,直接在“脑海”中用图像思考和预演未来。这一“视觉思考”范式不仅大幅提升了规划的准确性,更在关键的碰撞率指标上降低了31%,为自动驾驶的视觉推理能力开启了新篇章!


一、老司机 VS 新手AI:你的自动驾驶真的“会看路”吗?

各位开发者、手艺爱好者们,大家好!

在用一种**“视觉想象力”**来预判风险、规划路径。就是回想一下我们人类开车时的决策过程:看到前方路况,我们的大脑会瞬间“脑补”出接下来几秒的画面——那辆车可能会变道,那种行人可能会横穿马路... 我们

一个“新手翻译官”,先把摄像头捕捉到的复杂世界翻译成干巴巴的就是然而,当前的许多自动驾驶大模型(VLM)在“思考”时,走的却是一条截然不同的路。它们更像文本描述(例如,“前方有一辆白色SUV,速度30km/h”),也就是所谓的文本思维链(Text CoT),然后再基于这些文字进行逻辑推理。

这种“先翻译,再思考”的模式存在三大致命缺陷:

  1. 信息丢失:丰富的视觉细节(如车辆的微小姿态变化、路面的水渍反光)在转为文字时被大量过滤。
  2. 时空模糊:文字难以精确描述物体间艰难的时空相对关系。
  3. 模态鸿沟:从图像到文本,再到行动指令,反复的模态转换本身就是一种损耗。

那么,我们能否教会AI跳过“文字狱”,像老司机一样直接用图像思考?

二、核心突破:时空思维链 (Spatio-Temporal CoT),让AI“眼见为实”

FutureSightDrive的核心创新,在于提出了一种全新的推理范式——时空思维链 (Spatio-Temporal CoT)。

简单来说,当模型需要规划路径时,它不再生成一行行描述文字作为中间步骤,而是直接**生成一幅“未来的图像”**作为它的“思考过程”。这幅未来的图像不仅仅是一张快照,它包含了两个维度的关键信息:

  • 空间维度 (Spatial Thinking):模型会在这幅未来图像上,直接“画”出它预测的未来车道线和关键物体的3D检测框。这就像人类驾驶员在脑中勾勒出的“安全驾驶走廊”和“重点关注对象”,为后续的精细化思考提供了物理世界的骨架和约束。
  • 时间维度 (Temporal Thinking):整幅未来图像的内容(背景、动态物体的位置变化)直观地展示了世界随时间的演变规律。这种视觉上的动态演化,比任何文字描述都更加直观和丰富。

通过此种方式,FutureSightDrive将“对未来的感知”和“对未来的思考”统一在了图像这一种模态下,彻底消除了跨模态转换带来的信息损失和语义鸿沟,建立了一条端到端的视觉推理管线。

三、FSDrive是如何炼成的?

让一个VLM学会“无中生有”地画出未来,听起来很酷,但工艺上如何建立呢?FSDrive提出了一个巧妙的两阶段训练策略。

阶段一:统一预训练——唤醒VLM的“绘画”天赋

大家没有从零开始训练一个庞大的模型,而是基于现有的VLM(如Qwen2-VL, LLaVA),通过一个统一的预训练范式来“激活”其视觉生成能力,同时保留其强大的理解能力。

  • 激活生成能力:我们扩充了VLM的词汇表,加入了能代表图像像素的“视觉词元”(visual tokens),并通过预测未来帧的任务,教会模型如何像生成文本一样自回归地“画”出图像。
  • 保留理解能力:同时,我们继续进行视觉问答(VQA)任务的训练,确保模型不会“忘了”如何理解世界。

更关键的是,为了让生成的未来符合物理规律,我们引入了**“从易到难”的渐进式生成(Progressive Generation)**:

  1. 第一步:画骨架。先生成未来的车道线,约束静态物理世界。
  2. 第二步:定主体。再生成关键物体的3D框,约束动态物理世界。
  3. 第三步:填细节。在骨架和主体的约束下,生成完整的、细节丰富的未来图像。

天马行空的“幻想”。就是此种方法,让模型学会了有条理、有逻辑地“构思”未来,而不

阶段二:监督微调——从“思考者”到“决策者”

在模型具备了“脑补”未来的能力后,大家再通过监督微调,教会它如何利用这份“预见”来做决策。此时,VLM扮演着双重角色:

  1. 世界模型 (World Model):根据当前输入,生成具备时空思维链的未来图像。
  2. 逆动力学模型 (Inverse Dynamics Model):结合当前观测和自己预测的未来,反推出最优的行驶轨迹。

这种“基于预见来规划”的模式,让FSDrive在面对突发情况时更具前瞻性,能够做出更安全、更合理的决策。

四、实验效果:实力碾压,SOTA达成!

空谈不如实证。FSDrive在多个自动驾驶权威基准上都取得了卓越的成绩。

  • 轨迹规划任务 (nuScenes):
    • 在不使用车辆自身状态(ego-status)这一“简单模式”下,FSDrive在L2误差和碰撞率等核心指标上均优于现有的自回归和非自回归方法。
    • 最令人振奋的是,与不使用任何CoT的基线模型相比,FSDrive的时空思维链将碰撞风险(Collision Rate)平均降低了高达31%!这直接证明了“视觉思考”在提升安全性上的巨大价值。

  • 未来帧生成质量:

    • 尽管生成图像只是中间步骤,FSDrive的生成质量依然惊人。其FID分数达到了10.1,甚至优于一些专门的扩散模型(Diffusion Model),证明了其强大的视觉生成能力。
  • 场景理解任务 (DriveLM):

    • FSDrive在场景理解问答上也取得了SOTA成绩,这表明我们的统一预训练范式成功地在“激活生成”和“保留理解”之间取得了完美平衡。

五、总结与展望

FutureSightDrive的核心贡献,是为自动驾驶领域引入了一种全新的、更符合物理世界交互本质的视觉推理范式。

它告诉大家:与其让模型在抽象的符号世界里“绕圈子”,不如直接赋予它“看见”和“想象”未来的能力。

核心贡献总结:

  1. 提出时空思维链(Spatio-Temporal CoT):让模型通过生成未来图像进行推理,实现了端到端的视觉因果推断。
  2. 提出统一的预训练范式:高效地激活了现有VLM的视觉生成能力,无需从零开始训练。
  3. 提出渐进式生成方法:依据“骨架-主体-细节”的顺序,确保了生成未来的物理真实性。

当然,目前FSDrive核心生成前视视角的未来,下一步我们将探索生成环视(Surround-view)的未来世界,以实现更全面的安全保障。

这项工作标志着自动驾驶正从依赖人类设计的抽象符号,迈向一个模型能自主与环境进行像素级交互和视觉推理的新纪元。

相关新闻

  • 主要测试的测试用例
  • TensorFlow 和 PyTorch两大深度学习框架训练素材,并协作一个电商推荐系统
  • Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架

最新新闻

  • 2026年天津GEO优化服务商推荐指南 - GEO优化
  • 2026年近期陕西消防:专业消防技术服务商选择与推荐 - 品牌鉴赏官2026
  • 小米手表表盘设计入门指南:Mi-Create让你轻松打造个性表盘
  • 3分钟免费汉化Axure RP:新手终极中文界面配置指南
  • 如何在Mac上5分钟制作Windows启动盘:WinDiskWriter终极指南
  • 深圳2026年6月GEO优化公司Top5:全面对比实力与落地效果 - GEO优化

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号