当前位置: 首页 > news >正文

【PromptStereo】零样本立体匹配新范式:用结构与运动Prompt驱动迭代优化(CVPR 2026)

摘要

零样本(zero-shot)立体匹配的核心瓶颈在于迭代优化阶段:现有方法虽然利用了单目深度基础模型做特征提取和视差初始化,但GRU的有限表征能力无法充分利用这些先验。PromptStereo提出Prompt Recurrent Unit(PRU),直接继承Depth Anything V2的DPT解码器架构作为迭代优化器,并设计Structure Prompt和Motion Prompt两路提示信号引导优化方向。在SceneFlow单一数据集训练下,PromptStereo即在KITTI、Middlebury、ETH3D等多个基准上实现零样本SOTA,同时推理速度与RAFT-Stereo持平(0.36s),比MonSter快近一倍。


论文:PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts (CVPR 2026)
代码:Windsrain/PromptStereo


一、问题背景:GRU迭代优化的瓶颈

从RAFT-Stereo到IGEV再到MonSter,主流立体匹配管线遵循统一范式:

特征提取

代价体构建

初始视差

GRU迭代优化
K次迭代

最终视差图

近期方法(MonSter、BridgeDepth)引入单目深度基础模型(Depth Anything V2)做特征提取器,显著提升了泛化性能。但关键问题在于:

阶段利用了基础模型先验?现状
特征提取是(ViT encoder)效果好
视差初始化部分(单目深度做初始猜测)有帮助
迭代优化否(从零训练GRU)瓶颈

核心矛盾:GRU的sigmoid门控将隐藏状态约束在[0,1]范围内,表征能力有限;且GRU从零训练,无法利用基础模型已学到的几何先验。

PromptStereo的洞察:为什么不直接用基础模型的解码器替代GRU做迭代优化?

二、核心方法

2.1 整体框架

图 1:PromptStereo整体架构。左侧为特征提取和代价体构建,中间为Affine-Invariant Fusion,右侧为PRU迭代优化模块。来源:[PromptStereo] GitHub

图 2:PromptStereo完整数据流。红色标注为核心创新点:PRU、Structure Prompt、Motion Prompt、AIF。重绘自 design skill

整体流程:

  1. 共享权重的ViT-L编码器(来自Depth Anything V2)提取左右图特征
  2. 构建Group-wise和All-pair两种相关代价体
  3. Affine-Invariant Fusion融合初始立体视差和单目深度
  4. PRU以Structure Prompt和Motion Prompt为引导,迭代优化视差

2.2 Affine-Invariant Fusion (AIF)

单目深度是相对值(尺度和偏移未知),不能直接与立体视差相加。AIF通过中值归一化对齐两者尺度:

d ^ = d − median ( d ) 1 N ∑ ∣ d − median ( d ) ∣ \hat{d} = \frac{d - \text{median}(d)}{\frac{1}{N}\sum|d - \text{median}(d)|}d^=N1dmedian(d)dmedian(d)

将单目深度投影到视差空间后,用置信度加权融合:

d F = c ⊙ d 0 + ( 1 − c ) ⊙ d M ′ d_F = c \odot d_0 + (1-c) \odot d'_MdF=cd0+(1c)dM

其中c cc为学习的置信度图,d 0 d_0d0为初始立体视差,d M ′ d'_MdM为尺度对齐后的单目深度。

2.3 Prompt Recurrent Unit (PRU)

PRU是本文核心创新,直接继承DPT解码器的预训练权重替代GRU:

为什么不用GRU?

对比维度GRUPRU (DPT Decoder)
初始化随机Depth Anything V2预训练
隐藏状态范围sigmoid约束[0,1]无约束,自由范围
分辨率单分辨率多分辨率(1/8→1/4→1/2→full)
几何先验丰富的单目深度先验
收敛速度32次迭代4次迭代即达高精度

PRU更新机制(多分辨率):

z k = σ ( ConvBlock ( [ h k i , h k i − 1 ] ) ) z_k = \sigma(\text{ConvBlock}([h_k^i, h_k^{i-1}]))zk=σ(ConvBlock([hki,hki1]))

h k + 1 i = ( 1 − z k ) ⊙ h k i + z k ⊙ h ^ k i h_{k+1}^i = (1-z_k) \odot h_k^i + z_k \odot \hat{h}_k^ihk+1i=(1zk)hki+zkh^ki

d k + 1 = d k + ConvBlock ( h k + 1 0 ) d_{k+1} = d_k + \text{ConvBlock}(h_{k+1}^0)dk+1=dk+ConvBlock(hk+10)

关键设计:Prompt仅注入到最高分辨率层h k 0 h_k^0hk0,低分辨率层保持DPT原始行为。

2.4 Structure Prompt (SP)

捕捉立体视差和单目深度之间的几何差异:

D = ∣ d ^ k − d ^ M ∣ D = |\hat{d}_k - \hat{d}_M|D=d^kd^M

P S = Encoder ( F M , D ) , h = h + ConvBlock ( P S ) P_S = \text{Encoder}(F_M, D), \quad h = h + \text{ConvBlock}(P_S)PS=Encoder(FM,D),h=h+ConvBlock(PS)

直觉:哪里立体和单目"意见不一致",哪里就是优化需要重点关注的区域(如透明物体、反射表面)。使用仿射不变归一化确保比较不受尺度影响。

2.5 Motion Prompt (MP)

编码立体特有的运动信息(GRU方法也有类似输入,但PRU以Prompt方式注入):

P M k = Encoder ( V k , d k ) , h = h + ConvBlock ( P M k ) P_M^k = \text{Encoder}(V_k, d_k), \quad h = h + \text{ConvBlock}(P_M^k)PMk=Encoder(Vk,dk),h=h+ConvBlock(PMk)

其中V k V_kVk为以当前视差为中心的局部代价体。

关键设计选择:两个Prompt都通过残差加法注入(而非拼接或替换),不破坏DPT解码器继承的先验。

渲染错误:Mermaid 渲染失败: Parse error on line 3: ...Structure Prompt
|d_k - d_M| 几何差异] -----------------------^ Expecting 'SQE', 'TAGEND', 'UNICODE_TEXT', 'TEXT', 'TAGSTART', got 'PIPE'

2.6 训练损失

L = ∥ d 0 − d g t ∥ smooth + ∑ k = 1 K γ K − k ∥ d k − d g t ∥ 1 \mathcal{L} = \|d_0 - d_{gt}\|_{\text{smooth}} + \sum_{k=1}^{K} \gamma^{K-k} \|d_k - d_{gt}\|_1L=d0dgtsmooth+k=1KγKkdkdgt1

初始视差用Smooth L1损失,迭代输出用L1损失加指数衰减权重(γ = 0.9 \gamma=0.9γ=0.9),越后面的迭代权重越大。

三、工程实现

组件技术细节
编码器ViT-Large (Depth Anything V2, frozen)
解码器DPT decoder (pre-trained, 可训练)
训练数据SceneFlow (基础) / +FoundationStereo+TartanAir+CREStereo (Unlimited)
输入分辨率192 或 576 高度
推理速度0.36s (与RAFT-Stereo持平)
框架PyTorch + xformers
代码仓库Windsrain/PromptStereo

四、实验分析

零样本泛化性能(SceneFlow训练)

方法KITTI’12 Bad3KITTI’15 Bad3Midd-T Bad2Midd-2021 Bad2ETH3D Bad1速度
RAFT-Stereo4.345.6811.0711.112.610.36s
IGEV-Stereo5.136.039.9510.004.050.37s
MonSter4.625.528.9715.553.200.64s
DEFOM-Stereo3.904.996.778.622.40-
PromptStereo3.774.596.038.261.560.36s

PromptStereo在仅用SceneFlow训练的条件下,全面超越所有同条件方法,尤其在ETH3D上(1.56 vs 2.40)和Middlebury-T上(6.03 vs 6.77)优势明显。

Unlimited训练数据对比

方法Midd-2021 Bad2Booster-Sunny Bad2速度
FoundationStereo7.145.150.65s
MonSter12.4311.550.64s
BridgeDepth13.6611.25-
PromptStereo5.973.670.36s

Middlebury-2021上比FoundationStereo低16%错误率;Booster-Sunny上低29%——透明/反射表面处优势巨大。

消融实验

配置MPSPAIFMidd-T Bad2ETH3D Bad1速度
Baseline (MonSter)---7.272.860.64s
PRU + MP--4.181.380.35s
PRU + MP + SP-3.901.350.36s
PromptStereo3.761.300.36s

PRU本身带来最大提升(7.27→4.18),SP和AIF各贡献增量改进。

PRU通用性验证

PRU不仅适用于MonSter,也能提升RAFT-Stereo和IGEV:

方法KITTI’15 Bad3Midd-T Bad2ETH3D Bad1
RAFT-Stereo5.688.412.29
Prompt-RAFT4.786.391.49
IGEV-Stereo6.037.043.61
Prompt-IGEV4.846.502.21

作为即插即用模块,PRU对所有GRU-based方法都有显著提升。

收敛速度对比

图 3:PRU vs GRU收敛曲线。PRU在4次迭代时已达到GRU 32次迭代才能达到的精度水平,最终精度差距达67%。重绘自 design skill

迭代次数MonSter (Midd-2021)PromptStereo (Midd-2021)
410.754.35
810.643.28
169.612.79
328.462.78

PRU在4次迭代(4.35)即优于MonSter 32次迭代(8.46)。

小结

核心贡献

  1. PRU:用基础模型解码器替代GRU做迭代优化,这个思路简洁而有效——不是设计更复杂的模块,而是直接"继承"已有知识
  2. 双Prompt机制:Structure Prompt抓单目-立体差异区域,Motion Prompt编码立体运动信息,两者通过残差注入不破坏继承先验
  3. AIF:仿射不变融合解决了单目深度的尺度模糊问题

局限性

  • 依赖Depth Anything V2的ViT-L,参数量和显存需求大
  • 在KITTI等小视差场景上优势不如大视差场景明显
  • Unlimited训练需要多个大规模合成数据集

个人判断:PromptStereo的PRU思路代表了一个重要趋势——将基础模型的知识从"特征提取"扩展到"迭代优化"。传统方法把GRU当作黑盒优化器从零训练,浪费了大量基础模型已学到的几何理解。PRU证明了"站在巨人肩膀上做优化"比"自己重新学优化"高效得多。这一范式有望推广到光流估计、场景流等其他稠密匹配任务。

http://www.rkmt.cn/news/1512407.html

相关文章:

  • 《广东政天科技有限公司:广州增城本土企业AI生成式引擎优化(GEO)服务商》 - 信息热点
  • 2026北京奢侈品包包回收实操指南,新手零基础变现攻略 - 奢侈品回收测评
  • 2026年视频转文字软件推荐!手把手教你快速转换,新手必看
  • LLM智能体评估:从结果正确性到决策过程鲁棒性的监控体系
  • MSC8157ADS开发板实战:多核DSP调试与高速接口验证指南
  • 2026年合肥市二手家电回收公司权威排行榜 - 安徽工业
  • 2026年厂房车间通风、除尘排风服务机构盘点 - 信息热点
  • 2026 江门管道疏通 TOP 榜单 | 正规靠谱服务商精选推荐 - 园子一号
  • HEIF图片格式兼容难题:Windows用户的免费解决方案
  • 这次终于选对了!2026年最强AI论文写作软件榜单,高质初稿轻松写
  • 腕表行情波动!2026合肥二手手表定价标准与变现技巧 - 奢侈品回收评测
  • 绍兴地区:配偶擅自赠与第三者财产,如何依法追回?2026年本地律师实力盘点 - 边虞技术
  • Qt桌面程序里用HTML做登录页,C++和JS能互相调用
  • 北京黄金回收市场套路深 专业机构横向测评,教你安全变现避坑选靠谱商家 - 名奢变现站
  • 船用五金外贸网站如何获取海外船厂采购订单? - 外贸营销驿站
  • 2026宁波名牌包包回收 高性价比机构深度测评 - 奢侈品回收测评
  • 天河越秀海珠番禺|2026广州各区黄金回收实测,你家附近哪里靠谱? - 奢侈品回收评测
  • ColdFire+嵌入式开发实战:从Tower System到MQX RTOS全解析
  • STS8200 PVI10 原理图
  • 2026罗湖区新加坡留学培训怎么选?避坑指南防踩雷 - 17322238651
  • 2026年安徽省二手家具回收公司权威排行榜 - 安徽工业
  • 杭州欧米茄浪琴回收2026实测 大众商务腕表变现攻略 - 奢侈品回收评测
  • 2026年陕西西安日语韩语德语培训机构实测盘点 本地老牌机构适配留学考级刚需学习 - 品研笔录
  • 柔性集装袋厂家实测排行榜单推荐|2026 吨袋工厂品质测评,化工食品吨袋厂家优选 - 商业新知
  • 一夜之间,AI造了个能玩的《红色警戒》:认识一下幕后主角Claude Fable 5
  • 2026买家选出口厂家正版手办购买平台?全球渠道拿货价优 - 19120507004
  • Happy Island Designer:三步实现专业级岛屿规划解决方案
  • 3步精通Lucide图标库:从设计瓶颈到完美视觉体验的完整方案
  • MPC5606E在车载以太网音视频网关中的核心应用与设计实践
  • 暗访成都多家二奢门店,香奈儿CF 与流浪包真实回收报价横向实测对比 - 奢侈品回收评测