1. 项目概述
3D高斯溅射(3D Gaussian Splatting,简称3DGS)作为当前神经渲染领域的主流技术,在实时光追级渲染效果方面表现出色。然而,基于MLP的衍生方法虽然提升了视觉保真度,却在大规模遮挡场景中面临严重的效率瓶颈问题。传统剪枝和LOD等加速策略由于缺乏有效的遮挡感知机制,仍然存在大量冗余计算,特别是在消费级GPU上的硬件适配性不足。
上海交通大学钟志航团队联合上海人工智能实验室、西北工业大学等机构在CVPR 2026上提出的Proxy-GS框架,通过引入轻量级代理网格作为统一的遮挡先验,实现了训练与推理阶段的遮挡感知优化。这一创新方法在保持渲染质量的同时,将遮挡密集场景的渲染速度提升了2.5倍以上,为3DGS在AR/VR等实际应用场景的落地提供了新的技术解决方案。
2. 技术背景与挑战
2.1 3DGS技术发展现状
3DGS通过显式高斯基元的光栅化实现了比NeRF更高效的新视角合成,已成为大尺度场景重建的核心技术。然而,原生3DGS存在几何结构建模不足的问题。为弥补这一缺陷,Scaffold-GS、Octree-GS等MLP-based方法引入了神经解码器,基于锚点特征动态生成高斯属性(包括均值、协方差、颜色和不透明度),显著提升了视角相关细节和复杂场景的建模能力。
2.2 效率与质量矛盾
MLP-based 3DGS的主要性能瓶颈体现在:
- 解码开销过高:在城市街道、多房间室内等大尺度遮挡场景中,高斯基元和锚点数量呈指数级增长
- 硬件适配不足:现有方法未充分利用消费级GPU的专用硬件光栅化单元
- 训练效率低下:传统致密化方法仅基于RGB图像的梯度信息,易在遮挡区域生成无效锚点
3. Proxy-GS核心创新
3.1 轻量级代理网格设计
Proxy-GS的核心突破在于构建了基于轻量级代理网格的遮挡感知体系,将硬件光栅化与3DGS的训练、推理流程深度融合。代理网格作为场景的粗几何表示,具有以下特点:
- 高效性:利用硬件光栅化在1ms内生成1000×1000分辨率的深度图
- 通用性:同一代理网格同时服务于推理阶段的遮挡剔除和训练阶段的结构引导
- 轻量化:通过拓扑保留简化技术,将网格体积从108MB降至824KB
3.2 技术架构优势
与传统方法相比,Proxy-GS具有以下差异化优势:
- 无损遮挡检测:相比OccluGaussian等场景聚类方法,能保留更精细的细节
- 极致效率:深度获取效率远高于基于表面元的深度引导方法
- 良好兼容性:无需对原有3DGS的高斯光栅化流程做大幅修改
4. 关键技术实现
4.1 代理引导滤波器
4.1.1 代理网格构建策略
针对不同场景的点云数据,Proxy-GS采用差异化的构建策略:
| 场景类型 | 构建方法 | 关键技术 |
|---|---|---|
| 室外密集点云 | 表面重建+QEM简化 | 二次误差度量拓扑保留 |
| 室内稀疏COLMAP | MapAnything模型 | RGB图像辅助重建 |
| 室外稀疏COLMAP | CityGS-X框架 | 多GPU并行处理 |
4.1.2 硬件光栅化优化
通过以下技术实现高速深度图生成:
- 网格聚类与AABB预计算
- 层级Z缓冲(Hi-Z)优化
- 早期Z测试(Early-Z)启用
- Vulkan-CUDA零拷贝交互
4.1.3 锚点筛选算法
关键步骤包括:
- 坐标转换(相机空间→NDC→像素坐标)
- 深度转换(归一化→线性相机空间)
- 安全边际添加(γ=0.3最优)
- 深度测试剔除
4.2 代理引导致密化
4.2.1 高误差斑块检测
采用分块L1损失计算,判定条件:
loss_patch > 3 * mean_loss4.2.2 锚点重投影
通过相机参数反投影公式:
p̂_P = o + Rᵀ(d_mesh(u_P,v_P) · K⁻¹[u_P,v_P,1]ᵀ)4.2.3 网格冗余约束
设置网格单元最大锚点数K,插入条件:
κ[c(a)] < K5. 实验验证与性能分析
5.1 主实验结果
在MatrixCity数据集上的性能表现:
| 指标 | Octree-GS | Proxy-GS | 提升幅度 |
|---|---|---|---|
| PSNR | 21.41 | 21.68 | +1.26% |
| SSIM | 0.731 | 0.744 | +1.78% |
| LPIPS | 0.375 | 0.362 | -3.47% |
| FPS | 48 | 151 | +214.6% |
5.2 消融实验
5.2.1 模块贡献分析
| 配置 | PSNR | FPS |
|---|---|---|
| 基线(Octree-GS) | 21.41 | 48 |
| 仅推理阶段 | 19.06 | 144 |
| 训练+推理 | 21.50 | 147 |
| 完整框架 | 21.68 | 151 |
5.2.2 参数敏感性
- 代理网格分辨率:108MB→824KB,PSNR波动<0.1
- 顶点噪声:>5%时PSNR显著下降
- 安全边际γ:0.3为最优值
5.3 推理时间分析
MatrixCity场景时间占比对比:
| 组件 | Octree-GS | Proxy-GS |
|---|---|---|
| 深度获取 | - | 1ms(0.7%) |
| 锚点筛选 | 12ms | 3ms |
| MLP解码 | 68ms | 15ms |
| 高斯光栅化 | 45ms | 12ms |
| 总时间 | 125ms | 31ms |
6. 应用前景与工程实践
6.1 实际应用场景
Proxy-GS特别适合以下应用场景:
- AR/VR应用:需要实时高保真渲染
- 数字孪生:大规模城市场景重建
- 自动驾驶仿真:复杂环境模拟
6.2 工程实践建议
在实际部署中需要注意:
- 代理网格质量:确保保留主要遮挡结构
- 硬件适配:充分利用GPU光栅化单元
- 参数调优:根据场景调整安全边际γ
7. 技术局限与未来方向
7.1 当前局限
- 动态场景支持有限
- 需要初始几何信息
- 极端复杂遮挡处理仍需优化
7.2 未来方向
- 动态代理网格更新机制
- 无监督几何先验学习
- 多模态传感器融合
在实际项目部署中,我们发现Proxy-GS的性能优势在遮挡率超过30%的场景中最为明显。对于相对开放的场景,虽然也能带来5-15%的性能提升,但效果不如密集遮挡场景显著。建议开发者根据具体应用场景的遮挡特性来决定是否采用该技术方案。