当前位置：首页 > news >正文

【学习笔记】PiLoT：无人机自身和目标地理定位框架

news 2026/6/13 10:32:51

PiLoT

PiLoT 系统概述

该系统在没有 GNSS 和 IMU 信号的情况下，在昼夜和跨季节变化中取得了 1.37 米的中值误差、30
∼ 40 毫秒的每帧延迟以及 100% 的成功率。

系统以实时视频帧和地理参考的 3D 地图作为输入，输出

PiLoT 在 10 公里无人机轨迹上实现了无漂移、实时、长期的自我和目标地理定位，误差以颜色编码（绿色：低，红色：高）。

传统方法依赖于解耦的流水线，该流水线融合GNSS和视觉惯性里程计（VIO）来进行自身姿态估计，并使用激光测距仪等主动传感器进行目标定位。（例如，大疆 Matrice 4 系列）

然而，这些方法在GNSS受限的环境中容易失效。

PiLoT通过将实时视频流直接与地理参考的3D地图进行配准，打破了这一范式。

为了实现鲁棒、准确和实时的性能，论文中提出了三项关键贡献：

给定：
一个地理参考的三维地图
一个具有已知内参的单目视频流
第一帧的单个位姿先验
→在没有 GNSS 和 IMU 辅助的情况下基于无人机进行自我定位和目标地理定位的问题。

目标：
1. 知道无人机的位置
2. 知道无人机看到的东西的位置

对于序列视频定位，一种朴素的策略是从最后一帧渲染参考视图，并对当前帧进行姿态精炼。
即：利用上一帧定位结果生成预测画面，再和当前真实画面对齐，通过优化得到当前帧位姿。

→这种线性依赖会产生固有的时间瓶颈，导致定位引擎在渲染任务完成之前被迫停滞。

与这种传统的线性流水线不同，论文中提出了一种解耦的双线程架构，该架构并行同步地图渲染和姿态优化。

双线程引擎

该系统策略性地渲染一个参考锚点，并利用一对多的策略。该方法利用共享渲染来优化姿态假设的集合，从而在没有多个参考视点的情况下实现广泛的搜索范围。

也就是利用一个视图，进行多个位姿假设。

两个线程按如下方式协调此过程：

渲染线程：
该线程运行以提供用于定位的地理配准视图。渲染线程首先使用恒定速度卡尔曼滤波器（KF）从上一个估计值预测参考位姿。从预测的位姿开始，渲染一个新的参考视图，并将其深度有效的像素反投影到世界坐标系中，形成一组三维地理锚点，并且打包成约束传送给本地线程。
定位线3程：
Pixelto-3D Registration 流水线针对每个新的查询帧执行。它首先使用轻量级提取器从查询视图和参考视图中提取多尺度特征和不确定性图。以参考束为锚点，JNGO 优化器随后执行全局探索与局部利用，以进行广域搜索并找到全局一致的姿态估计。随后将此新姿态传回渲染线程，为下一个周期准备参考束。

关键点：

渲染提前一帧准备

一个渲染生成多个位姿预测

像素到三维配准

轻量化网络。
采用了一个现成的MobileOne-S0编码器（深度=3，ImageNet初始化），并结合了一个紧凑的U-Net解码器，该解码器由查询和参考分支共享。给定一张H × W的RGB图像，它在1/4（粗糙）、1/2（中等）和1（精细）分辨率下输出一个三层金字塔，具有紧凑的通道宽度C=32，从而得到查询特征和不确定性以及参考特征和不确定性。
使用大规模数据集进行训练。
训练此神经网络依赖于具有密集深度和精确相机姿态的大规模数据集以进行几何监督。论文引入了一个新的大规模合成数据集，该数据集专门设计用于支持几何感知学习。（该团队开发了一个基于AirSim-Cesium-Unreal Engine流水线的全自动化模拟器，用于生成该数据集。）

Unreal：负责逼真画面
Cesium：负责全球真实地图
AirSim：负责无人机飞行模拟

要求大模型学习到3D特征，而非与亮度强相关的色彩特征。

合成数据集概述

激进的无人机运动通常会引起大的帧间位移，这对容易陷入局部最优的、传统基于梯度的优化器提出了重大挑战。为了解决这个问题，论文引入了 JNGO，它通过协同全局探索和局部开发来驾驭具有挑战性的非凸优化地形。