摘要:针对移动机器人相机位姿估计问题,提出一种基于混合频域 Transformer 的相机位姿估计方法,旨在从 RGB 图像中预 测相机的位置与方向。 首先,构建了室内场景数据集 RotIndoor,每个样本包含场景 RGB 图像和通过 VICON 系统获取的相机 位姿真值;其次,提出位姿回归网络模型 CamPose,该模型融合空间域和频域的信息,提升了图像特征表达能力,进而实现高 精度的相机位姿估计。 具体而言,CamPose 引入基于差分卷积网络的特征增强模块,捕获图像细粒度特征;设计了频域编码 层,通过傅里叶变换提取频率特征,并整合频域注意力模块,使模型感知不同频率成分的重要性。 最后,在公开数据集 7Scenes 和 RotIndoor 上进行了实验验证表明,该方法在 7Scenes 数据集上的位姿估计误差为 0. 17 m / 7. 85°,在 RotIndoor 上定 位精度提高了 23% 。