摘要:为了准确地在特定三维真实环境中,通过单目相机获取的RGB图像来估计相机的六自由度位姿,本文结合已知的二维图像及三维点云信息,提出了基于稠密场景回归的多阶段相机位姿估计方法。首先,将深度图像信息与传统运动结构恢复(Structure From Motion, SFM)算法相结合,构建单目相机位姿估计数据集;其次,本文首次将深度图像检索引入2D-3D匹配点的构建当中,通过所提的位姿优化函数对位姿解算加以优化,提出多阶段相机位姿估计方法;最后为提升位姿估计的性能,将ResNet网络结构用于图像的稠密场景坐标回归,使得所提方法的位姿估计精度大幅度提升。实验结果表明:对于给定的位姿误差阈值5 cm/5°,在公开数据集7scenes下的位姿估计准确率均值为82.7%,在自建数据集下的准确率为94.8%。与现有的其他相机位姿估计算法相比,本文所提方法不论在自建数据集还是公开数据集下的位姿估计精度均有提升。