基于语义似然与高精度地图匹配的智能车辆同时定位与检测
Simultaneous Detection and Localization for Intelligent Vehicles Based on HD Map Matching and Semantic Likelihood Model
通讯作者: 胡钊政,教授,博士生导师;E-mail:zzhu@whut.edu.cn.
责任编辑: 王一凡
收稿日期: 2023-03-9 修回日期: 2023-04-10 接受日期: 2023-04-13
基金资助: |
|
Received: 2023-03-9 Revised: 2023-04-10 Accepted: 2023-04-13
作者简介 About authors
赖国良(1998—),硕士生,从事智能车辆定位研究.
车载传感器数据与高精度地图的精确匹配是提升智能车辆感知与定位的关键.提出基于语义似然模型(SLM)的高精度地图匹配新算法,实现智能车辆同时定位与目标检测任务.首先通过U-Net提取路面语义目标,利用核密度估计建立SLM.基于粒子滤波框架,利用位姿变换将高精度地图上目标抽样点映射至SLM中,计算该抽样点与传感器数据的匹配程度对每个粒子的权重更新,实现智能车辆的高精度定位.最后利用定位结果完成地图上的要素目标到图像的映射,实现目标的精准检测.利用在校园道路与城市道路环境下采集的数据对所提算法进行验证,实验结果表明,算法的平均定位误差约为14 cm,路面路标检测结果平均交并比(MIoU)均大于80.较之深度神经网络等当前最佳(SOTA)的检测方法,所提算法引入高精度地图的先验信息可显著提升智能车辆定位与目标检测性能.
关键词:
Accurate matching between in-vehicle sensor data and high-definition (HD) maps is crucial to improve the performance of perception and localization of intelligent vehicles. A novel algorithm of HD map matching based on the developed semantic likelihood model (SLM) is proposed to achieve intelligent vehicle localization and object detection simultaneously. First, semantic pavement objects are extracted from front-view images by using U-Net, and SLM is constructed with kernel density estimation (KDE). Under a particle filter framework, the likelihood between the sensor data and HD map is calculated by projecting each sample point from HD map with pose transformation onto SLM to update the weight of each particle. Simultaneously, accurate detection of pavement markings is accomplished by projecting all elements onto the HD map with the computed localization results. In the experiment, data collected on campus and on urban roads are used to validate the proposed algorithm. The experimental results show that the localization errors in both scenarios are about 14 cm, and the mean intersection over union (MIoU) of road marking detection is above 80. The results demonstrate that the proposed algorithm can significantly improve both localization and detection performance by effectively utilizing the prior information of HD maps, compared with the state of the art (SOTA) methods, such as deep learning-based detection methods.
Keywords:
本文引用格式
赖国良, 胡钊政, 周哲, 万金杰, 任靖渊.
LAI Guoliang, HU Zhaozheng, ZHOU Zhe, WAN Jinjie, REN Jingyuan.
智能车辆感知任务中,车道线和路面标志检测是重要的基础任务,在智能车辆辅助驾驶与高级版(如L3和L4级)中具有重要的作用.传统检测方法一般采用颜色模型进行阈值分割[4]或利用梯度算子进行边缘提取[5]以实现目标检测.然而此类方法鲁棒性较差,效果会随光照情况而受到影响,其次对所检测的结果无法分辨类别.深度学习方法因其出色的泛化能力和鲁棒性,在路面标志检测方面逐渐取代传统方法.如Neven等[6]借助LaneNet提取车道线并利用H-Net对车道线进行参数拟合,通过曲线拟合方式对车道线进行表征,能够有效实现车道线遮挡的检测问题且可获得车道线的拓扑信息,但参数拟合形式只可用于描述车道线,无法表示路面中其他非线状信息;而Jang等[7]提出RMnet,将道路标志作为语义信息实现道路标志提取,解决了路面多种类别语义的提取问题,但存在误检测和部分缺失的情况.总体而言,基于网络的路面标志检测方法主要存在因遮挡导致检测失败以及无法有效检测线与块状等不同特性的路面标志等问题.目前,最常用的智能车辆定位技术是基于卫星导航系统的定位方法,但在实际应用中存在卫星信号盲区和多路径等问题,导致无法获取有效的定位信息.为此,研究人员将卫星导航系统与惯性系统相融合,提高定位稳定性和精度.然而,在长时间卫星信号盲区条件下,惯性传感器存在严重的累积误差,导致系统定位性能失效.近年来,研究人员提出基于同时定位与建图(simultaneous localization and mapping, SLAM)的定位方案,其主要有基于激光传感器和视觉传感器的SLAM定位方法.激光雷达可以获取精确的场景点云信息,使激光SLAM定位方法定位精度高,但目前激光点云传感器成本较高,难以在智能车辆上大规模推广应用;视觉传感器因其价格低廉,能够获取场景丰富的纹理信息,便于在智能车辆上进行安装,受到广泛关注.ORB-SLAM[8]是近年来开源的经典视觉SLAM定位方法,其通过提取图像中的旋转不变简述特征(oriented FAST and rotated BRIEF, ORB)作为特征点进行匹配,并通过光束平差(bundle adjustment, BA)优化实现较高精度的定位.然而ORB特征对光照和动态目标比较敏感,特别是在特征贫瘠的场景中难以提取有效特征点,导致出现定位误差大甚至定位失效的情况.
高精度地图(high-definition map, HD map)近年来在智能车辆领域得到了广泛的应用与发展,为智能车辆的高精度定位、感知乃至规划、决策等提供了新的解决思路.特别是面向智能网联汽车的发展需求,高精度地图的数据组织与结构得到了极大的拓展,发展出面向不同功能的地图图层[9].基于高精度地图的智能车辆定位的基本思路是将车载传感器获取的场景信息与地图中存储的信息进行匹配,并在匹配的基础上,通过PnP或迭代最近点(ICP)算法完成车辆定位.如胡兵等[10]对地面进行加速鲁棒特征(speeded-up robust features, SURF)提取并结合全球定位系统(global positioning system, GPS)构建路面SURF特征地图,在定位阶段利用迭代最近点获得定位结果,但该方法获取地图较为复杂且特征提取易受到光照和遮挡的影响导致匹配失败.Cui等[11]对车道线进行标注,抽取部分点的GPS值保存作为地图数据,并利用颜色阈值分割和边缘分割等方法将相机所提取的车道线与地图点进行ICP匹配从而获得车辆位置,但在大部分场景下车道线差异较小,使得车辆在纵向上的定位误差较大.王相龙等[12]提出了一种路面指纹地图,利用卷积神经网络检测道路裂纹并使用ORB进行匹配得到车辆的精确位置,然而道路裂纹过于稀疏,大部分情况下路面并没有足够的裂纹用于定位,且裂纹的生长和加深若无法在地图中进行及时更新将导致定位失败.Lin等[13]利用模板匹配方法,将数字地图中所记录的路面标识及车道线图像信息与当前所采集的图像信息进行模板匹配以矫正GPS定位误差,避免了地图数据与图像数据之间的对应点选择问题,但该方法一方面所需存储的数据较大,另一方面此类地图无法适用较大场景.Xiao等[14]提出基于单目相机的语义分割与矢量地图匹配的最小二乘定位算法MLVHM,解决了车辆前后定位不准确及场景局限等问题,但点对之间的选取和对应关系依旧是其存在的关键性问题.在这些工作中,目标检测与车辆定位被分解成两个单独的模块.但实际上,这两个模块是相互耦合的.一方面,通过高精度定位信息可以从高精度地图中完成目标检测;另一方面,更好的目标检测结果可以进一步提升定位的精度与稳定性.
针对以上问题,提出基于语义似然概率模型(SLM)的高精度地图匹配新算法,并在此基础上实现智能车辆同时定位与检测.论文的创新点为:① 与基于点与点或点与线的地图匹配算法不同,本文提出了基于点与似然对应的地图匹配算法,并提出基于核密度估计(KDE)的SLM构建方法;② 提出基于地图与传感器的紧耦合粒子滤波的车辆定位算法,通过SLM中的似然概率完成粒子的权重更新与最优估计,并同时完成目标检测.
1 算法
图1
1.1 高精度地图表征与要素抽样
图2
在高精度地图表征的基础上,可在道路要素目标上进行点抽样,如图2(d)所示红色抽样点.车道线抽样按照所设定的间距进行等间隔抽样.地图中的道路标志抽样可按照对应语义的边、角点进行抽样;而对于圆形语义可以按照边缘点进行抽样,且对中心点进行平均抽样.通过抽样,可利用抽样点集合的形式对要素目标进行精确表征.
1.2 路面语义检测与逆投影变换
提取图像中的路面语义信息可利用卷积神经网络方法,本文提出将路面的语义特征进行核密度估计以表征该语义目标,这一方法可降低因错误分割而导致的匹配失效问题.同时,考虑到车载计算资源有限,且需要较高的定位实时性,故所使用的语义分割方法不宜过于复杂,因此,本文采用参数量较小的U-Net方法[15]完成12类路面语义分割,这些语义目标包含车道线、箭头、减速带、停止线、斑马线以及井盖等.为了消除前视摄像机成像的透视效应,利用逆透视变换(inverse perspective mapping, IPM)将U-Net所分割出的语义逆投影至车身坐标系.如图3所示,定义车身坐标系原点为右后轮与地面接触点,车辆前进方向为x轴方向,其垂直方向为y轴方向.前视图像点
图3
式中:IPM变换中的单应矩阵H可以通过离线标定的方式获得.车身坐标系下的点
从而,前视图像点与高精度地图之间的坐标变换关系可以表征为如下形式:
1.3 构建SLM
为解决离散地图抽样点与语义点之间匹配困难的问题,本文考虑利用KDE方法对所提取的语义信息进行概率建模,将基于车身坐标系下的语义点获得光滑连续的概率密度函数,在匹配时将地图点投影到车身坐标系,同时将点对之间的匹配转换为求解其投影点的概率最大化问题.本方法首先从语义中所包含的N个点获得每个点对应的高斯核函数,随后对核函数进行叠加并归一化获得描述该语义信息的概率密度函数.x为从地图中映射到语义坐标系下的坐标,Xn={x1, x2, …, xN}为独立同分布的N个语义点,对该单一地图点与语义之间相似性估计如下式,即SLM:
为解决离散的地图抽样点与语义点之间匹配困难的问题,考虑利用KDE方法将上式中K(x)定义为在二维空间上的非负核函数,h为核函数的带宽矩阵或称为核函数的窗口,Kh(x)表示在窗口h下的缩放核函数,高斯核函数表达式如下:
式中:n表示维度.所有坐标系均为平面坐标系,其语义以二维点对的形式存在,故本文取为n=2,SLM通过引入核函数来刻画所有语义点所对应的似然概率,如图4所示.
图4
1.4 基于SLM的同时定位与检测
在贝叶斯框架下,通过历史状态与观测可将智能车辆定位问题转化为如下最大后验估计问题:
式中:xk=
为了简便计算过程,将提议分布定义为
提议分布反映了车辆的先验概率.考虑相邻时刻内车辆可视为匀速运动,因此其状态转移符合如下式:
式中:
式中:P(zk|
式中:Gk为GPS数据,构成了粒子滤波器的第一类观测;Lk为前视图像与高精度地图组合而成的滤波器第二类观测.假定这两类观测是独立的,则可将似然函数写作:
式中:P(Lk|
式中:
P(Lk|
式中:L(x)即为式(4).同样地,利用上述方法求解其对应的似然概率.从而,可以利用所有抽样点的似然概率完成对粒子权重的更新.最终,可通过对权重进行归一化,并利用归一化后的权重求解最佳状态
式中:
基于车辆的位姿信息
式中:
2 实验结果与分析
实验中选取两个典型场景对算法进行验证,其一是某校园场景中的某路段,长度约为2.5 km,该场景下行人较多.其二是武汉临江大道部分路段,长度约为5.6 km.校园道路作为人流量较大的低速(限速25 km/h)场景代表;而武汉临江大道双向六车道作为高车流量的中高速(限速70 km/h)场景代表.上述场景为实际行驶中较为典型的两类场景,可对算法进行综合对比和校验.实验中,由实验室开发的智能车辆平台搭载包括FLIR工业灰点相机、高精度组合惯导、普通GPS接收器等传感器.车载计算单元为NVIDIA Jetson TX2,用于完成语义提取、检测与定位计算等任务.搭载的前视摄像机向下倾斜30°,高约110 cm,分辨率为 2 048 像素×1 536 像素.利用Zhang标定法[19]对相机的内外参数进行精确标定.利用厘米级高精度卫星-惯导组合定位系统的定位结果作为真值来验证定位算法的性能.普通GPS接收器仅作为初始粗定位用于确定所在地图范围.实验中所用地图为满足ASAM标准的车道级高精度地图[15].
为提升U-Net语义提取性能,本文利用新的数据集对其进行重新训练.训练数据集来自两个部分,其一为实地采集的 1 815 张前视图像(分辨率为 2 048 像素×1 536 像素),并通过数据增强的方式进行数据集扩充;另一部分来自百度Apollo部分数据集,共形成了用于训练的12类语义类别数据集,其包含各类语义分布如图5所示.利用这些数据集对U-Net进行训练,并将训练好的模型部署至车载NVIDIA Jetson TX2平台上完成语义目标提取.为定量描述本文所提出算法性能,将高精度组合惯导所获得的定位坐标作为真值计算车辆相对定位结果的平均偏移量,并分析其误差分布以衡量本文算法的定位性能;每个类别采用交并比(intersection over union, IoU)对检测结果进行分析.此外,为综合衡量分割效果,对各个类别的交并比求均值,即平均交并比(mean intersection over union, MIoU).
图5
2.1 校园道路下的定位结果与分析
校园场景选取了一段包含井盖及车道线和弯道的路面场景,如图6所示.此类园区场景道路较窄,且相对而言类似箭头等显著的路面语义标志较少,但该场景中往往存在下水道井盖或通信井盖即圆或方形井盖,因此本文方法对该场景依旧有较好的定位能力.该类场景由于道路较窄以及行人对车辆的阻挡等原因导致车辆无法维持相对稳定的匀速运动,在各种滤波算法进行预测过程中易出现较大的偏差导致无法匹配.而本文算法对匹配效果的衡量是基于似然概率值,利用SLM的衰减旁瓣的范围可保证在出现偏移的情况下依然可通过粒子滤波算法实现精准匹配.此外,井盖与路面之间相似性较高,因此使用文献[11]中的方法对其进行定位易出现特征提取失效的问题,本文所采用的U-Net方法对语义进行提取解决了这一问题.由于园区内道路通常围绕建筑物铺设道路,所以存在较多弯道,如图6(d)所示,在本实验场景中,弯道存在一处井盖语义,且包含少部分车道线,由于较大的转弯角度,常用的定位方法往往在此场景中无法获得有效定位.在整个校园场景中,路段的总长度约为2.5 km,选取其中共47处包含井盖等横向语义信息的定位点用于计算本文算法定位误差.
图6
图7
表1 校园场景下定位误差对比
Tab.1
方法 | 最小误差/cm | 最大误差/cm | 平均误差/cm |
---|---|---|---|
本文算法 | 3.4 | 49.9 | 14.4 |
文献[11] | 11.0 | 125.8 | 54.7 |
文献[13] | 11.8 | 59.5 | 30.4 |
图8
文献[11]中利用颜色阈值对车道线进行提取并与预先制作好的地图进行ICP匹配获得定位结果,在校园场景下,车道线匹配易出现前后漂移,尤其是在该场景中存在较长的路段为直线路段,即使一直存在车道线也将使误差无法降低.因此其定位误差存在较大的波动,定位不够稳定,且定位精度也较低,平均误差达到54.7 cm.文献[13]中利用模板匹配方法进行定位,相比于文献[11]中方法可大幅降低误差波动,但在校园路段中,路面语义标志大部分以井盖的形式出现,井盖与柏油路之间的颜色差异较小,因此模板匹配在语义附近将无法获得更精确的匹配结果,其定位误差达到30.4 cm,结果依然不够理想.本文对所提取的车道线和井盖分别进行概率建模,并在此基础上与地图抽样点进行匹配,结合车道与路面标志的约束,得到较为精准的定位结果,定位误差维持在较为稳定的范围内,定位误差最大不超过50.0 cm,且平均误差为14.4 cm.实验过程中,在嵌入式主板TX2上对路面的实时检测耗时平均为23 ms,而基于所检测的语义目标进行坐标转换以及每次匹配过程约为10 ms,故整体定位过程共花费平均时长约33 ms,可满足对车辆实时定位的要求.
2.2 城市道路场景下的定位结果与分析
图9
表2 城市道路场景下误差对比
Tab.2
图10
在城市道路场景下,尽管路面语义信息较为丰富,但所行驶的路段车道较多,而文献[11]中仅考虑车道线约束,无法有效利用箭头等标志提供纵向定位;同时,不同车道之间也易产生横向的定位偏移,使误差存在大幅波动.最后计算其平均定位误差为45.9 cm.相较于园区环境,其误差降低了大约10.0 cm,且最低误差仅2.2 cm,这一现象主要是因为车道线在本次实验中有较多虚线段,而虚线段的端点在一定范围内为此方法提供了纵向约束,然而,一旦相机所采集图像中虚线车道线相似度较高时,此方法依然无法解决其定位中纵向偏移较大的问题.文献[13]中方法则表现较为稳定,但依然存在问题,即该路段栅栏或其他物体的影子将影响其模板匹配结果,因此其定位误差相对较高,平均误差为24.2 cm.本文方法对路面语义进行概率建模,在一定程度上降低了由于光照影响下U-Net出现误检测所带来的匹配误差.本文算法平均定位误差为14.0 cm,且有近90%的情况下误差小于20.0 cm,相较于其他两种算法,本文算法定位精度提升明显,定位误差稳定在较低水平.
2.3 目标检测结果与分析
为测试本文算法目标检测性能,在上述两个场景下,利用本文算法对场景中的语义目标进行检测,其结果如表3和图11所示.校园场景下光照稳定,因此图像中的语义特征较为明显,通过U-Net方法所分割的语义信息比较完整,如图11(b)所示,但其检测结果依然存在语义信息部分缺失的情况,如图中圆形井盖以及转弯箭头无法做到完整分割,而本文借助高精度地图,将地图中的先验信息进行提取并利用上文的映射关系将地图中的语义映射到图像中,大幅提高了检测精度,如图11(c)所示.在公路场景下,环境较复杂,图像中所表现出的语义信息易受到遮挡,直接导致U-Net检测结果出现误检及缺失情况,如图11(e)所示,图中箭头、双黄线均无法完整分割,而相邻车道中的直行箭头则完全无法检测出来,同时该图像中的大部分语义被误识别为其他类别.在本文算法下,错误的检测同样有可能导致地图与图像之间匹配精度降低,但由于对所提取的不同类别语义进行SLM建模,所以大大降低了对原始检测结果的依赖.对于算法中所使用的U-Net检测结果,同时借助高精度地图,本文算法大幅度提高了其检测精度,如图11(f)所示.
表3 语义检测结果的IoU对比
Tab.3
图11
本文算法借助高精度地图的先验信息,能够提升检测性能,不同于卷积神经网络(CNN)方法对语义目标的检测和分割,本文算法所产生语义检测及分割误差的主要原因在于地图到图像之间映射关系的误差,因此在匹配结果较好的情况下,其误差维持在较小水平.此外,本文方法不完全依赖图像中所能观察到的信息,在检测过程中地图提供了整个环境中的路面标志,因此当车辆或行人对相机进行遮挡时,本文算法依旧能对当前路标进行精确检测.总体而言,本文算法对路面标志检测的MIoU可达到86.1%,优于U-Net等其他检测方法.
3 结语
本文提出了一种基于语义似然模型的高精度地图匹配新方法,从而将高精度地图匹配问题转化为最大化后验概率问题,并在粒子滤波的框架下同时完成智能车辆地图定位与目标检测两个任务.与传统的基于点-点或点-线距离匹配的算法相比,本文算法引入似然概率模型来描述数据与地图之间的匹配程度,可以实现传感数据与高精度地图的紧耦合,从而将定位与检测两个任务进行深度融合,提升定位与检测的整体性能.实验部分分别用校园路段与城市路段对算法进行验证,结果表明算法通过似然概率模型融合高精度地图,可以有效提升定位与检测算法的性能.
参考文献
Mixture Density-PoseNet and its application to monocular camera-based global localization
[J].
Artificial intelligence applications in the development of autonomous vehicles: A survey
[J].
中科协发布2020重大科学问题和工程技术难题
[EB/OL]. (
CAST releases 2020 major scientific and engineeringtechnical challenges
[EB/OL]. (
A visual-degradation-inspired model with HSV color-encoding for contour detection
[J].
Color edge detection using multidirectional sobel filter and fuzzy fusion
[J].
Towards end-to-end lane detection: An instance segmentation approach
[C]//
A lane-level road marking map using a monocular camera
[J].
ORB-SLAM3: An accurate open-source library for visual, visual-inertial, and multimap SLAM
[J].
High definition map for automated driving: Overview and analysis
[J].
基于地面快速鲁棒特征的智能车全局定位方法
[J].
DOI:10.16183/j.cnki.jsjtu.2019.02.011
[本文引用: 1]
针对目前视觉定位方法大多基于地面语义特征(如车道线、停车线等)容易受到其他地面语义特征(如箭头、斑马线等)的影响,提出了一种基于地面快速鲁棒特征(SURF)点的全局定位方法.该方法首先在鸟瞰图中检测SURF点,结合高精度GPS构建地面SURF地图.然后在此基础上,使用迭代最近点算法,将在线检测结果与地图匹配获得车辆全局定位,并通过扩展卡尔曼滤波将定位结果与惯导和里程计数据进行融合,提高全局定位精度.实验结果表明,所提出的方法可获得分米级定位结果,能满足智能车的定位需求.
Global localization for intelligent vehicle using ground SURF
[J].
Real-time global localization of robotic cars in lane level via lane marking detection and shape registration
[J].
基于路面指纹的高精度车辆定位
[J].车辆定位广泛使用基于视觉的定位方法,针对前视图像或侧视图像易受到周围环境的影响且定位过程中需要遍历匹配地图图像导致耗时较长的问题,本文提出一种基于俯视路面图像的表征模型——路面指纹.路面指纹包含GPS(Global Positioning System),路面特征和图像特征点.该模型通过卷积神经网络(Convolutional Neural Network, CNN)结合连通区域识别待定位图像的路面特征信息,利用路面特征信息对GPS初定位筛选的地图节点进一步筛选从而提高定位效率.分别在路面特征信息密集和稀疏的路段下进行实验,实验结果表明,通过引入路面指纹使定位耗时减少20.3%,平均定位误差为47.4 mm.该方法能提高定位效率并实现高精度车辆定位.
High accuracy vehicle localization by referring to pavement fingerprint
[J].Visual based localization methods are widely used in vehicle localization. Since the forward and lateral views are susceptible to environmental change and traversing images of mapping data is time-consuming, this paper proposes a new down-view image-based presentation model: pavement fingerprint. The pavement fingerprint contains GPS(Global Positioning System), pavement feature and image feature points. It applies CNN (Convolutional Neural Network) and connect region to recognition the pavement feature of query image. It uses pavement feature to narrow the range of candidate map nodes which are filtered by GPS coarse localization. It improves efficiency of localization. In the experiment, the pavement fingerprint has been tested on the roads with dense pavement feature and road with sparse pavement feature, respectively. The results show that by utilizing the pavement fingerprint, the time consuming for localization reduced by 20.3% and the average localization error is 47.4 mm. This method improves the efficiency of vehicle localization and realizes vehicle localization with high precision.
System integration of sensor-fusion localization tasks using vision-based driving lane detection and road-marker recognition
[J].
Monocular localization with Vector HD Map (MLVHM): A low-cost method for commercial IVs
[J].
U-Net: Convolutional networks for biomedical image segmentation
[C]//
ASAM OpenDRIVE
[EB/OL]. (
A flexible new technique for camera calibration
[J].
Swin-Unet: Unet-like pure transformer for medical image segmentation
[C]//
Masked attention ConvNeXt Unet with Multi-Synthesis dynamic weighting for anomaly detection and localization
[C]//
/
〈 |
|
〉 |
