基于主从博弈的智能车汇流场景决策方法
Stackelberg-Game-Based Intelligent Vehicle Decision Method for Merging Scenarios
通讯作者: 庄瀚洋, 男, 博士后;E-mail:zhuanghany11@sjtu.edu.cn.
责任编辑: 石易文
收稿日期: 2020-10-9
基金资助: |
|
Received: 2020-10-9
作者简介 About authors
胡益恺(1996-),男,安徽省合肥市人,硕士生,主要研究方向为机器人
现有智能车决策方法未考虑路权信息、车辆礼貌驾驶以及车辆有限感知范围等因素,容易导致汇流时的安全隐患.针对该类问题,提出一种基于主从博弈的智能车辆决策方法.该方法通过构建结合路权的博弈模型,对汇流场景进行参数化建模,再引入合作因子等目标项设计相应的收益函数,最终设计汇流场景中的车辆决策求解框架,以达到该场景下决策收益的最大值.实验结果表明,所提方法能够提高在数据集上的车辆决策行为预测准确率,并能提高车辆在高车流密度环境中的决策稳健性.
关键词:
Existing decision-making methods for intelligent vehicles do not consider factors such as the right of way information, polite driving of the vehicle, and limited perception range of the vehicle, which may easily lead to safety hazards in merging scenarios. Aimed at these problems, a Stackelberg-game-based decision-making method is proposed. This method constructs a game model combining the right of way and conducts parametric modeling of the merging scenarios. Then, the cooperation factor is introduced to design the corresponding profit function. Finally, the vehicle decision-making solution framework is designed to achieve the maximum value of decision-making benefits in this scenario. The experimental results illustrate that the proposed method can effectively improve the accuracy of vehicle decision-making behavior prediction on the datasets and the decision-making robustness in a high traffic density environment.
Keywords:
本文引用格式
胡益恺, 庄瀚洋, 王春香, 杨明.
HU Yikai, ZHUANG Hanyang, WANG Chunxiang, YANG Ming.
智能车作为当下的研究热点之一,获得了学术界与工业界的广泛关注[1].在车辆的正常行驶过程中经常会遇到上下匝道、车道合并、道路施工等汇流场景,尽管交通法规对这些场景有着一些指导性的规定,但由于场景的独特性和驾驶员不同的理解方式,导致汇流过程成为典型的博弈场景.如何有效提升该场景下车辆通行的效率及安全性,是智能车决策系统开发中的一个关键问题.
近年来,一些学者提出了基于车间协同与车路协同的方法,即运用车辆彼此之间[2,3]以及与道路基础设施之间[4,5,6]的通信来解决交通冲突.虽然基于车与车通讯(V2V)与车联网(V2X)的策略能够提高路口交通的安全性和效率,但其过度依赖于车间通讯设备以及路侧基础设施,在短期内仍然难以大范围推广.与此同时,大量的研究工作聚焦于对单辆智能车的决策研究,例如:基于可达性分析方法[7],基于学习类方法[8,9,10]以及基于博弈论的方法[11,12,13]等.其中,基于博弈的方法被科研工作者视为对理性决策者之间交互建模的合适工具,并被多名科研人员进行讨论与实验验证.文献[11]将存在交互行为的所有决策个体视为非合作博弈中的参与者,以各方的状态改变作为博弈策略,通过构建收益矩阵后求解得到博弈模型的纳什均衡,以作为双方的最优驾驶策略组合.该方法虽在汇流场景中取得了优异的效果,但其并没有考虑汇流场景中路权的差异,忽略了人类驾驶员在实际驾驶中的礼貌因素,并且缺乏对车辆感知范围的合理限制,从而在决策建模时和实际产生偏差,降低了决策方法的稳健性.
1 车辆与环境建模
建立基于主从博弈的车辆博弈模型,并分别从双车博弈以及多车博弈进行讨论.同时,建立环境的参数化模型与以此为基础的车辆轨迹模型,以提升方法的可迁移性.
1.1 车辆博弈模型
选择主从博弈作为基础博弈模型,分别定义al与af为领导车辆和跟随车辆的决策,Al与Af分别为二者对应的决策集合.在博弈中,参与者通过选择合适的策略,最大化收益函数,领导车辆的收益函数以Rl(s,al,af)表示,跟随车辆的收益函数为Rf(s,al,af),其中
式中:
根据主从博弈模型可知,领导车辆与跟随车辆的决策相互影响,这与现实中的车辆交互行为相一致.由于主从博弈的特性,领导车辆具有优先决策的优势,式(1)中领导车辆的决策al将直接决定跟随车辆的理性决策集
考虑到该场景下的博弈可以视为完全信息场景,即领导车辆了解跟随车辆的决策方案,从而式(1)的博弈模型可以转化为
式中:
当环境中出现众多车辆时,现有方法常通过建立两两参与者之间的博弈模型后通过均衡解得到最优决策,但该方法随着参与者数目的增加,计算复杂度将呈指数级增长[17].考虑到驾驶员的视觉感知范围以及智能驾驶车辆的传感器感知范围有限,并结合领导车辆与跟随车辆的从属关系,有效地提高多车博弈模型的求解速度,可以表示为
式中:
1.2 参数化环境模型
汇流场景常位于城区高架、快速公路以及高速公路等处,由主路与辅路构成.其中,辅路为汇流车辆所行驶经过的路段,按照车辆途径顺序可分为匝道变窄路段
图1
以参数组P表征汇流场景的结构特征:
式中:αR,2为观测车道
匝道收缩路段
所建立的汇流场景参数化模型,可以根据具体的实际场景进行适配.例如,当部分汇流场景没有匝道收缩路段
1.3 车辆轨迹模型
图2
2 收益函数
收益函数将显式地量化博弈参与者的目标,在汇流场景中,驾驶员以及智能驾驶车辆拥有相同的基本目标,可以概括为行驶过程中避免与环境车辆发生碰撞,并与环境车辆保持合理距离;通过并快速到达目标点;控制车辆的加速度,以优化车辆舒适性的控制收益;礼貌驾驶员的合作收益.
在计算收益函数时,运用了模型预测的思想,计算了未来帧的预测收益,从而提高模型的稳健性和安全性.考虑到基于车辆运动学模型的预测过程中会存在预测误差,针对收益函数设计了衰减因子,以提升决策方法的稳定性.
车辆安全是智能车辆行驶中最为重要的收益之一,首先定义车辆的碰撞判定以及安全距离.车辆安全收益几何模型如图3所示.其中:粗实线为车辆碰撞判定区域;粗虚线为安全预留区域;
图3
此隐患越危险
在保证车辆安全的同时,智能车辆行驶的另一个重要收益是以较短的时间到达目的地,越快的速度将会得到更多的时间收益,从而将每一时刻车辆的速度作为时间收益,收益函数定义如下:
式中:
乘客的舒适性亦为决策的收益之一,急动度为加加速度,是加速度对时间的求导,为衡量车辆控制平顺度的重要指标,并且直接影响车辆成员对舒适性的感受.车辆的舒适性预测收益可以定义为
式中:
考虑到现实驾驶环境中,驾驶员在进行决策时,并不采用完全自私决策,而会考虑到自身决策对环境其他驾驶员的影响.本文提出合作预测收益
本节从安全收益、时间收益、控制收益以及合作收益4个方面对智能车辆在汇流场景中的决策目标收益进行定义.将式 (7)~(11) 与式 (5) 结合, 可得到决策的显式过程,同时由于收益函数均具有显式物理含义,大大增强了决策方法的可解释性.通过调整收益函数项的权重系数以及具体收益函数中的计算参数,即可实现对期望目标的定向决策优化.
3 决策求解方法
本文所提出的决策求解方法,以当前时刻的环境观测为输入,根据车辆路权确定其在主从博弈中的优先度,随后根据环境观测生成候选轨迹后,计算从当前时刻向前推演的博弈参与者收益,并使用基于主从模型的博弈方法得到决策计算结果:
式中:
决策模块生成的决策结果为当前时刻应采用的车辆加速度,该结果将传递给车辆的控制模块,以实现车辆的纵向控制.车辆的横向控制由路径跟踪模块实现,此处不展开讨论.所提车辆决策方法流程图如图4所示.
图4
4 实验结果与分析
图5
采用行为预测准确率(ζ)以及平均绝对误差(MAE)作为决策方法的评估指标.行为预测准确率的定义可以表示为
式中:
表1
决策方法行为预测准确率及其
Tab.1
图6
5 结语
本文提出了一种基于主从博弈的汇流场景智能车决策方法,该方法通过引入路权的定义,分别构建了双车博弈模型以及多车博弈模型,用以解决汇流场景中的决策问题.此外,本文还设计了汇流场景的参数化模型,增加了决策方法的可迁移性.本文通过设计安全收益、时间收益、控制收益以及合作收益,显式地构成了车辆博弈中的目标收益函数,增加了所提决策方法的合理性与可解释性.最后,分别基于INTERACTION与NGSIM数据集进行测试与分析,验证了所提方法的有效性与稳健性.结果表明,基于主从博弈的决策方法可以和汇流场景中的路权信息有效结合,提升决策的合理性.同时,合作收益的引入可以使无人驾驶车辆解算出更加类人且安全的决策.下一步工作将致力于在更加普适的场景中研究基于博弈方法的智能车决策问题.
参考文献
基于地面快速鲁棒特征的智能车全局定位方法
[J].
Global localization for intelligent vehicles using ground SURF
[J].
Autonomous cooperative driving: A velocity-based negotiation approach for intersection crossing
[C]//16th International IEEE Conference on Intelligent Transportation Systems (ITSC 2013).
Modeling and controlling an isolated urban intersection based on cooperative vehicles
[J].DOI:10.1016/j.trc.2012.11.004 URL [本文引用: 1]
Distributed consensus-based cooperative highway on-ramp merging using V2X communications
[EB/OL]. (
Cooperative driving: An ant colony system for autonomous intersection management
[J].DOI:10.1007/s10489-011-0322-z URL [本文引用: 1]
Development and evaluation of a cooperative vehicle intersection control algorithm under the connected vehicles environment
[J].DOI:10.1109/TITS.2011.2178836 URL [本文引用: 1]
Model-based probabilistic collision detection in autonomous driving
[J].DOI:10.1109/TITS.2009.2018966 URL [本文引用: 1]
Multi-reward architecture based reinforcement learning for highway driving policies
[C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC).
Continuous decision making for on-road autonomous driving under uncertain and interactive environments
[C]//2018 IEEE Intelligent Vehicles Symposium (IV).
Social attention for autonomous decision-making in dense traffic
[EB/OL]. (
A repeated game freeway lane changing model
[J].DOI:10.3390/s20061554 URL [本文引用: 13]
A human-like game theory-based controller for automatic lane changing
[J].DOI:10.1016/j.trc.2018.01.016 URL [本文引用: 1]
A generalized Nash equilibrium approach for optimal control problems of autonomous cars
[J].DOI:10.1002/oca.v39.1 URL [本文引用: 1]
多UAV协同搜索的博弈论模型及快速求解方法
[J].
Game theory based multi-UAV cooperative searching model and fast solution approach
[J].
Dynamic noncooperative game theory
[EB/OL].[
Game-theoretic modeling of multi-vehicle interactions at uncontrolled intersections
[EB/OL].[
A predictive perception model and control strategy for collision-free autonomous driving
[J].DOI:10.1109/TITS.6979 URL [本文引用: 1]
Feedback control of a nonholonomic car-like robot
[M]//LAUMOND J P. Robot Motion Planning and Control.
Nonholonomic motion planning: Steering using sinusoids
[J].DOI:10.1109/9.277235 URL [本文引用: 1]
INTERACTION dataset: An INTERnational, adversarial and cooperative moTION dataset in interactive driving scenarios with semantic maps
[EB/OL]. (
The next generation simulation program
[J].
/
〈 |
|
〉 |
