基于主从博弈的智能车汇流场景决策方法

doi:10.16183/j.cnki.jsjtu.2020.319

基于主从博弈的智能车汇流场景决策方法

胡益恺^a^,^c, 庄瀚洋^,^b^,^c, 王春香^a^,^c, 杨明^a^,^b^,^c

上海交通大学 a.自动化系, 上海 200240

b.密西根学院, 上海 200240

c.系统控制与信息处理教育部重点实验室, 上海 200240

Stackelberg-Game-Based Intelligent Vehicle Decision Method for Merging Scenarios

HU Yikai^a^,^c, ZHUANG Hanyang^,^b^,^c, WANG Chunxiang^a^,^c, YANG Ming^a^,^b^,^c

a. Department of Automation, Shanghai 200240, China

b. University of Michigan-Shanghai Jiao Tong University Joint Institute, Shanghai 200240, China

c. Key Laboratory of System Control and Information Processing of the Ministry of Education, Shanghai Jiao Tong University, Shanghai 200240, China

通讯作者: 庄瀚洋, 男, 博士后;E-mail:zhuanghany11@sjtu.edu.cn.

责任编辑: 石易文

收稿日期: 2020-10-9

基金资助:

国家自然科学基金(61873165)
国家自然科学基金(U1764264)
上海汽车工业科技发展基金(1807)

Received: 2020-10-9

作者简介 About authors

胡益恺(1996-),男,安徽省合肥市人,硕士生,主要研究方向为机器人

摘要

现有智能车决策方法未考虑路权信息、车辆礼貌驾驶以及车辆有限感知范围等因素,容易导致汇流时的安全隐患.针对该类问题,提出一种基于主从博弈的智能车辆决策方法.该方法通过构建结合路权的博弈模型,对汇流场景进行参数化建模,再引入合作因子等目标项设计相应的收益函数,最终设计汇流场景中的车辆决策求解框架,以达到该场景下决策收益的最大值.实验结果表明,所提方法能够提高在数据集上的车辆决策行为预测准确率,并能提高车辆在高车流密度环境中的决策稳健性.

关键词： 智能车决策方法; 主从博弈; 汇流; 路权; 合作收益

Abstract

Existing decision-making methods for intelligent vehicles do not consider factors such as the right of way information, polite driving of the vehicle, and limited perception range of the vehicle, which may easily lead to safety hazards in merging scenarios. Aimed at these problems, a Stackelberg-game-based decision-making method is proposed. This method constructs a game model combining the right of way and conducts parametric modeling of the merging scenarios. Then, the cooperation factor is introduced to design the corresponding profit function. Finally, the vehicle decision-making solution framework is designed to achieve the maximum value of decision-making benefits in this scenario. The experimental results illustrate that the proposed method can effectively improve the accuracy of vehicle decision-making behavior prediction on the datasets and the decision-making robustness in a high traffic density environment.

Keywords： intelligent vehicle decision-making methods; Stackelberg-game; merging scenario; right of way; cooperation reward

PDF (3724KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

胡益恺, 庄瀚洋, 王春香, 杨明. 基于主从博弈的智能车汇流场景决策方法[J]. 上海交通大学学报（自然版）, 2021, 55(8): 1027-1034 doi:10.16183/j.cnki.jsjtu.2020.319

HU Yikai, ZHUANG Hanyang, WANG Chunxiang, YANG Ming. Stackelberg-Game-Based Intelligent Vehicle Decision Method for Merging Scenarios[J]. Journal of shanghai Jiaotong University, 2021, 55(8): 1027-1034 doi:10.16183/j.cnki.jsjtu.2020.319

智能车作为当下的研究热点之一,获得了学术界与工业界的广泛关注^[1].在车辆的正常行驶过程中经常会遇到上下匝道、车道合并、道路施工等汇流场景,尽管交通法规对这些场景有着一些指导性的规定,但由于场景的独特性和驾驶员不同的理解方式,导致汇流过程成为典型的博弈场景.如何有效提升该场景下车辆通行的效率及安全性,是智能车决策系统开发中的一个关键问题.

近年来,一些学者提出了基于车间协同与车路协同的方法,即运用车辆彼此之间^[2,3]以及与道路基础设施之间^[4,5,6]的通信来解决交通冲突.虽然基于车与车通讯(V2V)与车联网(V2X)的策略能够提高路口交通的安全性和效率,但其过度依赖于车间通讯设备以及路侧基础设施,在短期内仍然难以大范围推广.与此同时,大量的研究工作聚焦于对单辆智能车的决策研究,例如:基于可达性分析方法^[7],基于学习类方法^[8,9,10]以及基于博弈论的方法^[11,12,13]等.其中,基于博弈的方法被科研工作者视为对理性决策者之间交互建模的合适工具,并被多名科研人员进行讨论与实验验证.文献[11]将存在交互行为的所有决策个体视为非合作博弈中的参与者,以各方的状态改变作为博弈策略,通过构建收益矩阵后求解得到博弈模型的纳什均衡,以作为双方的最优驾驶策略组合.该方法虽在汇流场景中取得了优异的效果,但其并没有考虑汇流场景中路权的差异,忽略了人类驾驶员在实际驾驶中的礼貌因素,并且缺乏对车辆感知范围的合理限制,从而在决策建模时和实际产生偏差,降低了决策方法的稳健性.

本文提出基于主从博弈(Stackelberg-game)理论的智能车辆决策方法框架,该模型结合了两个参与者的不对称角色特性,并赋予了一个参与者相对于另一个参与者的优势^[14,15].该决策方法有效地将汇流场景中的路权因素考虑其中,例如在匝道口交替通行路段,满足交替通行规则的车辆拥有较高的路权,可以将其视为主从博弈中的领导者,而未获得交替通行权限的车辆被合理地视为跟随者.同时,本文提出驾驶员合作收益,并考虑车辆的传感器感知范围有限性以提升决策方法的安全性、合理性与稳健性.本文工作可为智能车辆在汇流场景下运用博弈方法解决决策问题的可行性提供理论验证.

1 车辆与环境建模

建立基于主从博弈的车辆博弈模型,并分别从双车博弈以及多车博弈进行讨论.同时,建立环境的参数化模型与以此为基础的车辆轨迹模型,以提升方法的可迁移性.

1.1 车辆博弈模型

选择主从博弈作为基础博弈模型,分别定义a_l与a_f为领导车辆和跟随车辆的决策,A_l与A_f分别为二者对应的决策集合.在博弈中,参与者通过选择合适的策略,最大化收益函数,领导车辆的收益函数以R_l(s,a_l,a_f)表示,跟随车辆的收益函数为R_f(s,a_l,a_f),其中 $s \in S, S = {(s_{l}, s_{f})_{t}} 为当前时刻 t$ 的车辆集合状态空间.根据主从博弈均衡解的概念^[15],对两车博弈进行建模,并得到领导车辆的均衡解γ_l与跟随车辆的均衡解γ_f,则有:

$\begin{array}{l} γ_{l} \in \underset{a_{l} \in A_{l}}{arg max} (\min_{a_{f} \in A^{*}'_{f} (s, a_{l})} R_{l} (s, a_{l}, a_{f})) \\ γ_{f} \in \underset{a_{f} \in A_{f}}{arg max} R_{f} (s, γ_{l}, a_{f}) \\ A^{*}'_{f} (s, a_{l}) = {a'_{f} \in A_{f} : R_{f} (s, a_{l}, a'_{f}) \geq \\ R_{f} (s, a_{l}, a_{f}), \forall a_{f} \in A_{f}} \end{array}\}$

(1)

式中: $A^{*}'_{f} (s, a_{l}) 为当前车辆行驶环境中, 跟随车辆的理性决策集; a'_{f}$ 为跟随车辆理性决策集合中的具体决策.

根据主从博弈模型可知,领导车辆与跟随车辆的决策相互影响,这与现实中的车辆交互行为相一致.由于主从博弈的特性,领导车辆具有优先决策的优势,式(1)中领导车辆的决策a_l将直接决定跟随车辆的理性决策集 $A^{*}'_{f} (s, a_{l}) .$ 同时,考虑到跟随车辆对领导车辆的观测延迟以及观测不确定性,此处进行最大化假设,即跟随者针对领导者行为的不确定性,选择最大化个体最小收益的决策:

$\begin{matrix} γ_{f} \in \underset{a_{f} \in A_{f}}{arg max} (\min_{a_{l} \in A_{l}} R_{f} (s, a_{l}, a_{f})) \end{matrix}$

(2)

考虑到该场景下的博弈可以视为完全信息场景,即领导车辆了解跟随车辆的决策方案,从而式(1)的博弈模型可以转化为

$\begin{array}{l} γ_{f} \in \underset{a_{f} \in A_{f}}{arg max} (\min_{a_{l} \in A_{l}} R_{f} (s, a_{l}, a_{f})) \\ γ_{l} \in \underset{a_{l} \in A_{l}}{arg max} (\min_{a_{f} \in A_{f}^{*} (s)} R_{l} (s, a_{l}, a_{f})) \\ A_{f}^{*} (s) = {a'_{f} \in A_{f} : \min_{a_{l} \in A_{l}} R_{f} (s, a_{l}, a'_{f}) \geq \\ \min_{a_{l} \in A_{l}} R_{f} (s, a_{l}, a_{f}), \forall a_{f} \in A_{f}} \end{array}\}$

(3)

式中: $A_{f}^{*} (s)$ 为在当前车辆行驶环境中且结合信息完全客观假设下,跟随车辆的理性决策集.此处,假设领导车辆与跟随车辆的最优解具有全局唯一性^[16],即假设对每位博弈者(此处为领导车辆和跟随车辆),在任何一个具体状态s处,都存在一个决策要严格优于其他决策, 则有:

$\begin{matrix} \begin{array}{l} γ_{f} = \underset{a_{f} \in A_{f}}{arg max} (\min_{a_{l} \in A_{l}} R_{f} (s, a_{l}, a_{f})) \\ γ_{l} = \underset{a_{l} \in A_{l}}{arg max} (R_{l} (s, a_{l}, γ_{f})) \end{array}\} \end{matrix}$

(4)

当环境中出现众多车辆时,现有方法常通过建立两两参与者之间的博弈模型后通过均衡解得到最优决策,但该方法随着参与者数目的增加,计算复杂度将呈指数级增长^[17].考虑到驾驶员的视觉感知范围以及智能驾驶车辆的传感器感知范围有限,并结合领导车辆与跟随车辆的从属关系,有效地提高多车博弈模型的求解速度,可以表示为

$\begin{array}{l} Q_{p, q} (s_{p, q} (t), a_{p}) = \\ \{\begin{array}{l} R_{p} (s_{p, q} (t), a_{p}, γ_{f}), & p \in leader \\ \min_{a_{l} \in A_{l}} R_{p} (s_{p, q} (t), a_{l}, a_{p}), & p \in follower \end{array} \\ Q_{p} (S (t), a_{p}) = \min_{j \in E_{p} (t)} Q_{p, q} (s_{p, q} (t), a_{p}) \\ γ_{p} = \underset{a_{p} \in A_{p}}{arg max} Q_{p} (S (t), a_{p}) \\ E_{p} (t) = {q \in {1,2, \dots, n} | (q \neq p) and \\ ([(x_{q} (t) - x_{p} {(t))}^{2} + (y_{q} (t) - \\ y_{p} {(t))}^{2}]^{\frac{1}{2}} \leq k_{p})} \end{array}\}$

(5)

式中: $S (t) 为 t 时刻环境中所有车辆的状态; s_{p, q} (t) 为 t 时刻第 p 辆车与第 q$ 辆车之间的相对状态;leader为领导车辆;follower为跟随车辆; $k_{p} 为笛卡尔坐标系下第 p 辆车的极限感知范围; x_{p} 为第 p 辆车的 x 轴坐标; y_{p} 为第 p 辆车的 y 轴坐标; a_{p} 为第 p 辆车的决策; A_{p} 为第 p$ 辆车的决策集.该多车博弈模型与现实汇流场景中驾驶员的交互行为有较高的一致性,人类驾驶员无论是在加速车道还是在主车道都会对感知视野内不同目标分配不同的注意力进行判断与评估.

1.2 参数化环境模型

汇流场景常位于城区高架、快速公路以及高速公路等处,由主路与辅路构成.其中,辅路为汇流车辆所行驶经过的路段,按照车辆途径顺序可分为匝道变窄路段 $\bar{OG}, 观测路段 \bar{GB} 以及加速路段 \bar{BC} 共 3 个部分,$ 如图1所示. $其中 : 笛卡尔坐标系 x 轴方向与主路朝向一致; l_{O} 为道路变窄起始距离; l_{R} 为匝道收缩距离; l_{W} 为观测车道长度; l_{Acc} 为加速车道长度;$
dR,1为外侧匝道路宽;dR为匝道总路宽;dM为主路总路宽;(dM,g)g=1N为主车道各车道路宽;dAcc为加速车道路宽;αR,1为匝道OG¯与主车道的夹角.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 汇流场景参数化建模

Fig.1 Parameterized modeling of merging scenario

以参数组P表征汇流场景的结构特征:

$\begin{matrix} P = {l_{O}, l_{R}, l_{W}, l_{Acc}, d_{R, 1}, d_{R}, d_{M}, (d_{M, g})_{g = 1}^{N}, d_{Acc}, α_{R, 1}, α_{R, 2}} \end{matrix}$

(6)

式中:α_R,2为观测车道 $\bar{GB}$ 与主车道的夹角.

匝道收缩路段 $\bar{OG} 中双车道路权相同, 但结合交替通行规则, \bar{OG} 段满足交替通行优先级的车辆将获得优先级较高的路权 .$
在车辆进入观测路段GB¯时,智能车辆将会观测主路目标车道的车辆.BC¯路段为加速车道,以供汇流车辆在此路段加速到主车道的最低限速,从而保证汇流过程中的安全.BC¯路段的路权相较于主车道路权较弱,同时由于主路上可能存在多辆环境车辆,此时博弈模型为1.1节中建立的多车博弈模型.

所建立的汇流场景参数化模型,可以根据具体的实际场景进行适配.例如,当部分汇流场景没有匝道收缩路段 $\bar{OG} 时, 令 d_{R, 1} = d_{R} 即可; 当部分场景中匝道与主路不存在夹角时, 令 α_{R, 1} = 0$ 即可实现环境建模.

1.3 车辆轨迹模型

在匝道收缩路段 $\bar{OG}$ ,假设车辆将按照有环境参数驱动的既定轨迹行驶,该假设已在众多交叉路口处得到应用^[16].汇流场景中的车辆轨迹模型如图2所示.其中:L_out为外侧道路的车辆行驶轨迹;L_ins为内侧道路车辆轨迹.由图2(a)图可知,L_out以车道中心线作为既定轨迹,L_ins采用贝塞尔曲线生成.当智能车辆位于加速车道 $\bar{BC}$ 路段时,将对目标车道可行区域进行轨迹驱动点的撒点,并生成轨迹集合T={L₁,L₂,…,L_n},随后在轨迹集合中通过博弈模型选取最优轨迹,如图2(b)所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 汇流场景中的车辆轨迹模型

Fig.2 Vehicle path model in merging scenario

2 收益函数

收益函数将显式地量化博弈参与者的目标,在汇流场景中,驾驶员以及智能驾驶车辆拥有相同的基本目标,可以概括为行驶过程中避免与环境车辆发生碰撞,并与环境车辆保持合理距离;通过并快速到达目标点;控制车辆的加速度,以优化车辆舒适性的控制收益;礼貌驾驶员的合作收益.

在计算收益函数时,运用了模型预测的思想,计算了未来帧的预测收益,从而提高模型的稳健性和安全性.考虑到基于车辆运动学模型的预测过程中会存在预测误差,针对收益函数设计了衰减因子,以提升决策方法的稳定性.

$\begin{array}{l} R_{i} (t) = \overset{H}{\sum_{k = 1}} ξ^{k - 1} R_{i} (s_{t}, t + kτ), ξ \in [0, 1] \\ R_{i} (s_{t}, t + kτ) = ω_{1} R_{A i} (s_{t}, t + kτ) + \\ ω_{2} R_{T i} (s_{t}, t + kτ) + \\ ω_{3} R_{C i} (s_{t}, t + kτ) + ω_{4} R_{G i} (s_{t}, t + kτ) \end{array}\}$

(7)

${式中:R}_{i} (t) 为 t 时刻博弈参与者的总收益函数; R_{i} (s_{t}, t + kτ) 为总预测收益; R_{A i} (s_{t}, t + kτ) 为安全预测收益; R_{T i} (s_{t}, t + kτ)$
为时间预测收益;RCi(st,t+kτ)为舒适性预测收益;RGi(st,t+kτ)为合作预测收益;τ为预测时间间隔;k为预测的时间帧数;H为预测推演的时间窗口大小;st为t时刻车辆的状态;ω1、ω2、ω3、ω4分别为4项收益的权重;ξ为衰减因子,其表现形式为预测时间间隔越长的收益在收益项Ri(t)中的占比将会越小.

同时,在对车辆运动学建模的过程中,一般对车辆模型进行简化,采用车辆二自由度模型^[18,19]实现在预测时间窗口中的车辆状态更新.

车辆安全是智能车辆行驶中最为重要的收益之一,首先定义车辆的碰撞判定以及安全距离.车辆安全收益几何模型如图3所示.其中:粗实线为车辆碰撞判定区域;粗虚线为安全预留区域; $(x_{t}, y_{t}) 为 t 时刻车辆后轴中心在笛卡尔坐标系中的坐标, l_{cf} 与 l_{cr}$
分别为车辆前、后边缘距后轴中心的碰撞判定距离;lsf与lsr分别为车辆前、后边缘距后轴中心的行车安全预留距离;wc为车辆的碰撞判定车宽;ws为车辆的行车安全预留车宽;Ac(st,t')为预测时间帧t'时刻车辆碰撞判定区的重叠面积;As(st,t')为预测时间帧t'时刻安全预留区的重叠面积.其中,安全预留区域的参数组(lsf,lsr,ws)为车速v(t)的函数.安全收益定义如下:

$\begin{array}{l} R_{A i} (s_{t}, t + kτ) = R_{A i} (s_{t}, t') = \\ - {ω_{11} [A_{c} (s_{t}, t') + v_{i} (s_{t}, t') v_{j} (s_{t}, t')] \times \\ I (A_{c} (s_{t}, t')) + ω_{12} [A_{s} (s_{t}, t') + \\ v_{i} (s_{t}, t') v_{j} (s_{t}, t')] I (A_{s} (s_{t}, t'))} \\ I (A_{c} (s_{t}, t')) = \{\begin{array}{l} 1, & A_{c} (s_{t}, t') > 0 \\ 0, & A_{c} (s_{t}, t') = 0 \end{array} \\ I (A_{s} (s_{t}, t')) = \{\begin{array}{l} 1, & A_{s} (s_{t}, t') > 0 \\ 0, & A_{s} (s_{t}, t') = 0 \end{array} \end{array}\}$

(8)

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 车辆安全收益几何模型

Fig.3 Geometric model of vehicle safety benefits

${式中:ω}_{11} 、 ω_{12} 分别为碰撞权重和安全预留权重; v_{i} (s_{t}, t') v_{j} (s_{t}, t') 为当前博弈参与者的速度, 即二者速度越大, 收益项会认为$
此隐患越危险 ,从而带来更大的惩罚;I(Ac(st,t'))与I(As(st,t'))为0-1函数,当相应的安全区域出现重叠时取为1,不重叠时取为0.

在保证车辆安全的同时,智能车辆行驶的另一个重要收益是以较短的时间到达目的地,越快的速度将会得到更多的时间收益,从而将每一时刻车辆的速度作为时间收益,收益函数定义如下:

$\begin{matrix} R_{T i} (s_{t}, t + kτ) = R_{T i} (s_{t}, t') = v_{t} (s_{t}, t') \end{matrix}$

(9)

式中: $v_{t} (s_{t}, t') 为预测时间帧 t'$ 时刻研究对象的速度.

乘客的舒适性亦为决策的收益之一,急动度为加加速度,是加速度对时间的求导,为衡量车辆控制平顺度的重要指标,并且直接影响车辆成员对舒适性的感受.车辆的舒适性预测收益可以定义为

$\begin{matrix} R_{C i} (s_{t}, t + kτ) = R_{C i} (s_{t}, t') = - J (t') \end{matrix}$

(10)

式中: $J (t') 为 t'$ 时刻车辆的急动度.

考虑到现实驾驶环境中,驾驶员在进行决策时,并不采用完全自私决策,而会考虑到自身决策对环境其他驾驶员的影响.本文提出合作预测收益 $R_{G} (s_{t}, t + kτ),$ 以实现对驾驶员合作行为的量化建模:

$R_{G i} (s_{t}, t + kτ) = R_{G i} (s_{t}, t') = - |u_{j} (s_{t}, t')|$

(11)

${式中:u}_{j} (s_{t}, t') 为参与者在其博弈环节环境中第 j 辆车辆的加速度, 以表征参与者自身决策对环境其他车辆行驶的影响 . u_{j} (s_{t}, t')$ 的值越大,代表对其他车辆的影响越大.当车辆所做出的决策会使环境中其他车辆的速度发生变化时,合作收益将会减少.智能车辆在进行决策过程中,将会考虑其对其他博弈参与者带来的影响,从而表现出与实际驾驶相符的礼貌性.

本节从安全收益、时间收益、控制收益以及合作收益4个方面对智能车辆在汇流场景中的决策目标收益进行定义.将式 (7)~(11) 与式 (5) 结合, 可得到决策的显式过程,同时由于收益函数均具有显式物理含义,大大增强了决策方法的可解释性.通过调整收益函数项的权重系数以及具体收益函数中的计算参数,即可实现对期望目标的定向决策优化.

3 决策求解方法

本文所提出的决策求解方法,以当前时刻的环境观测为输入,根据车辆路权确定其在主从博弈中的优先度,随后根据环境观测生成候选轨迹后,计算从当前时刻向前推演的博弈参与者收益,并使用基于主从模型的博弈方法得到决策计算结果:

$\begin{matrix} γ \in A = \{a_{1}, a_{2}, \dots, a_{M}\} \end{matrix}$

(12)

式中: $γ 为博弈参与者的均衡解; a_{i} 为车辆的决策, 此场景下决策的值为车辆的加速度, a_{i} = u_{i} \in [u_{\min}, u_{\max}] .$

决策模块生成的决策结果为当前时刻应采用的车辆加速度,该结果将传递给车辆的控制模块,以实现车辆的纵向控制.车辆的横向控制由路径跟踪模块实现,此处不展开讨论.所提车辆决策方法流程图如图4所示.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 面向汇流场景的决策方法流程图

Fig.4 Flowchart of decision method for merging scenario

4 实验结果与分析

本文分别在INTERACTION数据集以及NGSIM数据集上进行了实验.其中,INTERACTION数据集是由加州大学伯克利分校机械系统控制实验室(MSC Lab)等建立的一个具有国际性、对抗性、协作性的数据集^[20].其匝道收缩场景及加速车道场景如图5所示.其中:DR_DEU_Merging_MT数据集采集地点位于德国,是一个经典的道路收缩场景;DR_CHN_Merging_ZS数据集采集地点位于中国,该数据集中同时出现了道路收缩以及加速车道汇流的场景;图中数字编号为所采集的车辆编号.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 INTERACTION 数据集

Fig.5 INTERACTION dataset

NGSIM数据集^[21]由美国联邦公路局提供,本文采用文献[11]中所采用的数据集NGSIM-US 101.

采用行为预测准确率(ζ)以及平均绝对误差(MAE)作为决策方法的评估指标.行为预测准确率的定义可以表示为

$\begin{matrix} ζ = \frac{\overset{K}{\sum_{m = 1}} U (a_{m}, {\hat{a}}_{m})}{K} \end{matrix}$

(13)

式中: $K 为有汇流意图的车辆; a_{m} 为由决策算法计算得到的行为决策; {\hat{a}}_{m} 为数据集中车辆的实际行为; U (a_{m}, {\hat{a}}_{m})$ 用于判断数据集中的汇流车辆在进行决策时,是否准确预测出其在博弈中的行为决策(加速超车、汇流、减速或等待),当预测一致时为1,不一致时为0.平均绝对误差定义为

$\begin{matrix} MAE = \frac{1}{K} \overset{K}{\sum_{m = 1}} \frac{1}{E} \overset{E}{\sum_{k = 1}} |v_{m, k} - {\hat{v}}_{m, k}| \end{matrix}$

(14)

式中: $v_{m, k} 为决策算法计算得到的速度决策; {\hat{v}}_{m, k} 为数据集中车辆的实际速度; E$ 为该车辆从开始汇流至结束汇流的预测时间帧数.由于文献[11]中的决策输出为离散的行为决策,即加速等待、减速等待、汇流3个离散的行为,并未对轨迹以及控制序列进行求解.为了便于实验结果的对比,本文基于文献[11]的决策输出结果,运用其所设计的代价函数,基于模型预测控制(MPC)求解加速度输出.

分别基于3个数据集展开了决策实验,并记录了ζ与MAE的具体表现,如表1所示.其中,加粗的数据为决策表现更优的评价结果.通过对比分析可知,本文方法优于文献[11]中所提出的方法.

表1 决策方法行为预测准确率及其 $MAE$

Tab.1 Prediction accuracies of decision-making method behaviours and their $MAE$

数据集	ζ/ %		MAE/(m·s^-1)
数据集	本文方法	文献[11]	本文方法	文献[11]
INTERACTION-1	85.5	82.7	0.27	0.61
INTERACTION-2	84.1	82.4	0.36	0.75
NGSIM-US 101	89.2	89.6	0.50	0.83

新窗口打开| 下载CSV

行为预测准确率与车流量的关系如图6所示,其中:V为主路车道车辆数.在不同数据集中,随着主路车道上车流量的增大,本文所提方法与文献[11]方法相比,行为预测准确率的下降趋势较缓,从而论证了本文方法在车流密度较高的场景下有较强的稳定性.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 行为预测准确率与车流量关系

Fig.6 Behavior prediction accuracy versus traffic flow

通过实验结果对比分析可知,本文所提出的基于主从博弈的智能车辆决策方法在行为预测准确率方面,在INTERACTION数据集的表现优于文献[11],但在NGSIM-US 101数据集上的准确率略低于文献[11]中的结果,原因是由于文献[11]中针对NGSIM数据集中378对训练数据进行了针对性的参数标定,所以有一定过拟合现象的产生.在决策输出的平均绝对误差方面,本文方法优于对比文献中的方法.同时,随着主路车道上车流量的增大,本文提出的方法在行为预测准确率和MAE两个指标上的变化较少,文献[11]中的指标略有下降,从而体现出本文方法的稳健性.

5 结语

本文提出了一种基于主从博弈的汇流场景智能车决策方法,该方法通过引入路权的定义,分别构建了双车博弈模型以及多车博弈模型,用以解决汇流场景中的决策问题.此外,本文还设计了汇流场景的参数化模型,增加了决策方法的可迁移性.本文通过设计安全收益、时间收益、控制收益以及合作收益,显式地构成了车辆博弈中的目标收益函数,增加了所提决策方法的合理性与可解释性.最后,分别基于INTERACTION与NGSIM数据集进行测试与分析,验证了所提方法的有效性与稳健性.结果表明,基于主从博弈的决策方法可以和汇流场景中的路权信息有效结合,提升决策的合理性.同时,合作收益的引入可以使无人驾驶车辆解算出更加类人且安全的决策.下一步工作将致力于在更加普适的场景中研究基于博弈方法的智能车决策问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

胡兵, 杨明, 郭林栋, 等.

基于地面快速鲁棒特征的智能车全局定位方法

[J]. 上海交通大学学报, 2019, 53(2):203-208.

[本文引用: 1]

Bing

, YANG

Ming

, GUO

Lindong

, et al.

Global localization for intelligent vehicles using ground SURF

[J]. Journal of Shanghai Jiao Tong University, 2019, 53(2):203-208.

[本文引用: 1]

[2]

CAMPOS G R

, FALCONE

, SJÖBERG

Autonomous cooperative driving: A velocity-based negotiation approach for intersection crossing

[C]//16th International IEEE Conference on Intelligent Transportation Systems (ITSC 2013). The Hague, Netherlands: IEEE, 2013: 1456-1461.

[本文引用: 1]

[3]

AHMANE

, ABBAS-TURKI

, PERRONNET

, et al.

Modeling and controlling an isolated urban intersection based on cooperative vehicles

[J]. Transportation Research Part C: Emerging Technologies, 2013, 28:44-62.

DOI:10.1016/j.trc.2012.11.004 URL [本文引用: 1]

[4]

WANG

Z R

, WU

G Y

, BARTH

Distributed consensus-based cooperative highway on-ramp merging using V2X communications

[EB/OL]. (2018-04-03) [2020-06-14]. https://saemobilus.sae.org/content/2018-01-1177/ .

URL [本文引用: 1]

[5]

, ABBAS-TURKI

, EL

MOUDNI A

Cooperative driving: An ant colony system for autonomous intersection management

[J]. Applied Intelligence, 2012, 37(2):207-222.

DOI:10.1007/s10489-011-0322-z URL [本文引用: 1]

[6]

LEE

, PARK

Development and evaluation of a cooperative vehicle intersection control algorithm under the connected vehicles environment

[J]. IEEE Transactions on Intelligent Transportation Systems, 2012, 13(1):81-90.

DOI:10.1109/TITS.2011.2178836 URL [本文引用: 1]

[7]

ALTHOFF

, STURSBERG

, BUSS

Model-based probabilistic collision detection in autonomous driving

[J]. IEEE Transactions on Intelligent Transportation Systems, 2009, 10(2):299-310.

DOI:10.1109/TITS.2009.2018966 URL [本文引用: 1]

[8]

YUAN

, YANG

, HE

Y S

, et al.

Multi-reward architecture based reinforcement learning for highway driving policies

[C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC). Auckland, New Zealand: IEEE, 2019: 3810-3815.

[本文引用: 1]

[9]

CHEN

J Y

, TANG

, XIN

, et al.

Continuous decision making for on-road autonomous driving under uncertain and interactive environments

[C]//2018 IEEE Intelligent Vehicles Symposium (IV). Changshu: IEEE, 2018: 1651-1658.

[本文引用: 1]

[10]

LEURENT

, MERCAT

Social attention for autonomous decision-making in dense traffic

[EB/OL]. (2019-11-27) [2020-06-14]. https://arxiv.org/abs/1911.12250 .

URL [本文引用: 1]

[11]

KANG

, RAKHA

H A

A repeated game freeway lane changing model

[J]. Sensors, 2020, 20(6):1554.

DOI:10.3390/s20061554 URL [本文引用: 13]

[12]

H T

, TSENG

H E

, LANGARI

A human-like game theory-based controller for automatic lane changing

[J]. Transportation Research Part C: Emerging Technologies, 2018, 88:140-158.

DOI:10.1016/j.trc.2018.01.016 URL [本文引用: 1]

[13]

DREVES

, GERDTS

A generalized Nash equilibrium approach for optimal control problems of autonomous cars

[J]. Optimal Control Applications and Methods, 2018, 39(1):326-342.

DOI:10.1002/oca.v39.1 URL [本文引用: 1]

[14]

杜继永, 张凤鸣, 毛红保, 等.

多UAV协同搜索的博弈论模型及快速求解方法

[J]. 上海交通大学学报, 2013, 47(4):667-673.

[本文引用: 1]

Jiyong

, ZHANG

Fengming

, MAO

Hongbao

, et al.

Game theory based multi-UAV cooperative searching model and fast solution approach

[J]. Journal of Shanghai Jiao Tong University, 2013, 47(4):667-673.

[本文引用: 1]

[15]

BAŞAR

, OLSDER

G J

Dynamic noncooperative game theory

[EB/OL].[2020-06-14]. https://epubs.siam.org/doi/book/10.1137/1.9781611971132 .

URL [本文引用: 2]

[16]

, YAO

, KOLMANOVSKY

, et al.

Game-theoretic modeling of multi-vehicle interactions at uncontrolled intersections

[EB/OL].[2020-06-14]. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9214866 .

URL [本文引用: 2]

[17]

YOO

, LANGARI

A predictive perception model and control strategy for collision-free autonomous driving

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(11):4078-4091.

DOI:10.1109/TITS.6979 URL [本文引用: 1]

[18]

LUCA

, ORIOLO

, SAMSON

Feedback control of a nonholonomic car-like robot

[M]//LAUMOND J P. Robot Motion Planning and Control. Berlin, Germany: Springer, 1998.

[本文引用: 1]

[19]

MURRAY

R M

, SASTRY

S S

Nonholonomic motion planning: Steering using sinusoids

[J]. IEEE Transactions on Automatic Control, 1993, 38(5):700-716.

DOI:10.1109/9.277235 URL [本文引用: 1]

[20]

ZHAN

, SUN

L T

, WANG

, et al.

INTERACTION dataset: An INTERnational, adversarial and cooperative moTION dataset in interactive driving scenarios with semantic maps

[EB/OL]. (2019-09-01) [2020-06-14]. https://www.researchgate.net/publication/336413639_INTERACTION_Dataset_An_INTERnational_Adversarial_and_Cooperative_moTION_Dataset_in_Interactive_Driving_Scenarios_with_Semantic_Maps .

URL [本文引用: 1]

[21]

ALEXIADIS

, COLYAR

, HALKIAS

, et al.

The next generation simulation program

[J]. Institute of Transportation Engineers. ITE Journal, 2004, 74(8):22.

[本文引用: 1]

基于地面快速鲁棒特征的智能车全局定位方法

2019

... 智能车作为当下的研究热点之一,获得了学术界与工业界的广泛关注^[1].在车辆的正常行驶过程中经常会遇到上下匝道、车道合并、道路施工等汇流场景,尽管交通法规对这些场景有着一些指导性的规定,但由于场景的独特性和驾驶员不同的理解方式,导致汇流过程成为典型的博弈场景.如何有效提升该场景下车辆通行的效率及安全性,是智能车决策系统开发中的一个关键问题. ...

基于地面快速鲁棒特征的智能车全局定位方法

2019

Autonomous cooperative driving: A velocity-based negotiation approach for intersection crossing

2013

... 近年来,一些学者提出了基于车间协同与车路协同的方法,即运用车辆彼此之间^[2,3]以及与道路基础设施之间^[4,5,6]的通信来解决交通冲突.虽然基于车与车通讯(V2V)与车联网(V2X)的策略能够提高路口交通的安全性和效率,但其过度依赖于车间通讯设备以及路侧基础设施,在短期内仍然难以大范围推广.与此同时,大量的研究工作聚焦于对单辆智能车的决策研究,例如:基于可达性分析方法^[7],基于学习类方法^[8,9,10]以及基于博弈论的方法^[11,12,13]等.其中,基于博弈的方法被科研工作者视为对理性决策者之间交互建模的合适工具,并被多名科研人员进行讨论与实验验证.文献[11]将存在交互行为的所有决策个体视为非合作博弈中的参与者,以各方的状态改变作为博弈策略,通过构建收益矩阵后求解得到博弈模型的纳什均衡,以作为双方的最优驾驶策略组合.该方法虽在汇流场景中取得了优异的效果,但其并没有考虑汇流场景中路权的差异,忽略了人类驾驶员在实际驾驶中的礼貌因素,并且缺乏对车辆感知范围的合理限制,从而在决策建模时和实际产生偏差,降低了决策方法的稳健性. ...

Modeling and controlling an isolated urban intersection based on cooperative vehicles

2013

Distributed consensus-based cooperative highway on-ramp merging using V2X communications

2018

Cooperative driving: An ant colony system for autonomous intersection management

2012

Development and evaluation of a cooperative vehicle intersection control algorithm under the connected vehicles environment

2012

Model-based probabilistic collision detection in autonomous driving

2009

Multi-reward architecture based reinforcement learning for highway driving policies

2019

Continuous decision making for on-road autonomous driving under uncertain and interactive environments

2018

Social attention for autonomous decision-making in dense traffic

2019

A repeated game freeway lane changing model

2020

... 等.其中,基于博弈的方法被科研工作者视为对理性决策者之间交互建模的合适工具,并被多名科研人员进行讨论与实验验证.文献[11]将存在交互行为的所有决策个体视为非合作博弈中的参与者,以各方的状态改变作为博弈策略,通过构建收益矩阵后求解得到博弈模型的纳什均衡,以作为双方的最优驾驶策略组合.该方法虽在汇流场景中取得了优异的效果,但其并没有考虑汇流场景中路权的差异,忽略了人类驾驶员在实际驾驶中的礼貌因素,并且缺乏对车辆感知范围的合理限制,从而在决策建模时和实际产生偏差,降低了决策方法的稳健性. ...

... NGSIM数据集^[21]由美国联邦公路局提供,本文采用文献[11]中所采用的数据集NGSIM-US 101. ...

... 式中:

$v_{m, k} 为决策算法计算得到的速度决策; {\hat{v}}_{m, k} 为数据集中车辆的实际速度; E$

为该车辆从开始汇流至结束汇流的预测时间帧数.由于文献[11]中的决策输出为离散的行为决策,即加速等待、减速等待、汇流3个离散的行为,并未对轨迹以及控制序列进行求解.为了便于实验结果的对比,本文基于文献[11]的决策输出结果,运用其所设计的代价函数,基于模型预测控制(MPC)求解加速度输出. ...

... ]中的决策输出为离散的行为决策,即加速等待、减速等待、汇流3个离散的行为,并未对轨迹以及控制序列进行求解.为了便于实验结果的对比,本文基于文献[11]的决策输出结果,运用其所设计的代价函数,基于模型预测控制(MPC)求解加速度输出. ...

... 分别基于3个数据集展开了决策实验,并记录了ζ与MAE的具体表现,如表1所示.其中,加粗的数据为决策表现更优的评价结果.通过对比分析可知,本文方法优于文献[11]中所提出的方法. ...

... Prediction accuracies of decision-making method behaviours and their

$MAE$

Tab.1

数据集	ζ/ %		MAE/(m·s^-1)
数据集	本文方法	文献[11]	本文方法	文献[11]
INTERACTION-1	85.5	82.7	0.27	0.61
INTERACTION-2	84.1	82.4	0.36	0.75
NGSIM-US 101	89.2	89.6	0.50	0.83

行为预测准确率与车流量的关系如图6所示,其中:V为主路车道车辆数.在不同数据集中,随着主路车道上车流量的增大,本文所提方法与文献[11]方法相比,行为预测准确率的下降趋势较缓,从而论证了本文方法在车流密度较高的场景下有较强的稳定性. ...

... 文献[11] INTERACTION-1 85.5 82.7 0.27 0.61 INTERACTION-2 84.1 82.4 0.36 0.75 NGSIM-US 101 89.2 89.6 0.50 0.83

... 行为预测准确率与车流量的关系如图6所示,其中:V为主路车道车辆数.在不同数据集中,随着主路车道上车流量的增大,本文所提方法与文献[11]方法相比,行为预测准确率的下降趋势较缓,从而论证了本文方法在车流密度较高的场景下有较强的稳定性. ...

... 通过实验结果对比分析可知,本文所提出的基于主从博弈的智能车辆决策方法在行为预测准确率方面,在INTERACTION数据集的表现优于文献[11],但在NGSIM-US 101数据集上的准确率略低于文献[11]中的结果,原因是由于文献[11]中针对NGSIM数据集中378对训练数据进行了针对性的参数标定,所以有一定过拟合现象的产生.在决策输出的平均绝对误差方面,本文方法优于对比文献中的方法.同时,随着主路车道上车流量的增大,本文提出的方法在行为预测准确率和MAE两个指标上的变化较少,文献[11]中的指标略有下降,从而体现出本文方法的稳健性. ...

... ],但在NGSIM-US 101数据集上的准确率略低于文献[11]中的结果,原因是由于文献[11]中针对NGSIM数据集中378对训练数据进行了针对性的参数标定,所以有一定过拟合现象的产生.在决策输出的平均绝对误差方面,本文方法优于对比文献中的方法.同时,随着主路车道上车流量的增大,本文提出的方法在行为预测准确率和MAE两个指标上的变化较少,文献[11]中的指标略有下降,从而体现出本文方法的稳健性. ...

... ]中的结果,原因是由于文献[11]中针对NGSIM数据集中378对训练数据进行了针对性的参数标定,所以有一定过拟合现象的产生.在决策输出的平均绝对误差方面,本文方法优于对比文献中的方法.同时,随着主路车道上车流量的增大,本文提出的方法在行为预测准确率和MAE两个指标上的变化较少,文献[11]中的指标略有下降,从而体现出本文方法的稳健性. ...

... ]中针对NGSIM数据集中378对训练数据进行了针对性的参数标定,所以有一定过拟合现象的产生.在决策输出的平均绝对误差方面,本文方法优于对比文献中的方法.同时,随着主路车道上车流量的增大,本文提出的方法在行为预测准确率和MAE两个指标上的变化较少,文献[11]中的指标略有下降,从而体现出本文方法的稳健性. ...

A human-like game theory-based controller for automatic lane changing

2018

A generalized Nash equilibrium approach for optimal control problems of autonomous cars

2018

多UAV协同搜索的博弈论模型及快速求解方法

2013

... 本文提出基于主从博弈(Stackelberg-game)理论的智能车辆决策方法框架,该模型结合了两个参与者的不对称角色特性,并赋予了一个参与者相对于另一个参与者的优势^[14,15].该决策方法有效地将汇流场景中的路权因素考虑其中,例如在匝道口交替通行路段,满足交替通行规则的车辆拥有较高的路权,可以将其视为主从博弈中的领导者,而未获得交替通行权限的车辆被合理地视为跟随者.同时,本文提出驾驶员合作收益,并考虑车辆的传感器感知范围有限性以提升决策方法的安全性、合理性与稳健性.本文工作可为智能车辆在汇流场景下运用博弈方法解决决策问题的可行性提供理论验证. ...

多UAV协同搜索的博弈论模型及快速求解方法

2013

Dynamic noncooperative game theory

2020

... 选择主从博弈作为基础博弈模型,分别定义a_l与a_f为领导车辆和跟随车辆的决策,A_l与A_f分别为二者对应的决策集合.在博弈中,参与者通过选择合适的策略,最大化收益函数,领导车辆的收益函数以R_l(s,a_l,a_f)表示,跟随车辆的收益函数为R_f(s,a_l,a_f),其中

$s \in S, S = {(s_{l}, s_{f})_{t}} 为当前时刻 t$

的车辆集合状态空间.根据主从博弈均衡解的概念^[15],对两车博弈进行建模,并得到领导车辆的均衡解γ_l与跟随车辆的均衡解γ_f,则有: ...

Game-theoretic modeling of multi-vehicle interactions at uncontrolled intersections

2020

... 式中:

$A_{f}^{*} (s)$

为在当前车辆行驶环境中且结合信息完全客观假设下,跟随车辆的理性决策集.此处,假设领导车辆与跟随车辆的最优解具有全局唯一性^[16],即假设对每位博弈者(此处为领导车辆和跟随车辆),在任何一个具体状态s处,都存在一个决策要严格优于其他决策, 则有: ...

... 在匝道收缩路段

$\bar{OG}$

,假设车辆将按照有环境参数驱动的既定轨迹行驶,该假设已在众多交叉路口处得到应用^[16].汇流场景中的车辆轨迹模型如图2所示.其中:L_out为外侧道路的车辆行驶轨迹;L_ins为内侧道路车辆轨迹.由图2(a)图可知,L_out以车道中心线作为既定轨迹,L_ins采用贝塞尔曲线生成.当智能车辆位于加速车道

$\bar{BC}$

路段时,将对目标车道可行区域进行轨迹驱动点的撒点,并生成轨迹集合T={L₁,L₂,…,L_n},随后在轨迹集合中通过博弈模型选取最优轨迹,如图2(b)所示. ...

A predictive perception model and control strategy for collision-free autonomous driving

2019

... 当环境中出现众多车辆时,现有方法常通过建立两两参与者之间的博弈模型后通过均衡解得到最优决策,但该方法随着参与者数目的增加,计算复杂度将呈指数级增长^[17].考虑到驾驶员的视觉感知范围以及智能驾驶车辆的传感器感知范围有限,并结合领导车辆与跟随车辆的从属关系,有效地提高多车博弈模型的求解速度,可以表示为 ...

Feedback control of a nonholonomic car-like robot

1998

... 同时,在对车辆运动学建模的过程中,一般对车辆模型进行简化,采用车辆二自由度模型^[18,19]实现在预测时间窗口中的车辆状态更新. ...

Nonholonomic motion planning: Steering using sinusoids

1993

... 同时,在对车辆运动学建模的过程中,一般对车辆模型进行简化,采用车辆二自由度模型^[18,19]实现在预测时间窗口中的车辆状态更新. ...

INTERACTION dataset: An INTERnational, adversarial and cooperative moTION dataset in interactive driving scenarios with semantic maps

2019

... 本文分别在INTERACTION数据集以及NGSIM数据集上进行了实验.其中,INTERACTION数据集是由加州大学伯克利分校机械系统控制实验室(MSC Lab)等建立的一个具有国际性、对抗性、协作性的数据集^[20].其匝道收缩场景及加速车道场景如图5所示.其中:DR_DEU_Merging_MT数据集采集地点位于德国,是一个经典的道路收缩场景;DR_CHN_Merging_ZS数据集采集地点位于中国,该数据集中同时出现了道路收缩以及加速车道汇流的场景;图中数字编号为所采集的车辆编号. ...

The next generation simulation program

2004

... NGSIM数据集^[21]由美国联邦公路局提供,本文采用文献[11]中所采用的数据集NGSIM-US 101. ...

〈

〉