基于地面快速鲁棒特征的智能车全局定位方法
1
2019
... 智能车辆是轮式移动机器人的一种,其利用车载传感器来感知车辆周围环境,获取道路、车辆位置和障碍物等信息,生成车辆的转向与速度控制指令,从而能够安全、高效地到达目的地.经典的智能车辆系统框架由感知模块、定位模块、预测模块、决策模块、规划模块、控制模块以及车身底盘等组成[1,2]. ...
基于地面快速鲁棒特征的智能车全局定位方法
1
2019
... 智能车辆是轮式移动机器人的一种,其利用车载传感器来感知车辆周围环境,获取道路、车辆位置和障碍物等信息,生成车辆的转向与速度控制指令,从而能够安全、高效地到达目的地.经典的智能车辆系统框架由感知模块、定位模块、预测模块、决策模块、规划模块、控制模块以及车身底盘等组成[1,2]. ...
复杂环境下基于RRT的智能车辆运动规划算法
1
2015
... 智能车辆是轮式移动机器人的一种,其利用车载传感器来感知车辆周围环境,获取道路、车辆位置和障碍物等信息,生成车辆的转向与速度控制指令,从而能够安全、高效地到达目的地.经典的智能车辆系统框架由感知模块、定位模块、预测模块、决策模块、规划模块、控制模块以及车身底盘等组成[1,2]. ...
复杂环境下基于RRT的智能车辆运动规划算法
1
2015
... 智能车辆是轮式移动机器人的一种,其利用车载传感器来感知车辆周围环境,获取道路、车辆位置和障碍物等信息,生成车辆的转向与速度控制指令,从而能够安全、高效地到达目的地.经典的智能车辆系统框架由感知模块、定位模块、预测模块、决策模块、规划模块、控制模块以及车身底盘等组成[1,2]. ...
城市环境下无人驾驶车辆决策系统研究
1
2014
... 现阶段已有部分学者对智能车辆的决策方法进行了归纳与整理.文献[3]对具体的决策系统方法进行了归纳与介绍,其分别总结了Boss、Junior、Odin、Talos等系统的决策方法.然而,该文献从决策系统的角度对决策方法展开归纳,并未对具体决策方法的类型进行分类,并且该文献所包括的决策方法多为传统方法,对现阶段常见的学习类、博弈类等决策方法的论述较少.文献[4]对智能车辆的决策规划方法进行了归纳,其将车辆的决策方法分为基于博弈理论、基于概率、基于部分可观察的Markov决策过程以及基于学习4个类别,该文献清晰地对现有决策工作进行了总结.然而,该综述并未对基于学习类的方法进行进一步细分介绍,并且基于博弈的决策方法与其他三类决策方法并未形成鲜明的对立关系,存在一定的重合性,从而该文献的分类标准需要进一步优化.文献[5]将智能车决策方法分类为基于规则的决策方法以及基于学习的决策方法,并将学习类算法进一步细分为深度学习方法与其他学习方法.该文献的分类方式较为概括,不利于决策研究者快速了解现阶段的决策方法及研究进展.通过对上述现有决策研究综述的分析发现,其均缺少对不同类型决策方法的适用场景的分析,且目前对于如何评估决策方法的性能以及如何制定合理的评估指标,缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对智能车辆决策方法研究常用的数据集进行整理与归纳. ...
城市环境下无人驾驶车辆决策系统研究
1
2014
... 现阶段已有部分学者对智能车辆的决策方法进行了归纳与整理.文献[3]对具体的决策系统方法进行了归纳与介绍,其分别总结了Boss、Junior、Odin、Talos等系统的决策方法.然而,该文献从决策系统的角度对决策方法展开归纳,并未对具体决策方法的类型进行分类,并且该文献所包括的决策方法多为传统方法,对现阶段常见的学习类、博弈类等决策方法的论述较少.文献[4]对智能车辆的决策规划方法进行了归纳,其将车辆的决策方法分为基于博弈理论、基于概率、基于部分可观察的Markov决策过程以及基于学习4个类别,该文献清晰地对现有决策工作进行了总结.然而,该综述并未对基于学习类的方法进行进一步细分介绍,并且基于博弈的决策方法与其他三类决策方法并未形成鲜明的对立关系,存在一定的重合性,从而该文献的分类标准需要进一步优化.文献[5]将智能车决策方法分类为基于规则的决策方法以及基于学习的决策方法,并将学习类算法进一步细分为深度学习方法与其他学习方法.该文献的分类方式较为概括,不利于决策研究者快速了解现阶段的决策方法及研究进展.通过对上述现有决策研究综述的分析发现,其均缺少对不同类型决策方法的适用场景的分析,且目前对于如何评估决策方法的性能以及如何制定合理的评估指标,缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对智能车辆决策方法研究常用的数据集进行整理与归纳. ...
Planning and decision-making for autonomous vehicles
1
2018
... 现阶段已有部分学者对智能车辆的决策方法进行了归纳与整理.文献[3]对具体的决策系统方法进行了归纳与介绍,其分别总结了Boss、Junior、Odin、Talos等系统的决策方法.然而,该文献从决策系统的角度对决策方法展开归纳,并未对具体决策方法的类型进行分类,并且该文献所包括的决策方法多为传统方法,对现阶段常见的学习类、博弈类等决策方法的论述较少.文献[4]对智能车辆的决策规划方法进行了归纳,其将车辆的决策方法分为基于博弈理论、基于概率、基于部分可观察的Markov决策过程以及基于学习4个类别,该文献清晰地对现有决策工作进行了总结.然而,该综述并未对基于学习类的方法进行进一步细分介绍,并且基于博弈的决策方法与其他三类决策方法并未形成鲜明的对立关系,存在一定的重合性,从而该文献的分类标准需要进一步优化.文献[5]将智能车决策方法分类为基于规则的决策方法以及基于学习的决策方法,并将学习类算法进一步细分为深度学习方法与其他学习方法.该文献的分类方式较为概括,不利于决策研究者快速了解现阶段的决策方法及研究进展.通过对上述现有决策研究综述的分析发现,其均缺少对不同类型决策方法的适用场景的分析,且目前对于如何评估决策方法的性能以及如何制定合理的评估指标,缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对智能车辆决策方法研究常用的数据集进行整理与归纳. ...
无人驾驶车辆行为决策系统研究
3
2018
... 现阶段已有部分学者对智能车辆的决策方法进行了归纳与整理.文献[3]对具体的决策系统方法进行了归纳与介绍,其分别总结了Boss、Junior、Odin、Talos等系统的决策方法.然而,该文献从决策系统的角度对决策方法展开归纳,并未对具体决策方法的类型进行分类,并且该文献所包括的决策方法多为传统方法,对现阶段常见的学习类、博弈类等决策方法的论述较少.文献[4]对智能车辆的决策规划方法进行了归纳,其将车辆的决策方法分为基于博弈理论、基于概率、基于部分可观察的Markov决策过程以及基于学习4个类别,该文献清晰地对现有决策工作进行了总结.然而,该综述并未对基于学习类的方法进行进一步细分介绍,并且基于博弈的决策方法与其他三类决策方法并未形成鲜明的对立关系,存在一定的重合性,从而该文献的分类标准需要进一步优化.文献[5]将智能车决策方法分类为基于规则的决策方法以及基于学习的决策方法,并将学习类算法进一步细分为深度学习方法与其他学习方法.该文献的分类方式较为概括,不利于决策研究者快速了解现阶段的决策方法及研究进展.通过对上述现有决策研究综述的分析发现,其均缺少对不同类型决策方法的适用场景的分析,且目前对于如何评估决策方法的性能以及如何制定合理的评估指标,缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对智能车辆决策方法研究常用的数据集进行整理与归纳. ...
... 非学习类的决策方法又称为传统决策方法,其主要代表为有限状态机(FSM)方法,该方法由于其稳定性在现阶段仍得到了广泛的应用.基于状态机的决策方法有着结构简单、可解释性强的特点.FSM是一种离散输入、输出系统的数学模型,其由有限个状态组成,当前状态接收事件并产生相应的动作,进而引起状态的转移.状态、事件、转移、动作是有限状态机的四大要素.根据状态分解以及连接逻辑,将其分为串联式、并联式、混联式3种体系架构[5]. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
无人驾驶车辆行为决策系统研究
3
2018
... 现阶段已有部分学者对智能车辆的决策方法进行了归纳与整理.文献[3]对具体的决策系统方法进行了归纳与介绍,其分别总结了Boss、Junior、Odin、Talos等系统的决策方法.然而,该文献从决策系统的角度对决策方法展开归纳,并未对具体决策方法的类型进行分类,并且该文献所包括的决策方法多为传统方法,对现阶段常见的学习类、博弈类等决策方法的论述较少.文献[4]对智能车辆的决策规划方法进行了归纳,其将车辆的决策方法分为基于博弈理论、基于概率、基于部分可观察的Markov决策过程以及基于学习4个类别,该文献清晰地对现有决策工作进行了总结.然而,该综述并未对基于学习类的方法进行进一步细分介绍,并且基于博弈的决策方法与其他三类决策方法并未形成鲜明的对立关系,存在一定的重合性,从而该文献的分类标准需要进一步优化.文献[5]将智能车决策方法分类为基于规则的决策方法以及基于学习的决策方法,并将学习类算法进一步细分为深度学习方法与其他学习方法.该文献的分类方式较为概括,不利于决策研究者快速了解现阶段的决策方法及研究进展.通过对上述现有决策研究综述的分析发现,其均缺少对不同类型决策方法的适用场景的分析,且目前对于如何评估决策方法的性能以及如何制定合理的评估指标,缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对智能车辆决策方法研究常用的数据集进行整理与归纳. ...
... 非学习类的决策方法又称为传统决策方法,其主要代表为有限状态机(FSM)方法,该方法由于其稳定性在现阶段仍得到了广泛的应用.基于状态机的决策方法有着结构简单、可解释性强的特点.FSM是一种离散输入、输出系统的数学模型,其由有限个状态组成,当前状态接收事件并产生相应的动作,进而引起状态的转移.状态、事件、转移、动作是有限状态机的四大要素.根据状态分解以及连接逻辑,将其分为串联式、并联式、混联式3种体系架构[5]. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Human-like decision-making for automated driving in highways
2
2019
... 文献[6]以部分可观信息作为决策模块的输入,运用部分可观察Markov决策过程(POMDP)方法实现车辆的决策.文献[7]运用真实的部分感知数据,结合概率估计方法,设计了高速公路场景下针对部分可观环境的决策方法.文献[8]同样运用实车测试中得到的传感器处理数据作为模型输入,训练了基于分层状态机的智能车辆决策模型. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
Decision-making framework for automated driving in highway environments
1
2018
... 文献[6]以部分可观信息作为决策模块的输入,运用部分可观察Markov决策过程(POMDP)方法实现车辆的决策.文献[7]运用真实的部分感知数据,结合概率估计方法,设计了高速公路场景下针对部分可观环境的决策方法.文献[8]同样运用实车测试中得到的传感器处理数据作为模型输入,训练了基于分层状态机的智能车辆决策模型. ...
Decision-making of lane change behavior based on RCS for automated vehicles in the real environment
6
2018
... 文献[6]以部分可观信息作为决策模块的输入,运用部分可观察Markov决策过程(POMDP)方法实现车辆的决策.文献[7]运用真实的部分感知数据,结合概率估计方法,设计了高速公路场景下针对部分可观环境的决策方法.文献[8]同样运用实车测试中得到的传感器处理数据作为模型输入,训练了基于分层状态机的智能车辆决策模型. ...
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... [
8]、[
13]、[
22-
24]
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... 文献[37]运用决策树方法对智能车辆决策模块进行建模.决策树方法可以视为状态机方法的抽象方法,决策树方法将状态机中生成的决策以树状形式维护起来.当车辆处于不同的决策场景中时,通过计算车辆状态,在决策树中检索具体的最优行为决策.文献[8]提出一种基于层次状态机的智能车辆换道决策方法,该决策框架由两部分组成:微型场景信息模型和基于多属性决策的车道变更行为的决策模型. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Merging in congested freeway traffic using multipolicy decision making and passive actor-critic learning
4
2019
... 路侧感知模块信息常常由高空摄像机或无人机拍摄获得,或者由仿真模拟器直接生成.在这种场景下,智能车辆可以获得所有周边车辆相对于其的位置、速度等信息.文献[9]以高空摄像机生成的下一代仿真(NGSIM)数据集作为模型的输入,运用pAC(Passive Actor-Critic)方法完成车辆汇流时的决策.文献[10,11]同样基于完全可观数据,结合博弈论模型,解决了智能车辆变道场景下的决策问题.文献[12]运用路侧感知模块信息作为决策模块的输入,在强化学习(RL)技术的基础上,提出了一种合作的变道策略. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... 博弈论的思想已融入到众多决策方法中,多策略决策(MPDM)方法将博弈形式作为决策方法的基础.该方法为环境中的所有参与者设置了相同的策略空间,对全体参与者所有可能的选择的决策组,MPDM设计了一个类似于模型预测控制(MPC)的推演窗口,计算出不同的子策略集所对应的全局损失函数cost,然后在cost集里面选择cost最小值所对应的决策集作为当前的最优决策[29].文献[32]针对动态不确定的智能车辆环境,设计了基于MPDM的决策方法.文献[9]将MPDM与 pAC结合,运用MPDM计算汇流的候选点,使pAC的总体成功率达到了与人类驾驶员相当的92%. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
A repeated game freeway lane changing model
3
2020
... 路侧感知模块信息常常由高空摄像机或无人机拍摄获得,或者由仿真模拟器直接生成.在这种场景下,智能车辆可以获得所有周边车辆相对于其的位置、速度等信息.文献[9]以高空摄像机生成的下一代仿真(NGSIM)数据集作为模型的输入,运用pAC(Passive Actor-Critic)方法完成车辆汇流时的决策.文献[10,11]同样基于完全可观数据,结合博弈论模型,解决了智能车辆变道场景下的决策问题.文献[12]运用路侧感知模块信息作为决策模块的输入,在强化学习(RL)技术的基础上,提出了一种合作的变道策略. ...
... 文献[10]通过在驾驶员之间运用博弈论方法,解决了高速公路匝道口汇入的困难场景问题.文献[26]通过对路口场景的车辆进行建模,运用加减速度决策对建立Nash矩阵,并生成最终决策.在Nash矩阵中,每一个决策者的收益值会受其余所有决策者的决策影响,所以决策Nash矩阵的维度将随着决策者数量的增加呈指数型增长,这将带来计算时间的指数型增加.为了解决该问题,可以采用基于树搜索的算法.文献[31]运用蒙特卡洛树(MCT)加速最优值的搜索.文献[30]引入了车辆的运动学、动力学限制,通过递归的方式,减少了搜索的空间.文献[28]则通过引入Stackelberg博弈来减少智能车辆自身的决策空间.Stackelberg博弈为两阶段的完全信息动态博弈,博弈双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到Nash均衡.在该文献中让智能车辆作为该博弈场景中的先导决策方,率先作出即使所有环境车辆做出最恶劣举措下的自身最优决策.对于其他环境中的参与者,算法假设其均采取相同的策略,然后系统通过迭代直到收敛.该方案将决策方法的计算量减少为随决策参与者线性增长,实现了运算的加速. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
Game theoretical approach to model decision making for merging maneuvers at freeway on-ramps
2
2623
... 路侧感知模块信息常常由高空摄像机或无人机拍摄获得,或者由仿真模拟器直接生成.在这种场景下,智能车辆可以获得所有周边车辆相对于其的位置、速度等信息.文献[9]以高空摄像机生成的下一代仿真(NGSIM)数据集作为模型的输入,运用pAC(Passive Actor-Critic)方法完成车辆汇流时的决策.文献[10,11]同样基于完全可观数据,结合博弈论模型,解决了智能车辆变道场景下的决策问题.文献[12]运用路侧感知模块信息作为决策模块的输入,在强化学习(RL)技术的基础上,提出了一种合作的变道策略. ...
... 5.1.2 基于数据集的评估方法 另一种常见的评估方法是基于已有的数据集对决策方法进行评估.在运用数据集对智能车辆决策方法进行评估时,一个主要特点是数据集中的车辆轨迹是既定的.在众多采用此方法进行评估的研究工作中,常见的方式为将数据集中的目标车辆(例如正在或即将进行换道、汇流的车辆)替换为采用目标决策方法的智能车辆,随后根据该智能车辆能否安全顺利完成指定目标来进行评估.同时,除了将目标完成度作为度量指标外,在模拟评估过程中车辆的碰撞率、平稳性、最小安全距离等指标也将作为评价函数的子属性对决策方法进行评估.文献[62]在论文中设计了评估指标,并运用NGSIM数据集对其提出的基于pAC的决策方法的评估.文献[11]运用NGSIM数据集中的汇流场景,对其基于博弈论的决策方法进行评估验证,并以汇流是否成功作为评估指标.文献[25]运用NGSIM数据集验证其车辆换道决策的类人性与安全性. ...
Merging and diverging impact on mixed traffic of regular and autonomous vehicles
1
2020
... 路侧感知模块信息常常由高空摄像机或无人机拍摄获得,或者由仿真模拟器直接生成.在这种场景下,智能车辆可以获得所有周边车辆相对于其的位置、速度等信息.文献[9]以高空摄像机生成的下一代仿真(NGSIM)数据集作为模型的输入,运用pAC(Passive Actor-Critic)方法完成车辆汇流时的决策.文献[10,11]同样基于完全可观数据,结合博弈论模型,解决了智能车辆变道场景下的决策问题.文献[12]运用路侧感知模块信息作为决策模块的输入,在强化学习(RL)技术的基础上,提出了一种合作的变道策略. ...
Automated speed and lane change decision making using deep reinforcement learning
4
2018
... 除了通过高空相机获得路侧感知模块信息,现阶段部分研究成果采用仿真器生成的路侧感知数据作为决策模型的输入.文献[13]以三车道仿真平台的完全可观数据作为系统输入,运用强化学习方法实现速度决策以及变道决策.文献[14]结合基于规则的约束,将基于深度Q网络方法用于自动驾驶车道变更决策任务.文献[15]同样以三车道仿真平台的观测数据作为模块输入,提出了一种基于进化学习的智能车辆决策方法. ...
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... 5.1.1 自建仿真场景的评估方法 自建仿真场景并设计智能机器人模仿环境参与者以进行决策方法的评估是现阶段常见的评估方法.该方法中,科研工作者常搭建仿真环境,并定义具体的指标来衡量算法的优越性,例如安全、效率、舒适的量化指标,是否会发生碰撞以及碰撞发生的最小时间等.文献[15]建立了三车道仿真平台,并基于此评估了其提出的基于进化学习的智能车辆决策方法.文献[22]设计了两个评估指标:延长碰撞时间(ETTC)和动态预测距离分布(DPIDP),并在自建的仿真平台上进行了决策方法评估与验证.文献[59]通过设计路口仿真器,验证了其提出的基于可到达集的决策方法.文献[60]设计了T型路口仿真器,通过对比碰撞率以及通过时间来评估其决策方法.文献[13]以及[23-24]同样采用自建仿真场景来进行评估. ...
Automated lane change decision making using deep reinforcement learning in dynamic and uncertain highway environment
1
2019
... 除了通过高空相机获得路侧感知模块信息,现阶段部分研究成果采用仿真器生成的路侧感知数据作为决策模型的输入.文献[13]以三车道仿真平台的完全可观数据作为系统输入,运用强化学习方法实现速度决策以及变道决策.文献[14]结合基于规则的约束,将基于深度Q网络方法用于自动驾驶车道变更决策任务.文献[15]同样以三车道仿真平台的观测数据作为模块输入,提出了一种基于进化学习的智能车辆决策方法. ...
Evolutionary learning in decision making for tactical lane changing
4
2019
... 除了通过高空相机获得路侧感知模块信息,现阶段部分研究成果采用仿真器生成的路侧感知数据作为决策模型的输入.文献[13]以三车道仿真平台的完全可观数据作为系统输入,运用强化学习方法实现速度决策以及变道决策.文献[14]结合基于规则的约束,将基于深度Q网络方法用于自动驾驶车道变更决策任务.文献[15]同样以三车道仿真平台的观测数据作为模块输入,提出了一种基于进化学习的智能车辆决策方法. ...
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... 5.1.1 自建仿真场景的评估方法 自建仿真场景并设计智能机器人模仿环境参与者以进行决策方法的评估是现阶段常见的评估方法.该方法中,科研工作者常搭建仿真环境,并定义具体的指标来衡量算法的优越性,例如安全、效率、舒适的量化指标,是否会发生碰撞以及碰撞发生的最小时间等.文献[15]建立了三车道仿真平台,并基于此评估了其提出的基于进化学习的智能车辆决策方法.文献[22]设计了两个评估指标:延长碰撞时间(ETTC)和动态预测距离分布(DPIDP),并在自建的仿真平台上进行了决策方法评估与验证.文献[59]通过设计路口仿真器,验证了其提出的基于可到达集的决策方法.文献[60]设计了T型路口仿真器,通过对比碰撞率以及通过时间来评估其决策方法.文献[13]以及[23-24]同样采用自建仿真场景来进行评估. ...
End-to-end driving via conditional imitation learning
4
2018
... 现阶段存在部分决策方法直接以传感器的原始数据作为决策方法的输入信息.文献[16]以视觉传感器获得的图像信号作为系统输入,运用端到端算法设计车辆决策模块,使车辆在即将驶入的路口作出合理的决策.文献[17]基于递归神经网络(RNN)以及生成的对抗网络设计了端到端决策模块.文献[18,19,20]以车辆摄像头的图像信息作为决策模块的输入,训练出决策指令.文献[21]也同样采用了车载传感器的原始数据作为输入. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... 现阶段已有众多国内外科研机构基于深度监督学习方法对车辆决策进行了研究.文献[38]提出基于注意力机制的车辆决策方法,以实现在拥挤车流中的决策.文献[39]运用多任务学习(MT-LfD)框架实现对环境车辆的决策预测.同样基于监督学习开展科研工作的还有英特尔公司的端到端决策模块[16],Comma.ai公司所提出的基于RNN的端到端决策模块[17].文献[25]以NGSIM数据集作为训练数据,设计了基于长短时记忆(LSTM)神经网络和条件随机场(CRF)模型的类人决策算法,提高了车辆换道决策的成功率.相似的研究还有百度 Apollo 团队的研究成果[40],其运用基于深度监督学习的决策方法,实现了对智能车辆的横向控制与纵向控制.Apollo团队运用CNN实现车辆的横向控制,该决策模块以前视摄像机的图片作为决策方法的输入,决策模块直接计算出方向盘的期望偏角,以实现对路径的跟踪.同时,Apollo团队采用LSTM模型,从图像时间序列中获取油门与刹车的控制量. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Learning a driving simulator
3
2016
... 现阶段存在部分决策方法直接以传感器的原始数据作为决策方法的输入信息.文献[16]以视觉传感器获得的图像信号作为系统输入,运用端到端算法设计车辆决策模块,使车辆在即将驶入的路口作出合理的决策.文献[17]基于递归神经网络(RNN)以及生成的对抗网络设计了端到端决策模块.文献[18,19,20]以车辆摄像头的图像信息作为决策模块的输入,训练出决策指令.文献[21]也同样采用了车载传感器的原始数据作为输入. ...
... 现阶段已有众多国内外科研机构基于深度监督学习方法对车辆决策进行了研究.文献[38]提出基于注意力机制的车辆决策方法,以实现在拥挤车流中的决策.文献[39]运用多任务学习(MT-LfD)框架实现对环境车辆的决策预测.同样基于监督学习开展科研工作的还有英特尔公司的端到端决策模块[16],Comma.ai公司所提出的基于RNN的端到端决策模块[17].文献[25]以NGSIM数据集作为训练数据,设计了基于长短时记忆(LSTM)神经网络和条件随机场(CRF)模型的类人决策算法,提高了车辆换道决策的成功率.相似的研究还有百度 Apollo 团队的研究成果[40],其运用基于深度监督学习的决策方法,实现了对智能车辆的横向控制与纵向控制.Apollo团队运用CNN实现车辆的横向控制,该决策模块以前视摄像机的图片作为决策方法的输入,决策模块直接计算出方向盘的期望偏角,以实现对路径的跟踪.同时,Apollo团队采用LSTM模型,从图像时间序列中获取油门与刹车的控制量. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Longitudinal and lateral coupling model based end-to-end learning for lane keeping of self-driving cars
1
2019
... 现阶段存在部分决策方法直接以传感器的原始数据作为决策方法的输入信息.文献[16]以视觉传感器获得的图像信号作为系统输入,运用端到端算法设计车辆决策模块,使车辆在即将驶入的路口作出合理的决策.文献[17]基于递归神经网络(RNN)以及生成的对抗网络设计了端到端决策模块.文献[18,19,20]以车辆摄像头的图像信息作为决策模块的输入,训练出决策指令.文献[21]也同样采用了车载传感器的原始数据作为输入. ...
End-to-end learning for high-precision lane keeping via multi-state model
2
2018
... 现阶段存在部分决策方法直接以传感器的原始数据作为决策方法的输入信息.文献[16]以视觉传感器获得的图像信号作为系统输入,运用端到端算法设计车辆决策模块,使车辆在即将驶入的路口作出合理的决策.文献[17]基于递归神经网络(RNN)以及生成的对抗网络设计了端到端决策模块.文献[18,19,20]以车辆摄像头的图像信息作为决策模块的输入,训练出决策指令.文献[21]也同样采用了车载传感器的原始数据作为输入. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
Baidu driving dataset and end-to-end reactive control model
3
2017
... 现阶段存在部分决策方法直接以传感器的原始数据作为决策方法的输入信息.文献[16]以视觉传感器获得的图像信号作为系统输入,运用端到端算法设计车辆决策模块,使车辆在即将驶入的路口作出合理的决策.文献[17]基于递归神经网络(RNN)以及生成的对抗网络设计了端到端决策模块.文献[18,19,20]以车辆摄像头的图像信息作为决策模块的输入,训练出决策指令.文献[21]也同样采用了车载传感器的原始数据作为输入. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... -
20]、[
27]、[
30]
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
Explaining how a deep neural network trained with end-to-end learning steers a car
1
2017
... 现阶段存在部分决策方法直接以传感器的原始数据作为决策方法的输入信息.文献[16]以视觉传感器获得的图像信号作为系统输入,运用端到端算法设计车辆决策模块,使车辆在即将驶入的路口作出合理的决策.文献[17]基于递归神经网络(RNN)以及生成的对抗网络设计了端到端决策模块.文献[18,19,20]以车辆摄像头的图像信息作为决策模块的输入,训练出决策指令.文献[21]也同样采用了车载传感器的原始数据作为输入. ...
Safe autonomous overtaking maneuver based on inter-vehicular distance prediction and multi-level Bayesian decision-making
3
2018
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... 5.1.1 自建仿真场景的评估方法 自建仿真场景并设计智能机器人模仿环境参与者以进行决策方法的评估是现阶段常见的评估方法.该方法中,科研工作者常搭建仿真环境,并定义具体的指标来衡量算法的优越性,例如安全、效率、舒适的量化指标,是否会发生碰撞以及碰撞发生的最小时间等.文献[15]建立了三车道仿真平台,并基于此评估了其提出的基于进化学习的智能车辆决策方法.文献[22]设计了两个评估指标:延长碰撞时间(ETTC)和动态预测距离分布(DPIDP),并在自建的仿真平台上进行了决策方法评估与验证.文献[59]通过设计路口仿真器,验证了其提出的基于可到达集的决策方法.文献[60]设计了T型路口仿真器,通过对比碰撞率以及通过时间来评估其决策方法.文献[13]以及[23-24]同样采用自建仿真场景来进行评估. ...
Learning when to drive in intersections by combining reinforcement learning and model predictive control
1
2019
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
Decision-making for automated vehicles using a hierarchical behavior-based arbitration scheme
2
2020
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
Human-like maneuver decision using LSTM-CRF model for on-road self-driving
4
2018
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... 现阶段已有众多国内外科研机构基于深度监督学习方法对车辆决策进行了研究.文献[38]提出基于注意力机制的车辆决策方法,以实现在拥挤车流中的决策.文献[39]运用多任务学习(MT-LfD)框架实现对环境车辆的决策预测.同样基于监督学习开展科研工作的还有英特尔公司的端到端决策模块[16],Comma.ai公司所提出的基于RNN的端到端决策模块[17].文献[25]以NGSIM数据集作为训练数据,设计了基于长短时记忆(LSTM)神经网络和条件随机场(CRF)模型的类人决策算法,提高了车辆换道决策的成功率.相似的研究还有百度 Apollo 团队的研究成果[40],其运用基于深度监督学习的决策方法,实现了对智能车辆的横向控制与纵向控制.Apollo团队运用CNN实现车辆的横向控制,该决策模块以前视摄像机的图片作为决策方法的输入,决策模块直接计算出方向盘的期望偏角,以实现对路径的跟踪.同时,Apollo团队采用LSTM模型,从图像时间序列中获取油门与刹车的控制量. ...
... 5.1.2 基于数据集的评估方法 另一种常见的评估方法是基于已有的数据集对决策方法进行评估.在运用数据集对智能车辆决策方法进行评估时,一个主要特点是数据集中的车辆轨迹是既定的.在众多采用此方法进行评估的研究工作中,常见的方式为将数据集中的目标车辆(例如正在或即将进行换道、汇流的车辆)替换为采用目标决策方法的智能车辆,随后根据该智能车辆能否安全顺利完成指定目标来进行评估.同时,除了将目标完成度作为度量指标外,在模拟评估过程中车辆的碰撞率、平稳性、最小安全距离等指标也将作为评价函数的子属性对决策方法进行评估.文献[62]在论文中设计了评估指标,并运用NGSIM数据集对其提出的基于pAC的决策方法的评估.文献[11]运用NGSIM数据集中的汇流场景,对其基于博弈论的决策方法进行评估验证,并以汇流是否成功作为评估指标.文献[25]运用NGSIM数据集验证其车辆换道决策的类人性与安全性. ...
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
有人与无人驾驶车辆交叉口驾驶博弈模型
4
2019
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... 基于博弈论的决策方法认为智能车辆与环境中的周边车辆存在博弈关系,常见的建模方式为将存在交互行为的所有决策个体视为博弈中的参与者,各方的状态改变为博弈策略,以此构建双方的收益矩阵,通过求解博弈模型的Nash均衡,作为双方的最优驾驶策略组合.现阶段研究常用的博弈参与者收益由自车的安全性、效率以及舒适性等指标构成[26]. ...
... 文献[10]通过在驾驶员之间运用博弈论方法,解决了高速公路匝道口汇入的困难场景问题.文献[26]通过对路口场景的车辆进行建模,运用加减速度决策对建立Nash矩阵,并生成最终决策.在Nash矩阵中,每一个决策者的收益值会受其余所有决策者的决策影响,所以决策Nash矩阵的维度将随着决策者数量的增加呈指数型增长,这将带来计算时间的指数型增加.为了解决该问题,可以采用基于树搜索的算法.文献[31]运用蒙特卡洛树(MCT)加速最优值的搜索.文献[30]引入了车辆的运动学、动力学限制,通过递归的方式,减少了搜索的空间.文献[28]则通过引入Stackelberg博弈来减少智能车辆自身的决策空间.Stackelberg博弈为两阶段的完全信息动态博弈,博弈双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到Nash均衡.在该文献中让智能车辆作为该博弈场景中的先导决策方,率先作出即使所有环境车辆做出最恶劣举措下的自身最优决策.对于其他环境中的参与者,算法假设其均采取相同的策略,然后系统通过迭代直到收敛.该方案将决策方法的计算量减少为随决策参与者线性增长,实现了运算的加速. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
有人与无人驾驶车辆交叉口驾驶博弈模型
4
2019
... 文献[22]利用Bayesian网络,将决策层的输出划分为采用自适应巡航控制(ACC)跟车策略、向左变道、向右变道以及保持当前速度4种离散决策以决定智能车辆是否进行超车行为.文献[13]将强化学习决策模块的输出根据速度进行了更细一步的划分.文献[8]提出的分层状态机决策方法以离散的决策作为输出.文献[23]基于强化学习的决策研究与文献[24]基于POMDP的研究同样以离散决策作为模块的输出.类似的,文献[15]将决策模块的输出空间分为保持直行、左变道以及右变道3种离散决策.文献[25]基于长短期记忆网络-条件随机场(LSTM-CRF)方法,为车辆变道场景做出决策,决策模块的输出为保持直行、准备变道、左变道和右变道4种决策.文献[26]基于博弈论方法,生成6个离散的加速度,以实现智能车辆与环境车辆在路口的行为决策. ...
... 基于博弈论的决策方法认为智能车辆与环境中的周边车辆存在博弈关系,常见的建模方式为将存在交互行为的所有决策个体视为博弈中的参与者,各方的状态改变为博弈策略,以此构建双方的收益矩阵,通过求解博弈模型的Nash均衡,作为双方的最优驾驶策略组合.现阶段研究常用的博弈参与者收益由自车的安全性、效率以及舒适性等指标构成[26]. ...
... 文献[10]通过在驾驶员之间运用博弈论方法,解决了高速公路匝道口汇入的困难场景问题.文献[26]通过对路口场景的车辆进行建模,运用加减速度决策对建立Nash矩阵,并生成最终决策.在Nash矩阵中,每一个决策者的收益值会受其余所有决策者的决策影响,所以决策Nash矩阵的维度将随着决策者数量的增加呈指数型增长,这将带来计算时间的指数型增加.为了解决该问题,可以采用基于树搜索的算法.文献[31]运用蒙特卡洛树(MCT)加速最优值的搜索.文献[30]引入了车辆的运动学、动力学限制,通过递归的方式,减少了搜索的空间.文献[28]则通过引入Stackelberg博弈来减少智能车辆自身的决策空间.Stackelberg博弈为两阶段的完全信息动态博弈,博弈双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到Nash均衡.在该文献中让智能车辆作为该博弈场景中的先导决策方,率先作出即使所有环境车辆做出最恶劣举措下的自身最优决策.对于其他环境中的参与者,算法假设其均采取相同的策略,然后系统通过迭代直到收敛.该方案将决策方法的计算量减少为随决策参与者线性增长,实现了运算的加速. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
End-to-end learning for lane keeping of self-driving cars
2
2017
... 文献[27]运用卷积神经网络(CNN)训练了决策模型,并以方向盘转角作为决策模块的输出.文献[28,29]将车辆的方向盘转角作为决策模块的输出.以广义类型作为输出的决策方法,在解空间上有更广泛的遍历,该特性赋予了决策方法更多求解优化的空间,从而可以得出更加贴近实际的决策.但广义类型的决策输出具有较高的意图不确定性,如何通过可解释性规则进行约束以提高决策方法的可解释性以及安全性是当下研究的一个热点方向. ...
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
Game theoretic modeling of driver and vehicle interactions for verification and validation of autonomous vehicle control systems
3
2018
... 文献[27]运用卷积神经网络(CNN)训练了决策模型,并以方向盘转角作为决策模块的输出.文献[28,29]将车辆的方向盘转角作为决策模块的输出.以广义类型作为输出的决策方法,在解空间上有更广泛的遍历,该特性赋予了决策方法更多求解优化的空间,从而可以得出更加贴近实际的决策.但广义类型的决策输出具有较高的意图不确定性,如何通过可解释性规则进行约束以提高决策方法的可解释性以及安全性是当下研究的一个热点方向. ...
... 文献[10]通过在驾驶员之间运用博弈论方法,解决了高速公路匝道口汇入的困难场景问题.文献[26]通过对路口场景的车辆进行建模,运用加减速度决策对建立Nash矩阵,并生成最终决策.在Nash矩阵中,每一个决策者的收益值会受其余所有决策者的决策影响,所以决策Nash矩阵的维度将随着决策者数量的增加呈指数型增长,这将带来计算时间的指数型增加.为了解决该问题,可以采用基于树搜索的算法.文献[31]运用蒙特卡洛树(MCT)加速最优值的搜索.文献[30]引入了车辆的运动学、动力学限制,通过递归的方式,减少了搜索的空间.文献[28]则通过引入Stackelberg博弈来减少智能车辆自身的决策空间.Stackelberg博弈为两阶段的完全信息动态博弈,博弈双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到Nash均衡.在该文献中让智能车辆作为该博弈场景中的先导决策方,率先作出即使所有环境车辆做出最恶劣举措下的自身最优决策.对于其他环境中的参与者,算法假设其均采取相同的策略,然后系统通过迭代直到收敛.该方案将决策方法的计算量减少为随决策参与者线性增长,实现了运算的加速. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
MPDM: Multipolicy decision-making in dynamic, uncertain environments for autonomous driving
3
2015
... 文献[27]运用卷积神经网络(CNN)训练了决策模型,并以方向盘转角作为决策模块的输出.文献[28,29]将车辆的方向盘转角作为决策模块的输出.以广义类型作为输出的决策方法,在解空间上有更广泛的遍历,该特性赋予了决策方法更多求解优化的空间,从而可以得出更加贴近实际的决策.但广义类型的决策输出具有较高的意图不确定性,如何通过可解释性规则进行约束以提高决策方法的可解释性以及安全性是当下研究的一个热点方向. ...
... 博弈论的思想已融入到众多决策方法中,多策略决策(MPDM)方法将博弈形式作为决策方法的基础.该方法为环境中的所有参与者设置了相同的策略空间,对全体参与者所有可能的选择的决策组,MPDM设计了一个类似于模型预测控制(MPC)的推演窗口,计算出不同的子策略集所对应的全局损失函数cost,然后在cost集里面选择cost最小值所对应的决策集作为当前的最优决策[29].文献[32]针对动态不确定的智能车辆环境,设计了基于MPDM的决策方法.文献[9]将MPDM与 pAC结合,运用MPDM计算汇流的候选点,使pAC的总体成功率达到了与人类驾驶员相当的92%. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
Recursive conflict resolution for cooperative motion planning in dynamic highway traffic
3
2014
... Classification of decision-making methods based on input and output types
Tab.1 | 类别 | 优势 | 劣势 | 文献编号 |
| 路侧感知模块输入 | 全局可观感知信息 | 对基础设施有高要求 | [6]、[9-15] |
| 感知计算结果输入 | 数据易处理 | 丢失丰富的感知信息 | [8] |
| 车载原始信息输入 | 拥有丰富的感知信息 | 感知范围受限易遮挡 | [16-20] |
| 意图决策输出 | 具有明确的决策意图 | 难以枚举现实场景 | [8]、[13]、[22-24] |
| 广义决策输出 | 遍历更广的解空间 | 决策意图不明晰 | [19-20]、[27]、[30] |
3 决策模块与环境的交互方式 除了依据信息输入与输出形式进行分类外,决策模块与环境的交互方式亦可作为决策方法归纳的重要指标之一.智能车辆在行驶过程中所进行的决策过程,可视为车辆与环境进行交互的过程.现阶段智能车辆决策方法的研究已经度过了简单场景的阶段,开始聚焦于与环境具有冲突的复杂场景的决策方法研究.不同的环境交互方式所形成的决策方法在进行决策时会有较大的差异,本节将从两种环境交互方式来进行归纳分析. ...
... 文献[10]通过在驾驶员之间运用博弈论方法,解决了高速公路匝道口汇入的困难场景问题.文献[26]通过对路口场景的车辆进行建模,运用加减速度决策对建立Nash矩阵,并生成最终决策.在Nash矩阵中,每一个决策者的收益值会受其余所有决策者的决策影响,所以决策Nash矩阵的维度将随着决策者数量的增加呈指数型增长,这将带来计算时间的指数型增加.为了解决该问题,可以采用基于树搜索的算法.文献[31]运用蒙特卡洛树(MCT)加速最优值的搜索.文献[30]引入了车辆的运动学、动力学限制,通过递归的方式,减少了搜索的空间.文献[28]则通过引入Stackelberg博弈来减少智能车辆自身的决策空间.Stackelberg博弈为两阶段的完全信息动态博弈,博弈双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到Nash均衡.在该文献中让智能车辆作为该博弈场景中的先导决策方,率先作出即使所有环境车辆做出最恶劣举措下的自身最优决策.对于其他环境中的参与者,算法假设其均采取相同的策略,然后系统通过迭代直到收敛.该方案将决策方法的计算量减少为随决策参与者线性增长,实现了运算的加速. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
Tactical cooperative planning for autonomous highway driving using Monte-Carlo Tree Search
1
2016
... 文献[10]通过在驾驶员之间运用博弈论方法,解决了高速公路匝道口汇入的困难场景问题.文献[26]通过对路口场景的车辆进行建模,运用加减速度决策对建立Nash矩阵,并生成最终决策.在Nash矩阵中,每一个决策者的收益值会受其余所有决策者的决策影响,所以决策Nash矩阵的维度将随着决策者数量的增加呈指数型增长,这将带来计算时间的指数型增加.为了解决该问题,可以采用基于树搜索的算法.文献[31]运用蒙特卡洛树(MCT)加速最优值的搜索.文献[30]引入了车辆的运动学、动力学限制,通过递归的方式,减少了搜索的空间.文献[28]则通过引入Stackelberg博弈来减少智能车辆自身的决策空间.Stackelberg博弈为两阶段的完全信息动态博弈,博弈双方都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到Nash均衡.在该文献中让智能车辆作为该博弈场景中的先导决策方,率先作出即使所有环境车辆做出最恶劣举措下的自身最优决策.对于其他环境中的参与者,算法假设其均采取相同的策略,然后系统通过迭代直到收敛.该方案将决策方法的计算量减少为随决策参与者线性增长,实现了运算的加速. ...
MPDM: Multi-policy decision-making from autonomous driving to social robot navigation
2
2019
... 博弈论的思想已融入到众多决策方法中,多策略决策(MPDM)方法将博弈形式作为决策方法的基础.该方法为环境中的所有参与者设置了相同的策略空间,对全体参与者所有可能的选择的决策组,MPDM设计了一个类似于模型预测控制(MPC)的推演窗口,计算出不同的子策略集所对应的全局损失函数cost,然后在cost集里面选择cost最小值所对应的决策集作为当前的最优决策[29].文献[32]针对动态不确定的智能车辆环境,设计了基于MPDM的决策方法.文献[9]将MPDM与 pAC结合,运用MPDM计算汇流的候选点,使pAC的总体成功率达到了与人类驾驶员相当的92%. ...
... Classification of decision-making methods based on interaction with the environment
Tab.2 | 类别 | 优势 | 劣势 | 文献编号 |
| 博弈形式 | 与环境存在主动交互 | 假设全为理性决策者 | [10]、[26]、[28]、[30] |
| 礼让形式 | 车辆安全性较高 | 车辆智能度偏低 | [9]、[29-32] |
4 决策算法的类型 机器学习是现阶段决策算法研究中常用的方法,是否基于机器学习方法以及所采用算法的类型是对决策方法进行总结归纳的一个重要依据.通过分析已有的科研工作,本小节将分别从非学习类方法与学习类方法两大类进行介绍. ...
Continuous decision making for on-road autonomous driving under uncertain and interactive environments
2
2018
... 与博弈形式所不同,礼让形式的决策方法更加倾向于以对环境造成影响较小的最优决策.文献[33]提出一种最大交互防御策略(MIDP),以完成车道汇流场景下的安全决策.文献[34]将环境车辆的驾驶行为建模为朴素贝叶斯(Naive Bayesian)的形式,智能车辆首先对当前环境车辆进行观测,如果环境车辆加速,那么该车辆礼让智能车辆的可能性较低;如果减速,则该环境车辆有较大概率礼让.基于此模型,该论文聚焦于高速公路的汇入车流场景,设计出礼让形式的决策方案.智能车辆对不同的决策所带来的代价函数进行计算,然后选择最佳策略.文献[35]使用粒子滤波器来估计环境中智能驾驶员模型的行为参数,例如最大加速度、期望加速度、期望速度、最小间隔距离等.随后,该决策方法基于此模型,根据当前观测,推演未来空间内各物体的位姿,从而获得最优决策.文献[36]将环境中的障碍物等信息以语义序列的方式提取出来,然后通过优化目标函数进行决策. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Autonomous vehicle social behavior for highway entrance ramp management
1
2013
... 与博弈形式所不同,礼让形式的决策方法更加倾向于以对环境造成影响较小的最优决策.文献[33]提出一种最大交互防御策略(MIDP),以完成车道汇流场景下的安全决策.文献[34]将环境车辆的驾驶行为建模为朴素贝叶斯(Naive Bayesian)的形式,智能车辆首先对当前环境车辆进行观测,如果环境车辆加速,那么该车辆礼让智能车辆的可能性较低;如果减速,则该环境车辆有较大概率礼让.基于此模型,该论文聚焦于高速公路的汇入车流场景,设计出礼让形式的决策方案.智能车辆对不同的决策所带来的代价函数进行计算,然后选择最佳策略.文献[35]使用粒子滤波器来估计环境中智能驾驶员模型的行为参数,例如最大加速度、期望加速度、期望速度、最小间隔距离等.随后,该决策方法基于此模型,根据当前观测,推演未来空间内各物体的位姿,从而获得最优决策.文献[36]将环境中的障碍物等信息以语义序列的方式提取出来,然后通过优化目标函数进行决策. ...
Probabilistic long-term prediction for autonomous vehicles
1
2017
... 与博弈形式所不同,礼让形式的决策方法更加倾向于以对环境造成影响较小的最优决策.文献[33]提出一种最大交互防御策略(MIDP),以完成车道汇流场景下的安全决策.文献[34]将环境车辆的驾驶行为建模为朴素贝叶斯(Naive Bayesian)的形式,智能车辆首先对当前环境车辆进行观测,如果环境车辆加速,那么该车辆礼让智能车辆的可能性较低;如果减速,则该环境车辆有较大概率礼让.基于此模型,该论文聚焦于高速公路的汇入车流场景,设计出礼让形式的决策方案.智能车辆对不同的决策所带来的代价函数进行计算,然后选择最佳策略.文献[35]使用粒子滤波器来估计环境中智能驾驶员模型的行为参数,例如最大加速度、期望加速度、期望速度、最小间隔距离等.随后,该决策方法基于此模型,根据当前观测,推演未来空间内各物体的位姿,从而获得最优决策.文献[36]将环境中的障碍物等信息以语义序列的方式提取出来,然后通过优化目标函数进行决策. ...
Safe trajectory generation for complex urban environments using spatio-temporal semantic corridor
1
2019
... 与博弈形式所不同,礼让形式的决策方法更加倾向于以对环境造成影响较小的最优决策.文献[33]提出一种最大交互防御策略(MIDP),以完成车道汇流场景下的安全决策.文献[34]将环境车辆的驾驶行为建模为朴素贝叶斯(Naive Bayesian)的形式,智能车辆首先对当前环境车辆进行观测,如果环境车辆加速,那么该车辆礼让智能车辆的可能性较低;如果减速,则该环境车辆有较大概率礼让.基于此模型,该论文聚焦于高速公路的汇入车流场景,设计出礼让形式的决策方案.智能车辆对不同的决策所带来的代价函数进行计算,然后选择最佳策略.文献[35]使用粒子滤波器来估计环境中智能驾驶员模型的行为参数,例如最大加速度、期望加速度、期望速度、最小间隔距离等.随后,该决策方法基于此模型,根据当前观测,推演未来空间内各物体的位姿,从而获得最优决策.文献[36]将环境中的障碍物等信息以语义序列的方式提取出来,然后通过优化目标函数进行决策. ...
无人驾驶汽车环境信息提取及运动决策方法研究
2
2016
... 文献[37]运用决策树方法对智能车辆决策模块进行建模.决策树方法可以视为状态机方法的抽象方法,决策树方法将状态机中生成的决策以树状形式维护起来.当车辆处于不同的决策场景中时,通过计算车辆状态,在决策树中检索具体的最优行为决策.文献[8]提出一种基于层次状态机的智能车辆换道决策方法,该决策框架由两部分组成:微型场景信息模型和基于多属性决策的车道变更行为的决策模型. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
无人驾驶汽车环境信息提取及运动决策方法研究
2
2016
... 文献[37]运用决策树方法对智能车辆决策模块进行建模.决策树方法可以视为状态机方法的抽象方法,决策树方法将状态机中生成的决策以树状形式维护起来.当车辆处于不同的决策场景中时,通过计算车辆状态,在决策树中检索具体的最优行为决策.文献[8]提出一种基于层次状态机的智能车辆换道决策方法,该决策框架由两部分组成:微型场景信息模型和基于多属性决策的车道变更行为的决策模型. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Social attention for autonomous decision-making in dense traffic
2
2019
... 现阶段已有众多国内外科研机构基于深度监督学习方法对车辆决策进行了研究.文献[38]提出基于注意力机制的车辆决策方法,以实现在拥挤车流中的决策.文献[39]运用多任务学习(MT-LfD)框架实现对环境车辆的决策预测.同样基于监督学习开展科研工作的还有英特尔公司的端到端决策模块[16],Comma.ai公司所提出的基于RNN的端到端决策模块[17].文献[25]以NGSIM数据集作为训练数据,设计了基于长短时记忆(LSTM)神经网络和条件随机场(CRF)模型的类人决策算法,提高了车辆换道决策的成功率.相似的研究还有百度 Apollo 团队的研究成果[40],其运用基于深度监督学习的决策方法,实现了对智能车辆的横向控制与纵向控制.Apollo团队运用CNN实现车辆的横向控制,该决策模块以前视摄像机的图片作为决策方法的输入,决策模块直接计算出方向盘的期望偏角,以实现对路径的跟踪.同时,Apollo团队采用LSTM模型,从图像时间序列中获取油门与刹车的控制量. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Learning end-to-end autonomous driving using guided auxiliary supervision
2
2018
... 现阶段已有众多国内外科研机构基于深度监督学习方法对车辆决策进行了研究.文献[38]提出基于注意力机制的车辆决策方法,以实现在拥挤车流中的决策.文献[39]运用多任务学习(MT-LfD)框架实现对环境车辆的决策预测.同样基于监督学习开展科研工作的还有英特尔公司的端到端决策模块[16],Comma.ai公司所提出的基于RNN的端到端决策模块[17].文献[25]以NGSIM数据集作为训练数据,设计了基于长短时记忆(LSTM)神经网络和条件随机场(CRF)模型的类人决策算法,提高了车辆换道决策的成功率.相似的研究还有百度 Apollo 团队的研究成果[40],其运用基于深度监督学习的决策方法,实现了对智能车辆的横向控制与纵向控制.Apollo团队运用CNN实现车辆的横向控制,该决策模块以前视摄像机的图片作为决策方法的输入,决策模块直接计算出方向盘的期望偏角,以实现对路径的跟踪.同时,Apollo团队采用LSTM模型,从图像时间序列中获取油门与刹车的控制量. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
An automated learning-based procedure for large-scale vehicle dynamics modeling on Baidu Apollo platform
1
2019
... 现阶段已有众多国内外科研机构基于深度监督学习方法对车辆决策进行了研究.文献[38]提出基于注意力机制的车辆决策方法,以实现在拥挤车流中的决策.文献[39]运用多任务学习(MT-LfD)框架实现对环境车辆的决策预测.同样基于监督学习开展科研工作的还有英特尔公司的端到端决策模块[16],Comma.ai公司所提出的基于RNN的端到端决策模块[17].文献[25]以NGSIM数据集作为训练数据,设计了基于长短时记忆(LSTM)神经网络和条件随机场(CRF)模型的类人决策算法,提高了车辆换道决策的成功率.相似的研究还有百度 Apollo 团队的研究成果[40],其运用基于深度监督学习的决策方法,实现了对智能车辆的横向控制与纵向控制.Apollo团队运用CNN实现车辆的横向控制,该决策模块以前视摄像机的图片作为决策方法的输入,决策模块直接计算出方向盘的期望偏角,以实现对路径的跟踪.同时,Apollo团队采用LSTM模型,从图像时间序列中获取油门与刹车的控制量. ...
Reinforcement learning: An introduction
2
1998
... (2) 基于强化学习的方法.强化学习与监督学习不同,监督学习中的决策方法从数据集中直接获得正负样本的标签,而强化学习模型须通过在解空间内的反复试错,才能获得最优模型[41]. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Apprenticeship learning via inverse reinforcement learning
1
2004
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
End to end learning for self-driving cars
1
2016
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
End-to-end learning of driving models from large-scale video datasets
1
2017
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
End-to-end learning of driving models with surround-view cameras and route planners
2
2018
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Decision-making method for vehicle longitudinal automatic driving based on reinforcement Q-learning
1
2019
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
Automated vehicle’s behavior decision making using deep reinforcement learning and high-fidelity simulation environment
2
2019
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
基于增强学习的无人车辆智能决策方法研究
1
2013
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
基于增强学习的无人车辆智能决策方法研究
1
2013
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
Multi-reward architecture based reinforcement learning for highway driving policies
2
2019
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Automatically generated curriculum based reinforcement learning for autonomous vehicles in urban environment
1
2018
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
Cooperation-aware reinforcement learning for merging in dense traffic
1
2019
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
Overtaking maneuvers in simulated highway driving using deep reinforcement learning
1
2018
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
Robust deep reinforcement learning for security and safety in autonomous vehicle systems
1
2018
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
Improved robustness and safety for autonomous vehicle control with adversarial reinforcement learning
1
2018
... 现阶段已有众多研究成果运用强化学习方法方法生成离散决策或连续决策[42,43,44,45].文献[46]基于奖励函数和更新函数开发了增强型Q学习算法.文献[47]基于深度强化学习(Deep RL)设计了决策训练器以进行智能车辆决策训练.文献[48]针对车辆驾驶性能的多目标问题,提出了基于最小二乘策略迭代(LSPI)的多目标强化学习(MORL)算法,并且应用于车辆智能驾驶决策问题.文献[49]将三维点云以及摄像机图片作为决策模块的输入,通过基于多重奖励架构(MRA)强化学习方法,实现车辆在高速公路场景下的控制与决策.随着解空间构型的逐渐复杂,强化学习的学习过程可能会急剧加长甚至不再收敛.现阶段RL研究工作者分别提出了课程式学习[50,51,52]与对抗学习[53,54]. ...
Learning to drive using inverse reinforcement learning and deep Q-networks
2
2016
... 文献[55]在高速公路仿真中学习不同驾驶风格,此工作展示了具有未知奖励函数的Markov决策过程在车辆行为决策中的优势.为了避免逆强化学习的过拟合,现阶段研究采用最大熵IRL方法来解决过拟合问题.文献[56]应用了最大熵IRL的原理,因为最大熵分布显示出对数据的最少承诺,这是避免过度拟合的自然选择,.文献[57]设计了一个风险敏感的IRL框架,能够明确考虑专家的风险敏感度.该框架能够捕获从中性风险到最坏情况的不同风险偏好范围.基于线性编程的算法可用于推断专家的隐藏风险指标.文献[58]提出了最大熵深度IRL框架,利用深度完全卷积神经网络的表达能力表示潜在的驾驶行为成本模型. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Adversarial inverse optimal control for general imitation learning losses and embodiment transfer
1
2016
... 文献[55]在高速公路仿真中学习不同驾驶风格,此工作展示了具有未知奖励函数的Markov决策过程在车辆行为决策中的优势.为了避免逆强化学习的过拟合,现阶段研究采用最大熵IRL方法来解决过拟合问题.文献[56]应用了最大熵IRL的原理,因为最大熵分布显示出对数据的最少承诺,这是避免过度拟合的自然选择,.文献[57]设计了一个风险敏感的IRL框架,能够明确考虑专家的风险敏感度.该框架能够捕获从中性风险到最坏情况的不同风险偏好范围.基于线性编程的算法可用于推断专家的隐藏风险指标.文献[58]提出了最大熵深度IRL框架,利用深度完全卷积神经网络的表达能力表示潜在的驾驶行为成本模型. ...
Risk-sensitive inverse reinforcement learning via coherent risk models
2
2020
... 文献[55]在高速公路仿真中学习不同驾驶风格,此工作展示了具有未知奖励函数的Markov决策过程在车辆行为决策中的优势.为了避免逆强化学习的过拟合,现阶段研究采用最大熵IRL方法来解决过拟合问题.文献[56]应用了最大熵IRL的原理,因为最大熵分布显示出对数据的最少承诺,这是避免过度拟合的自然选择,.文献[57]设计了一个风险敏感的IRL框架,能够明确考虑专家的风险敏感度.该框架能够捕获从中性风险到最坏情况的不同风险偏好范围.基于线性编程的算法可用于推断专家的隐藏风险指标.文献[58]提出了最大熵深度IRL框架,利用深度完全卷积神经网络的表达能力表示潜在的驾驶行为成本模型. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Maximum entropy deep inverse reinforcement learning
2
2015
... 文献[55]在高速公路仿真中学习不同驾驶风格,此工作展示了具有未知奖励函数的Markov决策过程在车辆行为决策中的优势.为了避免逆强化学习的过拟合,现阶段研究采用最大熵IRL方法来解决过拟合问题.文献[56]应用了最大熵IRL的原理,因为最大熵分布显示出对数据的最少承诺,这是避免过度拟合的自然选择,.文献[57]设计了一个风险敏感的IRL框架,能够明确考虑专家的风险敏感度.该框架能够捕获从中性风险到最坏情况的不同风险偏好范围.基于线性编程的算法可用于推断专家的隐藏风险指标.文献[58]提出了最大熵深度IRL框架,利用深度完全卷积神经网络的表达能力表示潜在的驾驶行为成本模型. ...
... Classification of decision-making methods based on algorithm types
Tab.3 | 类别 | 优势 | 劣势 | 文献编号 |
| 基于状态机 | 逻辑清晰 | 复杂场景表现不佳 | [5]、[8]、[37] |
| 基于深度监督学习 | 灵活性强 | 对训练数据要求较高 | [16-17]、[33]、[38-39] |
| 基于强化学习 | 运算效率高 | 局限于人工设定奖惩 | [41-45]、[49] |
| 基于逆强化学习 | 算法生成奖励函数 | 易造成过拟合 | [47]、[55]、[57-58] |
5 评估方法与数据集 如前文所述,现阶段对于决策方法的性能评估标准尚未统一,且当前缺乏文献对其进行归纳与总结.同时,现阶段尚未有文献对决策研究中常用的数据集进行整理与归纳.本小结将对决策效果评估方法进行讨论,并将对常用数据集进行总结. ...
Reachability-based decision making for city driving
1
2018
... 5.1.1 自建仿真场景的评估方法 自建仿真场景并设计智能机器人模仿环境参与者以进行决策方法的评估是现阶段常见的评估方法.该方法中,科研工作者常搭建仿真环境,并定义具体的指标来衡量算法的优越性,例如安全、效率、舒适的量化指标,是否会发生碰撞以及碰撞发生的最小时间等.文献[15]建立了三车道仿真平台,并基于此评估了其提出的基于进化学习的智能车辆决策方法.文献[22]设计了两个评估指标:延长碰撞时间(ETTC)和动态预测距离分布(DPIDP),并在自建的仿真平台上进行了决策方法评估与验证.文献[59]通过设计路口仿真器,验证了其提出的基于可到达集的决策方法.文献[60]设计了T型路口仿真器,通过对比碰撞率以及通过时间来评估其决策方法.文献[13]以及[23-24]同样采用自建仿真场景来进行评估. ...
Safe reinforcement learning with scene decomposition for navigating complex urban environments
1
2019
... 5.1.1 自建仿真场景的评估方法 自建仿真场景并设计智能机器人模仿环境参与者以进行决策方法的评估是现阶段常见的评估方法.该方法中,科研工作者常搭建仿真环境,并定义具体的指标来衡量算法的优越性,例如安全、效率、舒适的量化指标,是否会发生碰撞以及碰撞发生的最小时间等.文献[15]建立了三车道仿真平台,并基于此评估了其提出的基于进化学习的智能车辆决策方法.文献[22]设计了两个评估指标:延长碰撞时间(ETTC)和动态预测距离分布(DPIDP),并在自建的仿真平台上进行了决策方法评估与验证.文献[59]通过设计路口仿真器,验证了其提出的基于可到达集的决策方法.文献[60]设计了T型路口仿真器,通过对比碰撞率以及通过时间来评估其决策方法.文献[13]以及[23-24]同样采用自建仿真场景来进行评估. ...
城市环境下无人驾驶车辆驾驶规则获取及决策算法
1
2017
... 随着现阶段科研水平的不断提高,众多科研工作者运用智能车辆在现实环境中创建仿真场景对决策方法进行测试.文献[61]在真实车流中评估其决策算法. ...
城市环境下无人驾驶车辆驾驶规则获取及决策算法
1
2017
... 随着现阶段科研水平的不断提高,众多科研工作者运用智能车辆在现实环境中创建仿真场景对决策方法进行测试.文献[61]在真实车流中评估其决策算法. ...
Merging in congested freeway traffic using multipolicy decision making and passive actor-critic learning
1
2019
... 5.1.2 基于数据集的评估方法 另一种常见的评估方法是基于已有的数据集对决策方法进行评估.在运用数据集对智能车辆决策方法进行评估时,一个主要特点是数据集中的车辆轨迹是既定的.在众多采用此方法进行评估的研究工作中,常见的方式为将数据集中的目标车辆(例如正在或即将进行换道、汇流的车辆)替换为采用目标决策方法的智能车辆,随后根据该智能车辆能否安全顺利完成指定目标来进行评估.同时,除了将目标完成度作为度量指标外,在模拟评估过程中车辆的碰撞率、平稳性、最小安全距离等指标也将作为评价函数的子属性对决策方法进行评估.文献[62]在论文中设计了评估指标,并运用NGSIM数据集对其提出的基于pAC的决策方法的评估.文献[11]运用NGSIM数据集中的汇流场景,对其基于博弈论的决策方法进行评估验证,并以汇流是否成功作为评估指标.文献[25]运用NGSIM数据集验证其车辆换道决策的类人性与安全性. ...
The next generation simulation program
1
2004
... 5.2.1 NGSIM数据集 美国联邦公路局于2002年发起的NGSIM计划.通过在路段上方安装高清摄像机的方式采集检测路段上的车辆运行数据,再利用视频处理软件,以10帧/s或15帧/s的频率对车辆轨迹数据进行还原[63]. ...
Modeling merging acceleration and deceleration behavior based on gradient-boosting decision tree
2
2020
... 该数据集包括I-80、US-101、Lank、Peach 4个路段上的车辆轨迹数据.其中,I-80和US-101为高速公路,Lank和Peach为城市道路.此数据集在车辆跟驰、车辆变道、交通流演化和车辆轨迹预测等方面有着广泛的应用[64,65,66,67].针对智能车辆决策研究领域,NGSIM数据集可用于进行决策方法的功能性验证.同时,由于该数据集采集时间较早且使用广泛,适合研究人员用于不同决策方法之间优越性的对比.但该数据集的不足在于其场景比较单一,并且在车辆的边缘提取上存在一定的误差.NGSIM数据集的数据结构如表4所示. ...
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
Modeling vehicle merging position selection behaviors based on a finite mixture of linear regression models
1
2019
... 该数据集包括I-80、US-101、Lank、Peach 4个路段上的车辆轨迹数据.其中,I-80和US-101为高速公路,Lank和Peach为城市道路.此数据集在车辆跟驰、车辆变道、交通流演化和车辆轨迹预测等方面有着广泛的应用[64,65,66,67].针对智能车辆决策研究领域,NGSIM数据集可用于进行决策方法的功能性验证.同时,由于该数据集采集时间较早且使用广泛,适合研究人员用于不同决策方法之间优越性的对比.但该数据集的不足在于其场景比较单一,并且在车辆的边缘提取上存在一定的误差.NGSIM数据集的数据结构如表4所示. ...
Stochastic gradient-based optimal signal control with energy consumption bounds
1
2020
... 该数据集包括I-80、US-101、Lank、Peach 4个路段上的车辆轨迹数据.其中,I-80和US-101为高速公路,Lank和Peach为城市道路.此数据集在车辆跟驰、车辆变道、交通流演化和车辆轨迹预测等方面有着广泛的应用[64,65,66,67].针对智能车辆决策研究领域,NGSIM数据集可用于进行决策方法的功能性验证.同时,由于该数据集采集时间较早且使用广泛,适合研究人员用于不同决策方法之间优越性的对比.但该数据集的不足在于其场景比较单一,并且在车辆的边缘提取上存在一定的误差.NGSIM数据集的数据结构如表4所示. ...
Exploring the effects of traffic density on merging behavior
2
2019
... 该数据集包括I-80、US-101、Lank、Peach 4个路段上的车辆轨迹数据.其中,I-80和US-101为高速公路,Lank和Peach为城市道路.此数据集在车辆跟驰、车辆变道、交通流演化和车辆轨迹预测等方面有着广泛的应用[64,65,66,67].针对智能车辆决策研究领域,NGSIM数据集可用于进行决策方法的功能性验证.同时,由于该数据集采集时间较早且使用广泛,适合研究人员用于不同决策方法之间优越性的对比.但该数据集的不足在于其场景比较单一,并且在车辆的边缘提取上存在一定的误差.NGSIM数据集的数据结构如表4所示. ...
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
The highD dataset: A drone dataset of naturalistic vehicle trajectories on German highways for validation of highly automated driving systems
1
2018
... 5.2.2 High-D数据集 High-D数据集由德国亚琛工业大学汽车工程研究所提供,为德国高速公路的大型自然车辆轨迹数据集[68].此数据集由高空悬停无人机拍摄并经由后期图像处理,包括来自6个地点的11.5 h测量值和1.1×105辆车,所测量的车辆总行驶里程为4.5×104 km,还包括 5600 条完整的变道记录.该数据集定位误差平均小于10 cm.该数据集的车辆定位精准、车辆边缘识别准确,且车流密度较大,适合于高车速场景下的决策方法研究.但不足之处在于场景较为单一,聚焦于高速公路场景.High-D数据集的数据结构如表5所示. ...
Interaction dataset: An international, adversarial and cooperative motion dataset in interactive driving scenarios with semantic maps
1
2019
... 5.2.3 INTERACTION数据集 INTERACTION是由加州大学伯克利分校机械系统控制实验室(MSC Lab)等建立的一个国际性、对抗性、协作性的数据集[69].该数据集场景较为丰富,包含了城市道路、公路、匝道合并、带有礼让停车标志的环形路口以及信号灯交叉路口等.同时,该数据集采集地点来自不同的国家,以便自然地包含不同文化中的驾驶偏好和风格,并且该数据集具有完整语义的地图信息,包括物理层、参考线、道路连接以及交通规则. ...
One thousand and one hours: Self-driving motion Prediction dataset
1
2020
... 5.2.4 Level 5数据集 Level 5数据集由美国Lyft公司提供,该数据集包含了超过 4000 个车道段的基础高精度空间语义地图、197个人行横道、60个停车标志、54个停车区、8个减速带和11个减速带[70]. ...
Multi-head attention based probabilistic vehicle trajectory prediction
1
2020
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
Human motion trajectory prediction: A survey
2020
Causal transfer for imitation learning and decision making under sensor-shift
2020
Relational recurrent neural networks for vehicle trajectory prediction
2019
Falsification-based robust adversarial reinforcement learning
2020
Online parameter estimation for human driver behavior prediction
2020
Human driver behavior prediction based on UrbanFlow
2020
Attention based vehicle trajectory prediction
1
2021
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
Interpretable modelling of driving behaviors in interactive driving scenarios based on cumulative prospect theory
1
2019
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
Scenario-transferable semantic graph reasoning for interaction-aware probabilistic prediction
2020
Autonomous driving at intersections: A critical-turning-point approach for left turns
2020
Autonomous driving at intersections: A critical-turning-point approach for left turns
1
2020
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges
1
2021
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...
Forecasting trajectory and behavior of road-agents using spectral clustering in graph-LSTMs
2020
Trajectron++: Dynamically-feasible trajectory forecasting with heterogeneous data
2020
Sense-assess-eXplain (SAX): Building trust in autonomous vehicles in challenging real-world driving scenarios
1
2020
... Summary of datasets
Tab.8 | 数据集 | 场景描述 | 地点 | 时长/min | 采样率/Hz | 数据格式 | 文献编号 |
| NGSIM | 高速、城市道路 | 美国 | 90 | 10 | csv | [25]、[64-67] |
| High-D | 高速公路 | 德国 | 690 | 25 | csv | [71-78] |
| INTERACTION | 路口场景 | 世界 | 990. 98 | 10 | csv | [79-82] |
| Level 5 | 城市道路 | 美国 | 1002 | 10 | zarr | [83-86] |
6 结语 智能车辆决策模块是车辆安全性、舒适性与高效性的决定因素之一,而车辆行驶环境的高度动态性与复杂性对决策方法的研究提出了挑战.近年来,学术界和工业界进行了广泛和深入的研究,并提出了一系列的决策方法.然而,目前的研究依旧存在如下挑战亟待解决. ...