基于外推高斯过程回归方法的发动机排放预测
Engine Emission Prediction Based on Extrapolated Gaussian Process Regression Method
Received: 2021-06-29
作者简介 About authors
王子垚(1996-),男,河南省郑州市人,硕士生,主要从事发动机排放预测、高斯过程回归等研究.
为了提高训练集范围之外行驶工况的预测精度,提出外推高斯过程回归(GPR)方法.首先,采用训练集数据对GPR模型进行预训练,然后在正负3个标准差之间均匀采样构建宽域输入集,以该输入集的预测方差均值最小为目标优化GPR模型超参数.某直喷汽油机转毂试验的结果表明,外推GPR的平均绝对误差为0.53411,比传统GPR降低24.27%,比反向传播神经网络降低36.32%.所提方法可为降低试验成本,提高实际行驶过程排放预测精度提供参考.
关键词:
Aimed at improving the prediction accuracy of engine emissions under driving conditions which are not covered by the training set, an extrapolated Gaussian process regression (GPR) method is proposed. First, the training set data is fed to the GPR model for pre-training, and then a wide-area input set is constructed by uniform sampling between plus/minus three standard deviations, and the hyperparameters are optimized for the goal of minimizing the prediction variance of the input set. The test results on a direct injection gasoline engine show that the mean absolute error of emission prediction using the extrapolated GPR is 0.53411, which is 24.27% lower than that of using the traditional GPR and 36.32% lower than that of using the back propagation (BP) neural network, which signifies the effectiveness of the proposed method in terms of reducing test costs and improving the accuracy of emission prediction during real driving.
Keywords:
本文引用格式
王子垚, 郭凤祥, 陈俐.
WANG Ziyao, GUO Fengxiang, CHEN Li.
数据驱动的机器学习模型具有开发周期短和工况适应性强的优势,逐渐广泛应用于发动机排放预测.其中,神经网络模型应用最早,其瞬态工况的预测误差约为稳态工况的两倍[8].文献[9-10]采用支持向量机模型,得到的预测精度优于神经网络模型,但是数据集维度增大导致复杂度过高[11].长短记忆周期神经网络模型在发动机稳态或瞬态过程的NOx排放均取得较高的预测精度[12].文献[13]提出基于粒子群算法优化的高斯过程回归(GPR)用于预测发动机排放.然而,这些模型的预测精度高度依赖于训练数据集的覆盖性,当测试集数据范围在训练集数据范围之内,则预测精度较高;反之,则预测精度变差.该依赖性导致训练集数据量增大,增加成本与开发周期,并降低实际行驶过程的排放预测精度.
针对上述问题,本文提出一种新的外推GPR算法.按欧氏距离将数据集区分为覆盖域内、外两个区域,以采用覆盖域内的数据集经预训练得到的传统GPR模型为基础,构建覆盖正负3个标准差的宽域输入集,提出以该输入集的预测方差均值最小为目标进行外推训练的新思路,修正传统GPR模型的超参数.对于正态分布输入集,宽域输入集能覆盖99.73%的输入取值[14];对于非正态分布输入集,能覆盖超过88.9%的输入取值[15],也就是说,能覆盖大部分训练数据集覆盖域之外的区域.因此,经外推训练的GPR模型能降低覆盖域外的预测方差,提高预测精度.GPR基于贝叶斯概率框架,通过概率推理预测均值、方差,适用于高维数、非线性复杂系统[16].针对具有周期性特征的数据集,文献[17]结合周期函数与平方指数函数构建新的核函数,提高GPR外推预测精度.文献[18]设计光谱混合核函数,用于大气二氧化碳和航空旅客数据的外推预测.文献[19]证明缩小GPR预测置信区间的宽度可提高外推精度,用于寻找合理采样点,有效减少训练集规模.迄今为止,外推GPR算法尚待深入研究,在发动机排放预测的应用未见报道.
本文以搭载某缸内直喷汽油机的乘用车为对象,采集实际行驶污染物排放(RDE)工况的转毂试验数据,采用本文提出的外推GPR方法,预测训练集覆盖域之外工况的排放.预测结果与传统 GPR 模型和广泛应用的反向传播(BP)神经网络模型相对比.该方法为减少RDE试验成本、提高实际行驶过程排放预测精度提供参考.
1 数据获取及预处理
表1 试验台架及仪器设备表
Tab.1
设备名称 | 型号 | 功能 |
---|---|---|
排放转毂 | AIP-ECDM 48寸 | 两驱汽车的整车排放测试 |
PEMS | MEXA-7200 | 采集并测量NOx、CH4、总烃(THC)和CO2等排放量 |
测试并记录的参数有10个,其中6个为影响发动机排放的主要因素,即车速、进气温度、空燃比、点火提前角、发动机转速和油门踏板开度,作为GPR模型的输入;4个为CO2、NOx、CH4和THC排放量,作为GPR模型的输出.RDE工况的试验数据如图1所示,其中:φ(CO2)、φ(NOx)、φ(CH4)以及 φ(THC) 分别为该气体的体积分数.
图1
1.1 数据预处理
数据预处理包括归一化、剔除奇异值和降维.
归一化即将每一组输入、输出参数的均值和标准差分别转换为0和1.剔除奇异值的原则为如果某个数据与其所在组数据的均值偏离超过±2.5倍标准差,则丢弃.然后采用Savitzky-Golay滤波器[21]进行平滑.
图2
1.2 数据集分区
首先,计算降维后的二维输入数据距离原点的欧氏距离,然后将输入输出数据按照该欧氏距离进行升序排列.将前80%的数据作为训练数据,后20%的数据作为测试数据.
在以二维输入描述的坐标系中,训练数据集在分界圆圆内,而测试数据集在分界圆外,之间分界为欧氏距离(即半径)为 1.82095 的圆,如图3所示.因此,这里的测试数据集的输入数值范围超出了训练数据集的覆盖范围,本文将设计外推算法提高预测精度.
图3
2 外推GPR算法
首先为GPR模型选择核函数,然后分两步进行模型训练.第一步采用覆盖域内的训练集,基于传统GPR框架进行预训练,使得预测输出的95%置信区间能覆盖测试数据集,得到GPR模型超参数的预训练值.第二步以宽域输入集作为GPR模型的输入,以预测输出的方差均值最小为目标继续训练,得到超参数的修正值;核函数与超参数共同构成完整GPR模型的数学表达式,采用覆盖域外的测试集进行测试,流程如图4所示.
图4
2.1 核函数
采用平方指数(SE)核函数和谱混合成分(SM)核函数[18]的线性组合作为GPR模型核函数,可以表示为
式中:τ=x-x'为两个样本的输入(x,x')之差;ℓh和ℓv分别为横向和纵向的尺度系数;τp为τ在第p个维度的取值;d为样本输入维数;Q为混合高斯分布的个数;ωq、
核函数式(1)的超参数可记为θ=[ℓhℓvωq
2.2 预训练
与传统GPR相同,采用极大似然估计对超参数θ进行预训练,即以最小化关于θ的负对数边际似然(NLML)函数为目标确定超参数的值.NLML的表达式L(θ)为[16]
式中:X、y分别为样本数为n的训练集输入、输出;P为y在X下的后验概率;K(X, X)∈Rn×n为核函数矩阵,满足Kij(X, X)=k(xi, xj) (i, j=1, 2, ···, n),k(·)为核函数;I为单位矩阵;
使用梯度下降法求解式(4)的最小值,将超参数的预训练转化为最优化问题,即可得超参数预训练的解.式(4)的梯度为
式中:tr(·)为矩阵的迹.
2.3 外推训练
首先,在二维输入描述的坐标系中均匀采样产生宽域输入集XW,其中每个维度输入的取值范围在正负3个标准差之间,采样值个数为mW,故XW中样本点数为
为了提高训练集覆盖域外的预测精度,需要减小预测输出的置信区间宽度,即修正超参数θ,使得预测输出的方差最小,据此设计外推训练算法.为了避免陷入局部最优,外推训练以GPR预训练得到的超参数解为初始值.
预测输出的平均方差
于是,求解使
式中:Sθ为θ的可行域.
3 实验结果与分析
采用平均绝对误差(MAE)和均方根误差(RMSE)评价预测性能.用同样的训练集进行模型训练,并用同样的处于训练集覆盖域外的测试集进行排放预测,将外推GPR的结果与传统GPR和BP神经网络的结果相比较,预测RDE过程发动机产生的CO2、NOx、CH4和THC.外推GPR与传统GPR均采用式(1)的核函数,其中Q=10,d=2.BP神经网络的层级结构为2-128-128-1,隐藏层激活函数均为LeakyReLU,输出层无激活函数,使用Adam优化器训练.
图5
图5
外推GPR、传统GPR、BP神经网络的预测结果比较
Fig.5
Comparison of prediction results of extrapolated GPR, traditional GPR, and BP neural network
3种方法预测的MAE和RMSE评价如图6所示.由图6可知,与传统GPR和BP神经网络方法相比,外推GPR显著降低了预测误差.具体地,外推GPR预测CO2的MAE和RMSE分别为 0.4475 和 0.5825,比传统GPR降低35.68%和35.96%,比BP神经网络降低44.11%和40.01%.对于CH4和THC,外推GPR降低预测误差的程度与CO2相当.对NOx的预测,外推GPR的MAE和RMSE分别为 0.7049 和 0.8896,比传统GPR降低12.23%和16.47%,比BP神经网络降低12.98%和12.21%.NOx的预测误差较大,可能与NOx排放机理相对复杂有关.总体上,将4种排放的预测结果求平均,外推GPR的MAE和RMSE比传统GPR分别降低24.27%和30.72%,比BP神经网络分别降低36.32%和30.72%.
图6
图6
外推GPR、传统GPR、BP神经网络预测的评价指标对比
Fig.6
Comparison of evaluation indexes predicted by extrapolated GPR, traditional GPR, and BP neural network
虽然4种排放的产生机理各不相同,预测精度也有区别,但是由于外推GPR建立的宽域输入集能考虑覆盖域外的输入,对4种排放的预测精度都有一定提升.宽域数据集以常用的平均采样方法对标准化后的输入分布进行采样而构建,不需针对排放输出特性进行特殊处理.因此,本文提出的外推GPR方法具有推广至其他应用领域的潜力.
4 结语
针对实际行驶工况下发动机排放的预测,本文提出外推GPR算法,用于预测训练数据集覆盖域之外工况的排放.预测结果与传统 GPR 模型和广泛应用的BP神经网络模型相比较.CO2、NOx、CH4和THC的预测结果表明,外推GPR的平均MAE和RMSE分别为 0.53411 和 0.71558,比传统GPR分别降低24.27%和30.72%,比BP神经网络分别降低36.32%和30.72%.该方法可为降低实际行驶污染物排放工况的试验成本,提高实际行驶过程排放预测精度提供参考.
参考文献
Artificial neural network applications in the calibration of spark-ignition engines: An overview
[J].DOI:10.1016/j.jestch.2016.03.003 URL [本文引用: 1]
Assessing the impact of multi-dimensional driving behaviors on link-level emissions based on a portable emission measurement system (PEMS)
[J].DOI:10.1016/j.apr.2020.09.022 URL [本文引用: 1]
中国移动源下阶段排放法规综述和分析
[J].
An update on China’s mobile source emission regulations
[J].
Validation and sensitivity analysis of a two zone Diesel engine model for combustion and emissions prediction
[J].DOI:10.1016/j.enconman.2003.09.012 URL [本文引用: 1]
Real-time predictive modeling of combustion and NOx formation in diesel engines under transient conditions
[DB/OL]. (
Fuel effects on gas turbine combustion-liner temperature, pattern factor, and pollutant emissions
[J].DOI:10.2514/3.45059 URL [本文引用: 1]
Virtual sensors for spark ignition engines using neural networks
[C]//
Comparative evaluation of intelligent regression algorithms for performance and emissions prediction of a hydrogen-enriched Wankel engine
[J].DOI:10.1016/j.fuel.2020.120005 URL [本文引用: 1]
Investigation of ANN and SVM based on limited samples for performance and emissions prediction of a CRDI-assisted marine diesel engine
[J].DOI:10.1016/j.applthermaleng.2016.10.042 URL [本文引用: 1]
Selecting training sets for support vector machines: A review
[J].DOI:10.1007/s10462-017-9611-1 URL [本文引用: 1]
基于LSTM神经网络的柴油机NOx排放预测
[J].
Prediction of diesel engine NOx emissions based on long-short term memory neural network
[J].
基于PSO-GPR的发动机性能与排放预测方法
[J/OL].
Prediction method of engine performance and emission based on PSO-GPR
[J/OL].
Gaussian processes for machine learning
[M].
Gaussian process-based predictive control for periodic error correction
[J].DOI:10.1109/TCST.2015.2420629 URL [本文引用: 1]
Gaussian process kernels for pattern discovery and extrapolation
[C]//
Sequential sampling strategy for extreme event statistics in nonlinear dynamical systems
[J].DOI:10.1073/pnas.1813263115 URL [本文引用: 1]
Smoothing and differentiation of data by simplified least square procedure
[J].DOI:10.1021/ac60319a045 URL [本文引用: 1]
/
〈 |
|
〉 |
