基于邻域保持嵌入的主多项式非线性过程故障检测
沈阳化工大学 信息工程学院, 沈阳 110142
Principal Polynomial Nonlinear Process Fault Detection Based on Neighborhood Preserving Embedding
College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, China
责任编辑: 石易文
收稿日期: 2020-09-14
基金资助: |
|
Received: 2020-09-14
作者简介 About authors
李元(1964-),女,辽宁省沈阳市人,教授,博士生导师,现主要从事统计过程控制和基于数据驱动的过程故障监控与诊断研究,电话(Tel.):13082424115;E-mail:
针对化工过程的变量数据维数高、非线性的问题,提出基于邻域保持嵌入(NPE)-主多项式分析(PPA) 的过程故障检测算法.应用NPE算法提取高维数据的低维子流形,能够解决传统的线性降维算法不能提取局部结构信息的问题,对维数进行约减.利用PPA法时,使用一组灵活的主多项式分量来描述数据, 能够有效地捕捉过程数据中固有的非线性结构.在降维后的流形空间进行主多项式分析并建立Hotelling’s T2和平方预测误差统计量模型,同时确定控制限以进行故障检测.最后,通过一组非线性数值实例和Tennessee Eastman化工过程数据,将NPE-PPA算法与传统的核主元分析法、PPA法进行对比分析,验证所提算法的有效性及优越性.
关键词:
Aimed at the problem of high dimension and nonlinearity of variable data in chemical process, a process fault detection algorithm based on neighborhood preserving embedding(NPE )-principal polynomial analysis (PPA) is proposed in this paper. The NPE algorithm is used to extract low dimensional submanifolds of high dimensional data, which overcomes the problem that the traditional linear dimensionality reduction algorithm cannot extract local structure information, so as to reduce the dimensions. The PPA method is used to describe data by a set of flexible principal polynomial components, which can effectively capture the inherent nonlinear structure of process data. The principal polynomial analysis is conducted in the reduced manifold space, and Hotelling’s T2 and square prediction error statistical models are established to determine the control limit for fault detection. Finally, compared with the traditional kernel principal component analysis and the PPA method, a group of nonlinear numerical examples and Tennessee Eastman chemical process data experiments are performed to verify the effectiveness and superiority of the NPE-PPA algorithm.
Keywords:
本文引用格式
李元, 姚宗禹.
LI Yuan, YAO Zongyu.
传统主成分分析(PCA)是目前常用的多元统计方法,基于PCA的过程监测方法已成功地应用于大量工业过程中.然而,基于PCA的方法均假设过程是线性的,这限制了其在非线性工业过程中的应用.现代工业非线性过程大量存在,为了监测非线性过程,多种非线性过程检测方法相继被提出.
文献[16]提出一种基于等距离映射(ISOMAP)的故障检测方法.该方法用等距离映射进行非线性降维,采用自适应准则选取邻域参数,能够有效地挖掘过程的非线性特征.但是当流形曲率较大时,流形上的测地距离估计会产生较大的误差,导致嵌入结果产生变形.文献[17,18]提出主多项式分析(PPA),通过最小化相应正交子空间中的回归误差(或方差)来变形直线主成分,并将其应用于遥感数据处理.文献[19,20]将PPA法引入到工业过程的故障检测和诊断技术上,使用一组灵活的主多项式分量来描述数据,与基于PCA的方法相比,PPA法更能有效地捕捉过程数据中固有的非线性几何结构.虽然,PPA法的提取曲线主成分可以包含大部分的数据变化,但是其只捕获过程数据的全局结构,不能有效地保留数据详细的局部结构信息.
针对工业过程数据的非线性特征,提出一种基于邻域保持嵌入(NPE)-主多项式分析的过程故障检测算法.使用NPE算法提取高维数据的低维子流形,并进行维数约减,同时保持邻域结构不变.将特征空间的数据应用主多项式分析建立故障检测模型,计算其检测统计量及控制限来进行故障检测.本研究以Tennessee Eastman(TE)化工过程为背景进行仿真实验,为基于数据驱动的故障检测领域提供了实践基础.
1 NPE算法
邻域保持嵌入算法的目的是在保持数据集局部流形结构不变的同时,将给定原始数据
(1) 通过样本间的欧式距离确定每个样本的前k个近邻并构造邻域连接图.
(2) 计算邻接图中每一条边上的权重值构成权重矩阵F,确定每个样本点与其邻域点之间的重构权向量,并在低维空间中保持每个邻域的权值不变,使误差函数达到最小,可由下式计算:
式中:xi为原始样本点;
(3) 计算特征映射矩阵.根据高维空间中的样本点与其近邻点之间的权值矩阵F, 嵌入低维空间的投影矩阵A可以通过求解损失函数的最小化问题可以得到:
式中:yi为低维空间样本点;
通过拉格朗日函数法可将最优化求解问题转化为广义特征矩阵中的特征值问题, 如下式所示:
式中:M=(I-W)T(I-W),I为同维度单位矩阵.求解式(4)中最小的d个特征值所对应的特征向量组成映射矩阵A=
2 主多项式分析
PPA是一种计算主多项式成分的顺序算法.在每一步的计算中,计算出最佳投影数据的向量,通过使用一组主多项式成分从过程数据中学习数据的低维表示,将PCA中的直线主成分更换为曲线的主多项式成分,可以更好地捕捉过程变量的非线性特征[19].给定数据矩阵G为m个变量,n个训练样本,PPA对原始数据进行如下分解:
式中:
式中:
式中:V†为V的伪逆.
3 基于低维子流行空间主多项式分析的故障检测
获得一个经NPE算法维数约减的数据ynew∈Rd,根据式(5)和(6)可以得到第p步的主多项式得分
令αnew=[
式中:ΛPPA∈Rρ×ρ为对角元素为主多项式分量的方差对角矩阵.PPA的平方预测误差(SPE)统计量定义如下:
式中:
式中:
T2统计量的控制限可以计算如下:
式中:
SPE统计量的控制限可以计算如下:
式中:
故障检测的两个阶段可以分为离线建模和在线监测.
(1) 离线建模.离线建模的步骤如下:
步骤1 采集正常工况下的过程数据,将数据进行标准化.
步骤2 利用下式计算权重矩阵F,利用得到的权重矩阵根据式(4)计算映射矩阵A.
式中:Dis(xi,
步骤3 在数据矩阵上构造PPA模型,得到对应的主多项式分量与残差分量,并在主多项式分量空间和残差空间分别计算T2统计量与SPE统计量.
步骤4 计算其对应的监测统计量的控制限
(2) 在线检测.在线检测的步骤如下:
步骤1 获得一个新的样本xnew,然后使用建模数据的均值和方差对其进行标准化.
步骤2 利用投影矩阵A将xnew投影到低维子空间中,得到样本点ynew.
步骤3 利用训练模型中所学习的模型参数将样本点ynew映射到主多项式空间和残差空间,并在对应空间求得T2与SPE统计量.
步骤4 将上一步求得的统计量与离线建模步骤中的控制限进行对比,若T2与SPE中任一统计量超过其对应的控制限,则认为该样本为故障样本.
4 实验验证
通过将基于NPE-PPA的故障检测方法应用于一个非线性数值实例和TE过程,说明该方法的效率和优点,并将应用结果与标准的基于KPCA和PPA的监测方法进行比较.
4.1 非线性数值实例仿真应用
给出了一个非线性仿真实例,说明了该方法在故障检测方面的有效性.非线性系统由以下方程描述:
式中:
故障1 对变量x1从第201个样本至第400个样本上添加0.2(i-200)来引入斜坡故障,i为样本数.
故障2 对变量x5从第201个样本至第400个样本上添加幅值为25%的阶跃故障.
接下来,使用前文所提到的数值实例分别应用KPCA、PPA和NPE-PPA这3种方法进行建模分析.在KPCA中,通过85%累计贡献率来确定主元个数,在PPA和NPE-PPA模型中的主多项式成分和多项式度均设置为2.采用KPCA、PPA和NPE-PPA算法对故障1的检测结果如图1所示.从图1(a)中可以看出,KPCA的SPE统计量能够检测出故障的发生,T2统计量完全不能检测出故障的发生.PPA的SPE统计量能够检测出故障的发生,T2统计量在故障发生一段时间后能够做出一定的反应,但是故障检测的精确度低.NPE-PPA的T2统计量和SPE统计量在故障发生后能立即跳变到控制限以上,并且持续报警,能够迅速准确地检测到故障的发生.
图1
图2
4.2 TE过程仿真应用
表1 TE过程的21种故障
Tab.1
故障编号 | 性质描述 | 变化类型 |
---|---|---|
IDV1 | 物料U/C进料比改变,物料B含量不变 | 阶跃 |
IDV2 | 物料U/C进料比不变,物料B含量改变 | 阶跃 |
IDV3 | 物料D进料温度改变 | 阶跃 |
IDV4 | 反应器冷却入口温度改变 | 阶跃 |
IDV5 | 冷凝器冷却入口温度改变 | 阶跃 |
IDV6 | 物料U进料损失 | 阶跃 |
IDV7 | 物料C压力损失 | 阶跃 |
IDV8 | 物料U、B、C的组成比例改变 | 随机变量 |
IDV9 | 物料D进料温度改变 | 随机变量 |
IDV10 | 物料C进料温度改变 | 随机变量 |
IDV11 | 反应器冷却水入口温度改变 | 随机变量 |
IDV12 | 冷凝器冷却水入口温度改变 | 随机变量 |
IDV13 | 反应动力学参数改变 | 慢偏移 |
IDV14 | 反应器冷却阀门 | 粘住 |
IDV15 | 冷凝器冷却阀门 | 粘住 |
IDV16 | 未知 | 未知 |
IDV17 | 未知 | 未知 |
IDV18 | 未知 | 未知 |
IDV19 | 未知 | 未知 |
IDV20 | 未知 | 未知 |
IDV21 | 物流4阀门固定在恒定位置 | 恒定位置 |
将所提方法与基于KPCA和PPA算法的方法对TE过程的21种故障进行检测对比.首先,建立统计监控模型,在建立 KPCA 模型时,使用主元贡献率85%来确定其主元个数,在PPA方法和所提方法中使用的PPA模型通过交叉验证确定,主多项式空间数量设置为4,主多项式的幂设置为3,检测统计量控制限置信度设置为99%.
表2汇总了基于KPCA、PPA和NPE-PPA方法对TE过程的21种故障的故障检测结果,计算了所有21个故障的监测统计量的检测率.针对每一个故障,检测率最高的值在表中用粗体突出表示.对于故障3、9和15在众多文献中被认为很难检测出来,在本文的研究中也同样得到证实.基于KPCA和PPA的方法在检测6个故障(故障5、10、16、19、20和21)方面存在困难,大多数情况下的检测率小于60%.然而所提出的基于NPE-PPA的故障检测方法能够检测到所有18个故障(除故障3、9和15外),检出率高于85%.特别是故障5、10和20,基于NPE-PPA方法的故障检出率比KPCA和PPA高出2~3倍.
表2 3种方法对TE过程21个故障的检测率
Tab.2
故障 | KPCA | PPA | NPE-PPA | |||||
---|---|---|---|---|---|---|---|---|
T2 | SPE | T2 | SPE | T2 | SPE | |||
IDV1 | 0.99 | 1 | 0.99 | 1 | 0.98 | 1 | ||
IDV2 | 0.98 | 0.98 | 0.98 | 0.99 | 0.98 | 0.99 | ||
IDV3 | 0.01 | 0.08 | 0.12 | 0.21 | 0.06 | 0.20 | ||
IDV4 | 0.09 | 0.48 | 0.19 | 0.97 | 0.13 | 0.99 | ||
IDV5 | 0.22 | 0.30 | 0.31 | 0.39 | 1 | 1 | ||
IDV6 | 0.91 | 1 | 0.99 | 1 | 1 | 1 | ||
IDV7 | 0.99 | 1 | 0.48 | 1 | 0.71 | 1 | ||
IDV8 | 0.97 | 0.98 | 0.95 | 0.98 | 0.85 | 0.98 | ||
IDV9 | 0.01 | 0.09 | 0.15 | 0.23 | 0.04 | 0.16 | ||
IDV10 | 0.08 | 0.75 | 0.51 | 0.67 | 0.83 | 0.93 | ||
IDV11 | 0.30 | 0.54 | 0.34 | 0.72 | 0.13 | 0.74 | ||
IDV12 | 0.96 | 0.99 | 0.97 | 0.99 | 0.99 | 1 | ||
IDV13 | 0.94 | 0.95 | 0.94 | 0.97 | 0.95 | 0.96 | ||
IDV14 | 0.94 | 1 | 0.83 | 1 | 0.89 | 1 | ||
IDV15 | 0.01 | 0.10 | 0.16 | 0.25 | 0.07 | 0.26 | ||
IDV16 | 0.04 | 0.77 | 0.39 | 0.65 | 0.83 | 0.95 | ||
IDV17 | 0.69 | 0.88 | 0.78 | 0.94 | 0.87 | 0.97 | ||
IDV18 | 0.89 | 0.89 | 0.88 | 0.91 | 0.90 | 0.92 | ||
IDV19 | 0 | 0.45 | 0.05 | 0.32 | 0.60 | 0.88 | ||
IDV20 | 0.24 | 0.79 | 0.43 | 0.70 | 0.84 | 0.92 | ||
IDV21 | 0.29 | 0.37 | 0.27 | 0.50 | 0.43 | 0.68 |
为了说明基于NPE-PPA检测方法的优越性,分别比较了基于KPCA、PPA和NPE-PPA方法对故障5和10的检测结果,如图3和4所示.故障5是TE过程中的冷凝器冷却入口温度发生变化形成的一种阶跃故障.由图3可知,基于KPCA和基于PPA方法的T2和SPE统计量成功地检测了样本160~345的故障,而在样本346之后未能检测到故障,基于NPE-PPA的T2和SPE统计量都检测到样本160至过程结束的大部分故障,具有较高的检测率和较低的误报率.故障10是TE过程中物料C进料温度改变形成的一种随机变化故障.从图4可以清楚地观察到,所提出的基于NPE-PPA的方法比基于KPCA和PPA的方法更敏感,其T2和SPE统计量的变化比基于KPCA和PPA统计量的变化要显著得多,所提方法对于故障10的SPE统计量的检测率远高于其他监测统计量(见表2).
图3
图4
由表2可知,与其他方法的监测统计方法相比,所提NPE-PPA方法的SPE统计量在TE过程的大多数故障中提供了最佳的监测结果,展示了所提出的基于NPE-PPA方法的故障检测性能.NPE-PPA算法的检测效果得到了非常明显的提升,说明了由NPE-PPA算法投影得到的特征空间包含了更多有效的信息,具有更好的特征提取能力,使得NPE-PPA方法具有更好的分类效果以及较好的故障检测性能.
5 结语
本文提出一种基于NPE-PPA的故障检测算法,通过邻域保持嵌入算法提取数据局部结构信息,再使用PPA方法通过主多项式分量来捕捉过程数据中潜在的非线性结构.本文通过将其应用于一组非线性数值实例和TE过程的工业基准过程,验证了所提出的基于NPE-PPA的故障检测算法的有效性与优越性.应用结果表明,所提出的基于NPE-PPA的故障检测算法优于基于KPCA和PPA的传统非线性故障检测方法.
参考文献
Perspectives on process monitoring of industrial systems
[J]. ,DOI:10.1016/j.arcontrol.2016.09.001 URL [本文引用: 1]
A review of data-driven fault detection and diagnosis methods: Applications in chemical process systems
[J]. ,DOI:10.1515/revce-2017-0069 URL [本文引用: 1]
Just-in-time reorganized PCA integrated with SVDD for chemical process monitoring
[J]. ,DOI:10.1002/aic.v60.3 URL [本文引用: 1]
Quality prediction in complex batch processes with just-in-time learning model based on non-Gaussian dissimilarity measure
[J]. ,DOI:10.1021/acs.iecr.5b01425 URL [本文引用: 1]
Variable moving windows based non-Gaussian dissimilarity analysis technique for batch processes fault detection and diagnosis
[J]. ,DOI:10.1002/cjce.v93.4 URL [本文引用: 1]
Data-based process monitoring, process control, and quality improvement: Recent developments and applications in steel industry
[J]. ,DOI:10.1016/j.compchemeng.2007.07.005 URL [本文引用: 1]
Monitoring batch processes using sparse parallel factor decomposition
[J]. ,DOI:10.1021/acs.iecr.7b02618 URL [本文引用: 1]
Diffusion maps based k-nearest-neighbor rule technique for semiconductor manufacturing process fault detection
[J]. ,DOI:10.1016/j.chemolab.2014.05.003 URL [本文引用: 1]
Nonlinear component analysis as a kernel eigenvalue problem
[J]. ,DOI:10.1162/089976698300017467 URL [本文引用: 1]
Nonlinear process monitoring using kernel principal component analysis
[J]. ,DOI:10.1016/j.ces.2003.09.012 URL [本文引用: 1]
Fault detection and identification of nonlinear processes based on kernel PCA
[J]. ,DOI:10.1016/j.chemolab.2004.05.001 URL [本文引用: 1]
Laplacian eigenmaps for dimensionality reduction and data representation
[J]. ,DOI:10.1162/089976603321780317 URL [本文引用: 1]
Nonlinear principal component analysis using autoassociative neural networks
[J]. ,DOI:10.1002/(ISSN)1547-5905 URL [本文引用: 1]
Nonlinear principal component analysis by neural networks: Theory and application to the Lorenz system
[J]. ,DOI:10.1175/1520-0442(2000)013<0821:NPCABN>2.0.CO;2 URL [本文引用: 1]
Nonlinear principal component analysis—Based on principal curves and neural networks
[J]. ,DOI:10.1016/0098-1354(95)00003-K URL [本文引用: 1]
基于等距离映射的非线性动态故障检测方法
[J]. ,
Nonlinear dynamic fault detection method based on isometric mapping
[J].
Principal polynomial analysis for remote sensing data processing
[C]//2011 IEEE International Geoscience and Remote Sensing Symposium. ,
Nonlinear data description with principal polynomial analysis
[C]//2012 IEEE International Workshop on Machine Learning for Signal Processing. ,
Principal polynomial analysis for fault detection and diagnosis of industrial processes
[J]. ,DOI:10.1109/ACCESS.2018.2870140 URL [本文引用: 2]
Multiway principal polynomial analysis for semiconductor manufacturing process fault detection
[J]. ,DOI:10.1016/j.chemolab.2018.08.005 URL [本文引用: 1]
Neighborhood preserving embedding
[C]//Tenth IEEE International Conference on Computer Vision. ,
A plant-wide industrial process control problem
[J]. ,DOI:10.1016/0098-1354(93)80018-I URL [本文引用: 1]
Process monitoring based on independent component analysis-principal component analysis (ICA-PCA) and similarity factors
[J]. ,DOI:10.1021/ie061083g URL [本文引用: 1]
A comparison study of basic data-driven fault diagnosis and process monitoring methods on the benchmark Tennessee Eastman process
[J]. ,DOI:10.1016/j.jprocont.2012.06.009 URL [本文引用: 1]
Robust self-supervised model and its application for fault detection
[J]. ,DOI:10.1021/acs.iecr.7b00949 URL [本文引用: 1]
/
〈 | 〉 |