上海交通大学学报, 2025, 59(6): 780-788 doi: 10.16183/j.cnki.jsjtu.2023.388

新型电力系统与综合能源

基于粒子群优化堆叠降噪自编码器的电力设备状态数据质量提升

计蓉a, 侯慧娟,b, 盛戈皞b, 张立静b, 舒博b, 江秀臣b

上海交通大学 a. 国家电投智慧能源创新学院; b. 电气工程系, 上海 200240

Data Quality Improvement Method for Power Equipment Condition Based on Stacked Denoising Autoencoders Improved by Particle Swarm Optimization

JI Ronga, HOU Huijuan,b, SHENG Gehaob, ZHANG Lijingb, SHU Bob, JIANG Xiuchenb

a. College of Smart Energy; b. Department of Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China

通讯作者: 侯慧娟,助理研究员;E-mail:houhuijuan@sjtu.edu.cn.

责任编辑: 王历历

收稿日期: 2023-08-11   接受日期: 2024-01-15  

基金资助: 国家电网有限公司总部科技项目(5216A021003V)

Received: 2023-08-11   Accepted: 2024-01-15  

作者简介 About authors

计蓉(1999—),硕士生,从事电力设备状态数据质量评估及质量提升研究.

摘要

当下电力设备状态大数据呈现爆炸式增长,设备故障、数据传输以及人为操作失误等原因都会导致问题数据的出现,影响数据质量以及后续分析结果,因此数据清洗具有重要意义.目前大多数研究着力于识别异常数据并直接剔除,破坏了数据的完整性.针对此问题,提出一种基于改进堆叠降噪自编码器的数据清洗方法.首先,采用粒子群算法优化堆叠降噪自编码器中的超参数;然后,利用堆叠降噪自编码器提取、还原数据特征的特点来进行数据清洗,实现对孤立点的修复和对空缺数据的填补,以有效提升电力设备状态数据的质量.所提方法简单高效,可以同时提高数据集的准确性和完整性.以电力设备的历史运行数据为例进行测试,算例结果表明所提方法相比于其他经典方法,数据清洗效果更好,且针对不同异常程度和运行状态的数据集都有良好的清洗效果,能够提高电力设备状态数据的质量.

关键词: 电力设备; 状态数据; 堆叠降噪自编码器; 数据清洗

Abstract

Big data related to power equipment condition is experiencing explosive growth. However, equipment failures and personnel errors result in dirty data, having a negative effect on data quality and subsequent analysis results. Therefore, data cleaning is of great significance. Most existing research focuses on direct identification and elimination of abnormal data, which compromises the integrity of the data. In order to solve this problem, a data cleaning method based on improved stack noise reduction autoencoder is proposed in this paper. First, particle swarm optimization is used to optimize the hyperparameters of the stack noise reduction autoencoder. Then, the characteristics of the autoencoder is used to extract and restore the data features to clean the data. The method improves data quality of power equipment condition by repairing isolated data points and filling in missing data, which is simple and efficient for improving the accuracy and integrity of the data set. Finally, the historical operation data of power equipment is taken as an example. The simulation results show that the proposed method outperforms other classical methods providing good cleaning results for data sets with different abnormal degrees in different running states. The proposed method offers an effective solution for improving the quality of power equipment status data effectively.

Keywords: power equipment; status data; stacked denoising autoencoder; data cleaning

PDF (2085KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

计蓉, 侯慧娟, 盛戈皞, 张立静, 舒博, 江秀臣. 基于粒子群优化堆叠降噪自编码器的电力设备状态数据质量提升[J]. 上海交通大学学报, 2025, 59(6): 780-788 doi:10.16183/j.cnki.jsjtu.2023.388

JI Rong, HOU Huijuan, SHENG Gehao, ZHANG Lijing, SHU Bo, JIANG Xiuchen. Data Quality Improvement Method for Power Equipment Condition Based on Stacked Denoising Autoencoders Improved by Particle Swarm Optimization[J]. Journal of Shanghai Jiaotong University, 2025, 59(6): 780-788 doi:10.16183/j.cnki.jsjtu.2023.388

电力信息化平台日渐完善,能获取大量设备状态、电网运行和环境气象等电力设备状态相关数据.通过分析大数据内在规律,可以实现对电力设备状态的评估、异常状态检测、故障诊断等,从而保证电网的安全稳定运行[1-2].电力状态数据具有数量庞大、种类繁多、结构复杂、来源广泛的特点[3],目前设备状态监测系统的可靠性还不高.设备故障、外部扰动以及人为操作失误的情况时有发生,不可避免地出现异常数据和数据质量不高的问题,制约后续设备状态分析和评估,影响电力系统的可靠运行.因此,为了提升电力设备状态数据的质量,数据清洗必不可少[4].数据清洗是对现有数据校验和修复的过程,主要围绕异常数据检测、缺失数据填补、噪声数据去除等方面开展[5-8],以确保数据的完整性、有效性、准确性指标.

国内外学者针对电力领域的数据质量提升做了许多研究,并取得了一些成果.传统的处理方法是通过阈值检测识别出异常数据,之后再将其剔除[9-10];但直接剔除异常数据会破坏数据的连续性和完整性,影响后续基于数据集的分析决策.目前有多种修复异常数据的方法,主要可以分为以下几类.第一类是基于统计学理论的方法,利用数学模型对异常数据进行处理,例如文献[11]中提出一种基于多范数优化的低秩矩阵恢复模型来提高用电大数据的质量,文献[12]中提出用于功率曲线分析的最优组内方差算法.但基于统计学理论的数据清洗方法仅适用于分布平滑的低维度数据,应用范围较窄.第二类是采用聚类、关联分析、时间序列分析等手段,文献[13]中运用关联规则模型、基于密度的聚类算法以及小波神经网络模型对在线监测数据进行实时清洗;文献[14]中利用近似符号聚集、欧氏算法和调整相似度加权的相似序列完成数据清洗,分段降低时间序列数据的维数以降低噪声.近年来深度学习算法飞速发展,多层神经网络能够学习复杂的非线性关系,具有提取数据特征的能力,在数据清洗上也有较多应用,但是对孤立点的修复和对缺失值的填补一般采用不同的方法.文献[15-16]中使用生成对抗网络无监督学习量测数据的相关性及变化规律,以填补缺失的数据.文献[17]中利用堆叠降噪自编码器(stacked denoising autoencoder, SDAE)搭建降噪模型,但修复效果较依赖算法中超参数的选择以及数据样本自身的特征.

针对以上问题,在文献[17]的基础上提出一种基于改进堆叠降噪自编码器的数据清洗方法,可以同时修复异常数据集中不符合正常数据分布的孤立点和填充缺失数据,以有效提高电力设备状态数据的质量.SDAE作为无监督训练模型,可以在不添加标签的前提下提取输入数据的隐藏特征,并输出重构后的数据;为了降低SDAE算法中超参数取值对结果的影响,采用粒子群算法(particle swarm optimization, PSO)对SDAE算法进行改进,先以电力设备正常的状态数据为样本,训练寻找到全局最优的SDAE超参数,提取出正常数据的隐藏特征,再利用训练好的具有最优结构的SDAE网络处理异常数据集,得到的重构结果即为数据清洗结果.

以多种类型的电力设备历史状态数据为例,采用基于PSO-SDAE的数据清洗模型处理异常数据集,并与其他几种现有算法的清洗效果进行比较.算例结果表明,所提方法能够有效修复孤立点和填补空缺数据,数据清洗效果优于其他经典算法,所提基于PSO-SDAE的数据清洗模型适用范围广,可以有效清洗不同异常程度和运行状态下的异常数据.

1 堆叠降噪自编码器

自编码器(auto encoder, AE)是一种无监督学习方法,其结构对称,由编码和解码两部分组成,训练目的是使重构的输出数据尽可能还原输入数据[18-19].为了避免出现过拟合,提高鲁棒性,Vincent等[20]提出降噪自编码器(denoising auto encoder, DAE), 在自编码器的基础上,随机给输入数据添加噪声数据,通过学习受损输入数据的特征以近似还原出未添加噪声的输入数据.

设DAE中原始的输入数据为x,通过映射x~qD(x~|x)对原始输入随机添加噪声数据,得到有部分损坏的数据 x~.通过编码器函数f可以将x~映射到隐藏层,得到隐藏特征y,再通过解码器函数gy映射成重构结果z,原始输入x与重构结果z的重构误差为L.

单个DAE的编码能力有限,难以处理大规模数据集.将多个DAE堆叠在一起组成深层的学习架构,形成的SDAE拥有更强的学习、复现数据特征的能力[21-23],SDAE的结构如图1所示,图中上标(1)、(2)分别表示第一、第二层DAE.SDAE中采用逐层训练的方法,上一层DAE编码部分提取得到的隐藏层特征作为下一层DAE编码器的输入,重复此过程直到所有DAE都训练完成.

图1

图1   SDAE的结构

Fig.1   Structure of SDAE


SDAE模型建立及训练的流程如下:

(1) 在原始输入数据x中随机添加噪声数据,得到有部分损坏的数据x~作为新输入数据.

(2) 对x~进行编码,得到第一层DAE的特征:

y(1)=f(1)(x~)=σ(W(1)x~+b(1))

式中:W(1)为编码器的权重矩阵;b(1)为编码器的偏置向量;σ为激活函数,一般选择sigmoid函数,即

σ(s)= 11+e-s

式中:s为自变量.

(3) 经过解码,将隐藏特征y(1)重构,得到重构结果:

z(1)=g(y)=σ(W'(1)y(1)+b'(1))

式中:W'(1)为解码器的权重矩阵;b'(1)为解码器的偏置向量.

(4) 重构结果z与原始输入x之间存在重构误差即损失函数:

L(1)(x, z(1))= x-z12

损失函数体现降噪自编码器的训练效果,取最小值时说明输入数据x和重构结果z之间共有特性最大.由于z对染噪数据x~进行编码和解码重构,所以DAE具有降噪的作用,可以将此原理应用在数据清洗中.

采用梯度下降法不断更新权重和偏置系数:

W(1)new=W(1)-ηL1z· zW1
b(1)new=b(1)-ηL1z· zy1· y1b1

式中:η为学习率.第一层DAE的重构误差L取最小值时的权重和偏置系数即最优系数,将第一层DAE编码部分提取得到的隐藏层特征y(1)作为第二层DAE的输入.重复步骤(2)~(4),直至训练完所有DAE,得到所有层的权重和偏置系数以及SDAE的输出z,使SDAE网络的输出z尽可能逼近输入x.

2 基于粒子群优化的堆叠降噪自编码器的数据清洗模型

2.1 基于堆叠降噪自编码器的数据清洗原理

反映电力设备状态信息的主要是随时间变化的数值数据,通常按照图2所示的一维流线形分布.在数据监测、采集、传输过程中,由于监测传感器失效、通信故障、人为操作失误等原因,可能会出现偏离数据正常分布的孤立点(如图中x~i所示),以及空缺值(如图中虚线白色数据点所示),这些孤立点和空缺值的存在破坏了数据的完整性和准确性.

图2

图2   数据清洗原理

Fig.2   Schematic diagram of data cleaning


堆叠降噪自编码器在原始的正常数据上随机加入噪声以损坏数据,从其他正常未被损坏的数据中学习提取到非线性特征,用来预测还原受损数据的值,使其满足样本的总体特征.同样,针对数据中的孤立点和空缺值,也可采用上述方式得到符合期望的重构值.其中,正常数据xi的重构值为zi,偏离正常分布的x~i的重构值为z~i,异常数据的重构误差要大于正常分布的数据,满足关系式:

x~i-z~i2xi-zi2

电力设备正常运行时,数据一般分布在某个稳定值且波动不大;电力设备出现故障时,状态数据一般会出现较长时间的、有明显趋势的改变.如变压器油中溶解气体,在正常运行状态下含量较小且比较稳定;当出现出现局部放电故障时,油中溶解气体的含量就会在故障发生后的一段时间内有明显上升趋势.若按照正常运行状态下的数据集训练提取得到的特征来对故障运行状态下的数据进行数据重构,会导致连续时间点下的重构误差过大,因此要分别处理正常运行状态和故障运行状态下的数据,且正常运行状态和故障运行状态下的异常数据的重构误差都大于正常分布数据的重构误差.

2.2 基于粒子群优化的堆叠降噪自编码器的数据清洗模型

SDAE模型中超参数的取值会影响最终的数据清洗效果,超参数包括隐藏层中神经元的个数、噪声覆盖的比例.为了寻找最优的超参数使得数据清洗效果最好,利用PSO算法来优化SDAE.PSO算法是Kennedy和Eberhart[24]于1995年提出的一种全局优化算法,类似鸟类群体觅食的行为,种群中的粒子可以共享位置信息以及位置变化情况,根据粒子适应度函数值的变化来更新自身的位置和速度,以寻找最优解.PSO算法常应用于许多优化问题上,也可以用来优化神经网络[25-26].先用粒子群中的粒子训练SDAE网络,以SDAE中的重构误差作为PSO的适应度函数,适应度函数取最小值时数据清洗的效果最好,此时的超参数即为最优超参数.深度神经网络的层数会影响模型的拟合效果,但模型太过复杂也会影响泛化能力,结合以往文献的经验,考虑运算的复杂程度,本文中的SDAE模型由3层DAE堆叠而成.

根据2.1节中的数据清洗原理,可以得到基于PSO-SDAE的数据清洗模型,数据清洗模型结构见附录图A1.模型建立及优化的步骤如下:

(1) 选择无缺失值和孤立点的电力设备状态数据集作为训练集,将含有缺失值和孤立点的异常数据集作为测试集,将缺失值设置为0.训练集和测试集的数据应该同为电力设备正常运行状态或故障运行状态,对训练集和测试集进行归一化处理.

(2) 初始化SDAE网络的参数和PSO算法中的参数,设置种群中有N个粒子,最大迭代次数为M,第j个粒子的位置可以表示为Xj=[Xj1Xj2Xj3Xj4],其中Xj1~Xj3分别代表3个隐藏层的神经元个数,Xj4代表噪声覆盖率,令每个DAE的噪声覆盖率相同,粒子的速度可以表示为vj=[vj1vj2vj3vj4],初始化粒子的位置和速度.

(3) 依次用种群中的每个粒子来逐层训练SDAE,求取到的重构误差作为粒子的适应度函数值;适应度函数值的大小反映数据清洗的效果,适应度函数值越小,数据清洗效果越好.

(4) 计算并比较各粒子的适应度函数值,更新粒子的个体最优位置pbest以及种群的全局最优位置gbest.

(5) 更新粒子的位置和速度:

vjdt+1=w vjdt+c1r1(pjdt- Xjdt)+c2r2(pgdt- Xjdt)
Xjdt+1=Xjdt+Xjdt+1

式中:pjd为粒子最优解,pgd为种群全局最优解,t为迭代次数,d=1,2,…,4;w为惯性权重,c1为个体学习因子,c2为群体学习因子,r1r2为(0,1)区间内的随机数.

(6) 重复步骤(4)和步骤(5),迭代寻找数据清洗效果最好的SDAE超参数.

(7) 将测试集数据输入到训练好的具有最优超参数的SDAE网络中,输出得到的重构结果即为数据清洗结果.

3 算例分析

3.1 误差评价指标

为了对数据清洗效果给出有效的定量评价,本文选择相对误差百分比(eerror)、均方根误差(eRMSE)、平均绝对误差(eMAE)和平均百分比误差(eMPAE)作为数据清洗效果的评价指标,具体的计算公式如下:

eerror=zi-xixieRMSE=1ni=1n(zi-xi)2eMAE=1ni=1nzi-xieMPAE=1ni=1nzi-xixi

式中:xizi分别为第i个原始正常值和清洗值;n为异常数据集中样本的数量.eerroreRMSEeMAEeMPAE越小,则清洗后的数据越贴近实际正常数据,即数据的清洗效果越好.

3.2 正常运行状态下的排气温度数据清洗

以某核电厂公司2022年柴油发电机的历史运行数据为例,选择柴油发电机8月份正常运行状态下的气缸排气温度数据,数据的采集频率为10 min/条,选择其中的 1100 条数据,前 1000 条数据作为训练样本,在后100条数据上随机添加一定比例的异常值和缺失值,模拟实际生产中采集到的问题数据样本,作为测试集来验证所提数据清洗算法的有效性.

以训练集的正常数据样本训练PSO-SDAE模型,PSO算法中种群规模、学习因子、惯性权重等参数的选择主要影响收敛速度,对最终优化结果的影响可忽略.结合以往文献及实际经验,设置初始化种群规模N为10,种群迭代的最大次数M为100,学习因子c1= c2=4,惯性权重w为0.4,SDAE网络中隐藏层节点数Xj1~Xj3在[10,100]中,噪声覆盖Xj4在[0,1]中.

将训练集样本作为输入数据,用PSO算法中的粒子来训练SDAE网络,以SDAE算法的重构误差作为适应度值,迭代寻找重构效果最好的SDAE算法超参数,适应度曲线如图3所示.

图3

图3   PSO优化SDAE参数的适应度曲线

Fig.3   Fitness curve of PSO optimizing SDAE hyperparameters


图3可知,PSO算法迭代22次后适应度的值趋于稳定,最终寻找到的最优超参数取值为:Xj1=43,Xj2=67,Xj3=32,Xj4=0.316.由此可确定SDAE网络的结构,隐藏层的节点数依次为43、67、32,每层DAE都按31.6%的比例随机添加高斯噪声.SDAE中其他参数按以往参考文献的经验选择,学习周期设为 1800,学习率设为0.01.用上述训练好的数据清洗模型来清洗测试集的异常数据,清洗结果如图4所示.

图4

图4   PSO-SDAE数据清洗结果

Fig.4   Data cleaning result using PSO-SDAE


由清洗结果可知PSO-SDAE算法能够有效修复异常数据.为进一步验证所提方法的优越性和有效性,选取其他3种方法处理本算例中的数据集,再比较数据清洗结果.3种方法分别是基于反向传播(back propagation, BP)神经网络、PSO-支持向量机(support vector machine,SVM)以及SDAE的数据清洗模型,其中SDAE模型的超参数未经优化,隐藏层节点分别为50、30、30,噪声覆盖率为0.1.数据清洗结果如图5表1表2所示.

图5

图5   不同方法的数据清洗结果

Fig.5   Data cleaning results of different methods


表1   不同方法对异常数据的修复结果

Tab.1  Repairing results of abnormal data using different methods

时间
温度/℃eerror/%
原始值BPPSO-SVMSDAEPSO-SDAE
652.70045.70248.43154.04353.2651.07
1752.51245.70258.47053.96453.8132.48
2456.67661.56060.21759.37859.3624.74
3358.66561.56060.73659.37859.3651.19
4154.53445.70248.19453.96353.8131.32
4253.25345.70248.19353.96353.8131.05
5453.16045.70257.31153.96353.2350.14
6658.42161.55360.60253.96359.3531.60
8049.07061.56058.63359.37851.3624.67
9056.07345.70258.46953.96353.8134.03

新窗口打开| 下载CSV


表2   不同算法对应的数据清洗效果评价

Tab.2  Evaluation of data cleaning performance of different algorithms

方法eRMSEeMAEeMPAE/%
BP2.43200.7181.341
PSO-SVM1.61100.6131.140
SDAE1.21000.3530.666
PSO-SDAE0.51480.3040.560

新窗口打开| 下载CSV


分析图5中曲线以及表12中具体数据,可以看出所提方法对于10个异常数据的修复值更加贴近正常数据,相对误差百分比eerror都在5%以内,修复效果明显优于其他3种方法.

表2可知,所提基于PSO-SDAE的数据清洗模型与其他3种方法的清洗效果相比,eRMSEeMAEeMPAE均最小,相较于现有的基于BP和PSO-SVM的方法,PSO-SDAE的eRMSE分别低78.83%、68.04%,eMAE分别低57.66%、50.41%,eMPAE分别低58.24%、50.88%;相较于超参数未被优化的SDAE模型,所提方法的eRMSE低57.45%,eMAE低13.88%,eMPAE低15.92%,由此可见所提PSO-SDAE数据清洗模型对异常数据的清洗效果具有优越性,能够有效降低SDAE网络中超参数取值对清洗结果的影响,可以提升电力设备状态监测数据的质量.

3.3 正常运行状态下的相电流数据清洗

为了验证所提数据清洗方法的泛化能力,选择某核电厂公司某时段正常运行的柴油发电机的相电流数据为例,取其中800条正常数据作为训练集,对后100条数据进行随机异常处理,使数据异常率分别为5%、10%、20%、30%.

将训练集的相电流数据作为PSO-SDAE模型的输入,PSO算法的参数设置与3.2节一致.训练之后得到优化后的SDAE网络结构,3个隐藏层节点数Xj1~Xj3分别为42、35、26,噪声覆盖率Xj4为0.273,由此可见PSO-SDAE数据清洗模型可以根据训练集自身的特征,确定最适合的超参数取值.

用上述训练好的模型对不同异常率的测试集数据进行清洗,并与上述其他3种方法进行对比,清洗结果如图6所示,清洗效果评价如表3所示.可见,所提方法针对不同异常率的异常数据集,eRMSEeMPAE相对于其他方法都较小;且所提方法的eMPAE都在5%以内,即数据清洗后的结果更加贴近实际正常数据,说明所提方法具有泛化性,能够用于清洗多种类型的电力设备数据,有效提升数据质量.

图6

图6   不同异常数据集的修复结果对比

Fig.6   Comparison of repairing results of different abnormal data sets


表3   不同异常数据集的数据清洗效果评价

Tab.3  Evaluation of data cleaning performance of different abnormal data sets

方法异常率5%异常率10%异常率20%异常率30%
eRMSEeMPAE/%eRMSEeMPAE/%eRMSEeMPAE/%eRMSEeMPAE/%
BP51.2321.629572.6773.5770107.8917.096140.28711.147
PSO-SVM42.0451.364070.4093.656096.1246.135125.3147.762
SDAE38.4293.307854.5965.292880.9777.04373.8235.231
PSO-SDAE35.7311.296353.2462.718077.2724.67972.1814.806

新窗口打开| 下载CSV


3.4 故障运行状态下的油中溶解气体数据清洗

以上两个算例均为正常运行状态下的电力设备状态数据,为了进一步体现所提PSO-SDAE算法的适用性,对故障运行状态下的电力设备状态数据进行处理.选择2022年某地200 kV变电站中主变压器A相油色谱在线监测数据,正常运行状态下乙炔体积分数稳定在1.35 μL/L附近,某日变压器内部发生故障,乙炔体积分数异常告警,持续跟踪发现A相乙炔体积分数呈现出明显增长趋势,数值由1.35 μL/L快速增长至注意值5 μL/L.

分别取1000条正常运行状态下和 1000 条故障运行状态下的不含缺失值和孤立点的乙炔体积分数数据作为训练集样本输入PSO-SDAE,PSO算法中的参数设置与3.2、3.3节中保持一致,训练之后得到优化后的SDAE网络结构.正常运行状态下的数据样本训练优化的SDAE网络结构中,3个隐藏层节点数Xj1~Xj3分别为28、22、25,噪声覆盖率Xj4为0.126;异常运行状态下的数据样本训练优化的SDAE网络结构,3个隐藏层节点数Xj1~Xj3分别为37、30、32,噪声覆盖率Xj4为0.137,说明PSO-SDAE数据清洗模型可以提取正常运行和故障运行状态下的数据特征.

分别用上述训练好的数据清洗模型对正常运行状态和故障运行状态下含有缺失值和孤立点的测试集数据进行清洗,结果如图7所示.测试集中前125个取样时间的数据样本在变压器正常运行状态下,第126个取样时间点之后,变压器内部出现故障,乙炔体积分数开始有明显上升趋势.正常运行状态下,第10、34、58、89个取样时间点的清洗结果分别为1.352、1.371、1.389、1.407;故障运行状态下,第128、139、147、156、170、190个取样时间点的清洗结果分别为1.504、1.738、2.373、2.526、3.369、4.772,与实际情况相符合,说明基于PSO-SDAE的数据清洗模型也能满足故障运行状态下的电力设备状态问题数据.根据电力设备的故障类型,选择故障数据库中不含缺失值和孤立点的正常数据作为训练集,以问题数据集作为测试集,得到的重构结果即为电力设备状态数据的清洗结果.

图7

图7   乙炔体积分数数据清洗结果

Fig.7   Cleaning results of acetylene volume fraction data


4 结论

针对当前电力设备状态数据质量不高的问题,提出一种基于PSO-SDAE的数据清洗方法,搭建具体的数据清洗模型.先用PSO算法寻找确定清洗效果最优的SDAE超参数,再利用优化后的SDAE网络提取数据特征并重构的特点来进行数据清洗.运用PSO-SDAE算法对电力设备历史运行的异常数据进行清洗,并与其他几种经典算法进行比较,得出以下结论:

(1) 利用PSO算法来优化SDAE网络中隐藏层节点数和噪声覆盖率参数,可以避免在确定参数时多次重复试验,解决了参数值选取对数据清洗结果影响较大的问题.

(2) PSO-SDAE数据清洗模型能够通过学习正常数据的特征来有效清洗异常数据,不仅可以修复偏离正常数据的孤立点,也可以填充空缺数据,同时提高了数据的准确性和完整性.

(3) 与其他方法相比,所提方法的清洗效果更为优越,清洗值更符合正常数据的分布;所提方法具有泛化能力,针对不同程度的异常数据都具有良好的清洗效果.

(4) 用历史运行的状态数据来训练PSO-SDAE数据清洗模型,能够有效提取数据特征,从而实现对正常运行状态和故障运行状态下异常数据的清洗.

综上,所提方法能够有效提升电力设备状态数据的质量,为后续基于数据的分析提供保障,具有实际应用价值和现实意义.

附录见本刊网络版(xuebao.sjtu.edu.cn/article/2025/1006-2467/1006-2467-59-06-0780.shtml)

参考文献

江秀臣, 盛戈皞.

电力设备状态大数据分析的研究和应用

[J]. 高电压技术, 2018, 44(4): 1041-1050.

[本文引用: 1]

JIANG Xiuchen, SHENG Gehao.

Research and application of big data analysis of power equipment condition

[J]. High Voltage Engineering, 2018, 44(4): 1041-1050.

[本文引用: 1]

陈敬德, 盛戈皞, 吴继健, .

大数据技术在智能电网中的应用现状及展望

[J]. 高压电器, 2018, 54(1): 35-43.

[本文引用: 1]

CHEN Jingde, SHENG Gehao, WU Jijian, et al.

Application status and prospect of big data technology in smart grid

[J]. High Voltage Apparatus, 2018, 54(1): 35-43.

[本文引用: 1]

方静, 彭小圣, 刘泰蔚, .

电力设备状态监测大数据发展综述

[J]. 电力系统保护与控制, 2020, 48(23): 176-186.

[本文引用: 1]

FANG Jing, PENG Xiaosheng, LIU Taiwei, et al.

Development trend and application prospects of big data-based condition monitoring of power apparatus

[J]. Power System Protection & Control, 2020, 48(23): 176-186.

[本文引用: 1]

李刚, 张博, 赵文清, .

电力设备状态评估中的数据科学问题: 挑战与展望

[J]. 电力系统自动化, 2018, 42(21): 10-20.

[本文引用: 1]

LI Gang, ZHANG Bo, ZHAO Wenqing, et al.

Data science issues in state evaluation of power equipment: Challenges and prospects

[J]. Automation of Electric Power Systems, 2018, 42(21): 10-20.

[本文引用: 1]

王军, 李建勋, 韩山, .

一种效能评估中缺失数据的填充方法

[J]. 上海交通大学学报, 2017, 51(2): 180-185.

[本文引用: 1]

 针对评估数据缺失的问题,提出了一种新的缺失数据填充方法.从信息熵的角度对评估系统进行描述,并提出一种建立在区间值信息系统上的加权广义信息熵,对这种信息熵的非负性、单调性和极值性进行证明.在此基础上,通过研究评估系统数据缺失前后信息熵的变化情况,建立一种基于加权广义信息熵的缺失数据填充方法,并从知识粒度的角度论述加权广义信息熵的机制.通过实例分析与现有的部分算法进行比较,进一步证明文中算法对评估系统缺失数据填充的有效性.

WANG Jun, LI Jianxun, HAN Shan, et al.

A missing data filling method for effectiveness evaluation system

[J]. Journal of Shanghai Jiao Tong University, 2017, 51(2): 180-185.

[本文引用: 1]

周远翔, 林孟龙, 陈健宁, .

基于自注意力生成对抗网络的电力设备在线监测缺失数据填补

[J]. 高电压技术, 2023, 49(5): 1795-1809.

ZHOU Yuanxiang, LIN Menglong, CHEN Jianning, et al.

Missing data imputation for online monitoring of power equipment based on self-attention generative adversarial networks

[J]. High Voltage Engineering, 2023, 49(5): 1795-1809.

吴金娥, 王若愚, 段倩倩, .

基于反向k近邻过滤异常的群数据异常检测

[J]. 上海交通大学学报, 2021, 55(5): 598-606.

DOI:10.16183/j.cnki.jsjtu.2020.011     

针对无数据标签的群数据异常检测问题,提出在无监督模式下利用k最近邻(kNN)算法检测群数据异常.为减少由于异常值与正常值之间相互干扰而产生的漏报和误报,提出用反向k近邻(RkNN)算法对异常群数据进行反向过滤. 反向k近邻算法首先将统计距离作为不同群数据间的相似性度量,再用kNN算法求得每个集群的异常得分,并获得初始异常,最后使用RkNN算法对初始异常进行过滤.实验结果证明,所提算法能有效减少漏报和误报,且具有较高的异常检测率和良好的稳定性.

WU Jin’e, WANG Ruoyu, DUAN Qianqian, et al.

Collective data anomaly detection based on reverse k-nearest neighbor filtering

[J]. Journal of Shanghai Jiao Tong University, 2021, 55(5): 598-606.

李富盛, 陈伟松, 钱斌, .

面向低压配电网智能电表误差监测的LightGBM-EM-EC多变量缺失数据高效重建

[J]. 中国电机工程学报, 2022, (42 Sup.1): 95-105.

[本文引用: 1]

LI Fusheng, CHEN Weisong, QIAN Bin, et al.

Efficient reconstruction of multivariate missing data for smart meter error monitoring in low voltage distribution network based on LightGBM-EM-EC

[J]. Proceedings of the CSEE. 2022, (Sup.1): 95-105.

[本文引用: 1]

杨茂, 张书天, 王天硕, .

基于IKLIEP-四分位模型的风电场异常数据识别算法

[J]. 高电压技术, 2023, 49(7): 2952-2960.

[本文引用: 1]

YANG Mao, ZHANG Shutian, WANG Tianshuo, et al.

Identification algorithm of wind farm abnormal data based on IKLIEP-quartile model

[J]. High Voltage Engineering, 2023, 49(7): 2952-2960.

[本文引用: 1]

王文森, 杨晓西, 刘阳, .

基于层次聚类分析的变压器油中溶解气体在线监测数据异常检测

[J]. 高压电器, 2023, 59(1): 142-147.

[本文引用: 1]

WANG Wensen, YANG Xiaoxi, LIU Yang, et al.

Anomaly detection of online monitoring data of dissolved gases in transformer oil based on hierarchical cluster analysis

[J]. High Voltage Apparatus, 2023, 59(1): 142-147.

[本文引用: 1]

杨挺, 孙兆帅, 季浩, .

基于矩阵范数优化理论的用电数据质量提升算法

[J]. 中国电机工程学报, 2022, 42(10): 3501-3511.

[本文引用: 1]

YANG Ting, SUN Zhaoshuai, JI Hao, et al.

Electricity consumption data quality improvement algorithm based on matrix norm optimization theory

[J]. Proceedings of the CSEE, 2022, 42(10): 3501-3511.

[本文引用: 1]

娄建楼, 胥佳, 陆恒, .

基于功率曲线的风电机组数据清洗算法

[J]. 电力系统自动化, 2016, 40(10): 116-121.

[本文引用: 1]

LOU Jianlou, XU Jia, LU Heng, et al.

Wind turbine data-cleaning algorithm based on power curve

[J]. Automation of Electric Power Systems, 2016, 40(10): 116-121.

[本文引用: 1]

林峻, 严英杰, 盛戈皞, .

考虑时间序列关联的变压器在线监测数据清洗

[J]. 电网技术, 2017, 41(11): 3733-3740.

[本文引用: 1]

LIN Jun, YAN Yingjie, SHENG Gehao, et al.

Online monitoring data cleaning of transformer considering time series correlation

[J]. Power System Technology, 2017, 41(11): 3733-3740.

[本文引用: 1]

朱有产, 梁玮轩, 王英姿.

基于时间序列的配电网数据清理和融合方法研究

[J]. 电网技术, 2021, 45(7): 2839-2846.

[本文引用: 1]

ZHU Youchan, LIANG Weixuan, WANG Yingzi.

Research on data cleaning and fusion in distribution power grid based on time series technology

[J]. Power System Technology, 2021, 45(7): 2839-2846.

[本文引用: 1]

REN C, XU Y.

A fully data-driven method based on generative adversarial networks for power system dynamic security assessment with missing data

[J]. IEEE Transactions on Power Systems, 2019, 34(6): 5044-5052.

[本文引用: 1]

王守相, 陈海文, 潘志新, .

采用改进生成式对抗网络的电力系统量测缺失数据重建方法

[J]. 中国电机工程学报, 2019, 39(1): 56-64.

[本文引用: 1]

WANG Shouxiang, CHEN Haiwen, PAN Zhixin, et al.

A reconstruction method for missing data in power system measurement using an improved generative adversarial network

[J]. Proceedings of the CSEE, 2019, 39(1): 56-64.

[本文引用: 1]

代杰杰, 宋辉, 杨祎, .

基于栈式降噪自编码器的输变电设备状态数据清洗方法

[J]. 电力系统自动化, 2017, 41(12): 224-230.

[本文引用: 2]

DAI Jiejie, SONG Hui, YANG Yi, et al.

Cleaning method for status data of power transmission and transformation equipment based on stacked denoising autoencoders

[J]. Automation of Electric Power Systems, 2017, 41(12): 224-230.

[本文引用: 2]

SHIN H C, ORTON M R, COLLINS D J, et al.

Stacked autoencoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data

[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(8): 1930-1943.

[本文引用: 1]

HONG C Q, YU J, WAN J, et al.

Multimodal deep autoencoder for human pose recovery

[J]. IEEE Transactions on Image Processing: A publication of the IEEE Signal Processing Society, 2015, 24(12): 5659-5670.

[本文引用: 1]

VINCENT P, LAROCHELLE H, BENGIO Y, et al.

Extracting and composing robust features with denoising autoencoders

[C]// Proceedings of the 25th international conference on Machine learning. Helsinki, Finland: ACM, 2008: 1096-1103.

[本文引用: 1]

VINCENT P, LAROCHELLE H, LAJOIE I, et al.

Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion

[J]. Journal of Machine Learning Research, 2010, 11: 3371-3408.

[本文引用: 1]

李兵, 梁舒奇, 单万宁, .

基于改进正余弦算法优化堆叠降噪自动编码器的电机轴承故障诊断

[J]. 电工技术学报, 2022, 37(16): 4084-4093.

LI Bing, LIANG Shuqi, SHAN Wanning, et al.

Motor bearing fault diagnosis based on improved sine and cosine algorithm for stacked denoising autoencoders

[J]. Transactions of China Electrotechnical Society, 2022, 37(16): 4084-4093.

招景明, 唐捷, 潘峰, .

基于SDAE和双模型联合训练的低压用户窃电检测方法

[J]. 电测与仪表, 2021, 58(12): 161-168.

[本文引用: 1]

ZHAO Jingming, TANG Jie, PAN Feng, et al.

Detection method of electricity theft for low-voltage users based on SDAE and double-model joint training

[J]. Electrical Measurement & Instrumentation, 2021, 58(12): 161-168.

[本文引用: 1]

KENNEDY J, EBERHART R.

Particle swarm optimization

[C]// Proceedings of ICNN’95-International Conference on Neural Networks, Perth, Australia: IEEE, 1995: 1942-1948.

[本文引用: 1]

王立文, 刘建华, 陈斌, .

基于改进的PSO优化SVR的机场道面积冰预测

[J]. 计算机仿真, 2021, 38(9): 45-50.

[本文引用: 1]

WANG Liwen, LIU Jianhua, CHEN Bin, et al.

Prediction of airport road surface icing based on improved PSO optimized SVR

[J]. Computer Simulation, 2021, 38(9): 45-50.

[本文引用: 1]

DU B G, HUANG S, GUO J, et al.

Interval forecasting for urban water demand using PSO optimized KDE distribution and LSTM neural networks

[J]. Applied Soft Computing, 2022, 122: 108875.

[本文引用: 1]

/