上海交通大学学报, 2022, 56(8): 1014-1023 doi: 10.16183/j.cnki.jsjtu.2021.195

新型电力系统与综合能源

基于多源局部放电信号数据流聚类分离方法

陈昌川,1, 刘凯1, 刘仁光1, 冯晓棕2, 覃延佳2, 代少升1, 张天骐1

1.重庆邮电大学 通信与信息工程学院,重庆 400065

2.广州友智电气技术有限公司,广州 510260

Clustering Separation Method Based on Multi-Source Partial Discharge Signal Data Stream

CHEN Changchuan,1, LIU Kai1, LIU Renguang1, FENG Xiaozong2, QIN Yanjia2, DAI Shaosheng1, ZHANG Tianqi1

1. School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

2. Guangzhou Youzhi Electric Technology Co., Ltd., Guangzhou 510260, China

责任编辑: 陈晓燕

收稿日期: 2021-06-8  

基金资助: 国家自然科学基金面上项目(61671095)
重庆市研究生教育教学改革研究重点项目(yjg192019)
重庆市研究生教育教学改革研究一般项目(yjg213079)
校企合作项目“电力设备局放在线监测系统装置”(SET20190627002)

Received: 2021-06-8  

作者简介 About authors

陈昌川(1978-),男,四川省广安市人,副教授,从事智能信息处理、图像人工智能处理、特高频局放检测、红外成像与测温研究。电话(Tel.):13350370998;E-mail:creditdegree@gmail.com.

摘要

局部放电检测中, 多种放电源与现场干扰源同时存在且不断变化,导致多种局部放电源难以有效分离及识别.提出一种高效自适应在线数据流(EAOStream)聚类算法,该算法采用自然邻域创建K-dimensional树来提高查询近邻的效率,即通过流数据的特征得到自适应的邻域半径和区域密度,从而能够局部搜索并形成团簇,实现多种局部放电源的实时在线分离.在人工数据集和真实数据集验证了EAOStream的优越性,通过与传统的DenStream和SE-Stream算法比较,将其应用于气体绝缘变电站故障的模式识别.实验测试结果表明:EAOStream在真实的网络入侵检测、森林覆盖类型及多源局部放电信号数据集的聚类准确度分别达到95.28%、98.47%及97.23%,验证了该算法在气体绝缘变电站故障诊断方面的实用性和有效性.

关键词: 数据流; 聚类分离; 自适应; 自然邻域; 局部放电

Abstract

In partial discharge(PD) detection, due to the simultaneous and constantly changing phenomenon of multiple discharge sources and on-site interference sources, it is difficult to effectively separate and identify multiple PD sources. An efficient adaptive efficient adaptive online data stream clustering algorithm (EAOStream) is proposed. The algorithm uses natural neighborhoods to create K-dimensional (KD) trees to improve the efficiency of querying neighbors. That is, the adaptive neighborhood radius and the area density are obtained through the characteristics of the flow data, which can search locally and form clusters, and realize the real-time online separation of multiple local discharge sources. The superiority of EAOStream is verified in the artificial data set and the real data set. After comparing EAOStream with the traditional DenStream and SE-Stream algorithms, it is applied to the pattern recognition of gas-insulated substation faults. Experimental test results show that the clustering accuracy of EAOStream in the real network intrusion detection, the forest cover type, and the multi-source PD signal data sets reaches 95.28%, 98.47%, and 97.23%, verifying the practicability and effectiveness of the algorithm in fault diagnosis of gas-insulated substations.

Keywords: data stream; cluster separation; local adaptation; natural neighborhood; partial discharge (PD)

PDF (7466KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈昌川, 刘凯, 刘仁光, 冯晓棕, 覃延佳, 代少升, 张天骐. 基于多源局部放电信号数据流聚类分离方法[J]. 上海交通大学学报, 2022, 56(8): 1014-1023 doi:10.16183/j.cnki.jsjtu.2021.195

CHEN Changchuan, LIU Kai, LIU Renguang, FENG Xiaozong, QIN Yanjia, DAI Shaosheng, ZHANG Tianqi. Clustering Separation Method Based on Multi-Source Partial Discharge Signal Data Stream[J]. Journal of Shanghai Jiaotong University, 2022, 56(8): 1014-1023 doi:10.16183/j.cnki.jsjtu.2021.195

符号说明

A—放电幅值

Ci—一个集群中的样本数量

Cid—簇中有优势地位的样本数

D—区域密度值

d—数据的属性数

dλ(i)—数据点iλ近邻距离

F —纯度

Fm —F-Measure的统计量

Ku—陡峭度

M—微簇最小阈值

m—不同宽度的高斯核线性组合成加权多宽度高斯核的个数

N—微簇拥有数据量

NbK邻居的个数

Nρik—数据点ρi的第k个邻域范围内数据点集合

n —数据集中的对象个数

P —准确度

Pe —精确率

Pi—第i个相位的概率密度

Q —放电量

q —微簇群的个数

R —权重系数

Rk—壳半径

Rc—核心半径

Rm-nm个不同宽度高斯核上的权重系数

Rm—常量因子

Re —召回率

S—样本输入的速度

Sk—偏斜度

t—处理时间

w—加权多宽度高斯核函数

Xij—第i数据的第j个属性值

xi—第i个相位值

Δx—相位的宽度

γ —邻域半径

λ—自然特征值

μ—第i个相位的均值

μij—第i个微簇第j个属性的重心值

σ—方差

Φ—工频相位

在人口稠密的城市中,对变电站的紧凑设计和小尺寸的要求,使得气体绝缘变电站(Gas Insulated Substation,GIS)的安装成为必要条件.由于紧凑设计、低维护要求及可靠的运行,近年来GIS在电力公用事业中得到了广泛的应用[1-3].像其他高压设备一样,在强电场的作用下,GIS设备绝缘体内部区域可能出现各种引起危害的潜伏性绝缘缺陷,产生不同类型局部放电(Partial Discharge, PD)[4-5].不同类型PD反映的绝缘劣化机理不同,对GIS设备损害程度也不同.识别PD类型可以为变压器的诊断、检修提供依据,从而确保电力系统安全稳定地运行[6].

模式识别是气体绝缘变电站故障诊断的主要内容之一,用数学技术方法对有故障信息的数据进行自动处理和识别,提取有效的信息,从而对故障的数据点进行聚类和分离.通过PD信号监测系统采集到PD信号,通过模式识别方法对数据之中能反映气体绝缘变电站PD的特征信息进行辨识,从而可以判断PD的放电类型.如果气体绝缘变电站发生故障,产生了PD的现象,则可以对PD类型进行判断,为维修提供一定的技术指导.PD类型大概分为尖端放电、空穴放电、悬浮电极放电及自由金属颗粒放电.这些缺陷主要是由诸如断路器之类的运动部件的机械振动所产生.相位分辨局部放电(Phase Resolved Partial Discharge, PRPD)模式是PD测量分析中最常用的方法,本文采用的特征提取方法是统计特征法[7].利用特高频法对PD信号进行监测,对其放电特性进行分析.提取可以反映GIS设备缺陷的特征参数,这些特征参数包括偏斜度、陡峭度、上升时间、下降时间及脉冲宽度等[8-9].这些特征参数都应该具有很高的辨识度,将GIS的运行状态与各个特征参数相关联,来分析并以其结果预警GIS设备潜在故障,利用聚类分离算法[10-17]将不用的特征参数的信号分离出来.针对不确定的数据流特征,Cao等[18]提出DenStream聚类算法,该算法引入核心微簇来概括任意形状的簇,同时提出潜在的核心微簇和异常微簇结构来维护和区分潜在簇和异常值,扩展了传统基于密度的聚类算法,重点处理任意形状的数据流聚类问题.DenStream算法存在不足,没有限制核心微簇的数量,同时也没有删减或减少核心微簇的方法,会导致大量的内存开销.Chairukwattana 等[19]提出SE-Stream聚类算法,通过减少执行时间和提高微簇的质量来提高算法的性能,确定每个活动微簇的适当维度子集来表达数据流中的微簇的特定特征,支持微簇结构随时间的变化,包括微簇的出现、消失、自我进化、合并及分裂.SE-Stream算法存在着缺陷,需要初始化定义较多的参数,后期的聚类效果受初始化参数的影响.该算法目的是为了在每个微簇中提取最佳的选定维度集,不能保证这些维度是否冗余.

针对多种实时PD信号数据且不断变化的问题,系统需要能够实时对多种PD信号进行分离,本文提出了一种高效自适应在线数据流(Efficient Adaptive Online Data Stream Clustering Algorithm, EAOStream)聚类算法,该算法在传统数据流聚类算法上,利用自然邻域(Natural Neighbor,NaN)的方法,创建KD树(K-dimension Tree)来提高查询近邻的效率,该方法通过流数据的特征值计算出适应的邻域半径和区域密度进行局部搜索,从而来支持最佳的聚类效果.在形成团簇后,半径可以跟着时间增加或减小,根据数据流结构动态变化,一些微簇会随着时间拆分或合并.实验测试效果表明,该算法为任意形状微簇聚类提供了一种有效的解决方案并具有更高的分类精度.

1 多源PD信号数据流聚类分离

为了测试多源PD信号数据流聚类算法的性能,本文在实验室设计4种典型的变压器PD缺陷模型.使用广州友智电气技术有限公司的PD监测设备对每种类型缺陷进行在线检测取样,设计特高频缺陷PD监测系统对PD信号的数据进行概率分析,使信号特征和聚类分离更加稳定.

1.1 PD信号特征提取

实现不同PD故障信号的分离,首先必须提取的特征量能够反映PD信号的时域特征.从而通过特高频提取到的特征值来表示PD信号.由于放电机理、放电缺陷位置、放电信号传播路径的不同,所以多种PD信号会在特征值中表现不同的差异,根据不同PD信号时域分布特征的不同,就可以将多种PD进行分离.用于类型识别的 PD 特征量选择方法主要集中在PD相位分析模式,统计特征参数用PRPD的特征描述.本文提取了信号特征中的SkKuΦQ等特征量.

(1) 偏斜度Sk用来描述PRPD图谱的差异,反映了图谱形状相对于正态分布的左右偏斜情况.具体计算公式为

Sk= i=1N(xi-μ)3PiΔx/σ3

(2) 陡峭度Ku用来描述PRPD图谱形状分布的突起程度,表示概率密度分布曲线在平均值处峰值高低的特征数.具体计算公式为

Ku= i=1N(xi-μ)4PiΔx/σ4-3

1.2 PD信号分离方法

根据PRPD图谱中统计参数中的SkKuΦQ组成一系列二维或三维图谱及其统计特征来实现对多种PD信号的分类[20-21].传统的聚类分离算法存在一定的问题:通过特高频传感器接收不断变化的实时PD信号,需要保证完整的工频周期.而离线的聚类算法(例如DBSCAN)不能满足要求,从而提出了一种高效EAOStream聚类算法.

1.2.1 基本概念

(1) 微簇形成:在一定半径的范围内,当数据点与其他的簇足够远的时候,那么这些点会组成一个新簇.

(2) 微簇合并:如果一个微簇的外壳半径与另一个微簇的核心半径之和大于其中心距离,这两个微簇进行合并.

(3) 微簇分裂:如果微簇由一定数量的数据形成的候选微簇不与其他微簇的壳半径相交,则将这两个微簇分开.

(4) 壳半径Rk:确定了微簇的边界,用于微簇的合并和分割的操作.离聚类中心最远的数据距离指定为聚类的壳半径.

(5) 核心半径Rc:作为微簇集中区域,用于判断两个微簇是否能够合并为一个微簇.

核心半径的值根据集合中每个特征的标准差来计算,然后对其求平均.核心半径的计算式为

Rc= 1djd1Ni=1N(Xij-μij)2

微簇的中心有关的重心计算式为

μij=1Ni=1NXij

数据点到来的时候,确定该数据最近的微簇,如果数据点到聚类中心的距离小于聚类的Rk,则将数据分配给相关微簇,并更新聚类重心.如果数据到聚类中心的距离大于聚类的Rk,小于最大半径,并且小于聚类的Rk和半径增量阈值之和,则将此数据分配到该聚类.微簇的Rk可以增加到最大半径,但这个增加的过程是逐步实现的,该增加量可到一个阈值,超过一定阈值,数据将不会增加到该集合中,这样结构能够保证微簇更加稳定,增加微簇抗干扰能力.

1.2.2 NaN算法

KD树是20世纪70年代提出的支持多维性的平衡二叉搜索树类型[22].NaN算法通过创建KD树来提高查询近邻的效率,遍历整个数据集,从根节点出发,通过递归的方式访问KD树.寻找每一个数据点的K近邻Nρik和逆K近邻Rρik.NaN方法定义为给定一组数据点ρ1,ρ2,…,ρN,找出所有数据点ρiρj之间的相似性,目的是在数据集中找到这些点的NaN,计算并存储在距离矩阵中,测量该距离最流行的选择之一是欧氏距离.达到自然稳定状态的条件是数据集中的近邻数为0的数据点个数不再发生变化或所有对象都有逆邻居.对于数据点来说,如果同时将点ρi视为ρj并将点ρj视为ρi,则ρi是点ρj自然邻居之一.数据点的自然稳定结构按下式制定:

(∀ρi)(∃ρj)(k∈N)∧(ρi≠ρj)→ (ρjNρjk)∧(ρiNρik)

如果数据对象分布是规则的或数据集的大小很小,则λ的值很小.如果数据对象分布不规则或数据集的大小很大,则λ的值很大.但是,无论λ的值有多大,它仍然远远小于数据集大小的值.为了找到每个数据点的NaN,需要不断扩大邻域的搜索范围,当达到自然稳定状态,NaN搜索算法就停止.最大的邻域就是数据λ.NaN算法如算法1所示.

算法1 NaN算法

输入:数据集

输出:λ,NaN,NaN数据Nb

步骤1 初始化NaN.

步骤2 将数据放入到KD树上进行最邻近搜索.

步骤3 对其每个数据点找到其K-近邻、逆K-近邻,以及每个数据点近邻的数量.

步骤4 判断是否达到稳定终止平衡条件.

该算法无需任何参数即可自动完成NaN的整个过程,如果将K最近邻居的形成视为主动邻居搜索的过程,则NaN的形成是不可行的,数据中的每个对象的K最邻近(K-Nearest Neighbor, KNN)和逆K最邻近(Reverse Natural Neighbor, RNN)的搜索成本非常高.因此将KD树引入到NaN搜索算法中.因为将KD树引入到NaN的搜索中,所以NaN搜索的算法时间复杂度为O(nlogn).

1.2.3 EAOStream介绍

EAOStream包括两个阶段.第一阶段中,引入NaN算法,EAOStream通过NaN算法对前n个数据点组成的数据集进行处理得到λ值和微簇最小阈值M,然后计算每个数据点与M的距离之后,求其平均值.设算法邻域半径为γ,通过引入NaN算法,得到EAOStream所需要的Mγ,从而无需初始化参数值,通过数据点不断进入,自适应更新Mγ.

EAOStream框架如图1所示,γ的计算式为

γ= i=1ndλ(i)/n

图1

图1   EAOStream流程图

Fig.1   Flow chart of EAOStream


为了针对数据集分布的自然规律,对数据点分布稀少或分布密集的区域,搜索的半径可以采用加权多宽度高斯核函数 (Weighted Gaussian Kernel with Multiple Widths, WGKMW) 进行加权,动态设置微簇的邻域半径.区域密度值D越大时,邻域半径越大,反之则邻域半径越小.加权公式为

w=Rm+ n=1mRm-nexp{-[(N-M)n/M]2}

Rm使微簇中的数据点之间距离的线性平移放大,在其特征区间内扩大样本的差异,可以更好实现对差别微弱的微簇之间进行聚类,从而微簇的半径和密度可通过NaN算法进行自适应变化.对微簇进行调整,该算法采用了一种简单的线性老化确定方法,从而缩短了微簇的寿命.该微簇作为未使用的微簇可看作完全消失,不仅可以替代老化的技术,而且还可以通过添加更多的数据点来将该微簇激活,从而更新微簇的图谱.当没有接收可用的数据时,微簇会逐渐消失.这种现象广泛存在时,微簇的寿命将逐渐达到0,从而被消除.

第二阶段是相交的微簇,将微簇分为壳区域和核心区域,通过考虑与微簇外壳相交的核心区域来对微簇进行分组,可以自动确定边缘的微簇群.不具有最小阈值的微簇会存在异常值,每个微簇都含有一个图形,图2演示了微簇的相交.通过应用图结构能够最大程度减少微簇的破裂或最终死亡时分离微簇所需要的计算.EAOStream采用实时更新图结构的方式得到聚类结果,当数据点到来后,计算修改后的微簇周围的几个相连的微簇的可达性,其余的点不需要修改,能够确保微簇划分的有效性.聚类形成过程和结果如图2所示, X数据和Y数据分别为数据集中数据点的横坐标及纵坐标,不同颜色的微簇代表不同的类别.

图2

图2   EAOStream聚类过程和结果图

Fig.2   EAOStream clustering process and result graph


算法处理流程总结如下.

步骤1 参数选择.对前n个数据,利用NaN算法得到λ,计算每个数据点D近邻距离的和,并求平均值,所得到的值设为算法的邻域半径,从而能够自适应得到邻域半径和区域密度.

步骤2 初始化微簇.初始化参数主要是邻域半径、区域密度和衰减值,算法将第一个数据点用来初始化微簇,并将微簇的属性设定初始值.

步骤3 分配核心微簇.在到达新数据点时,判断数据样本是否属于当前任何微簇.如果不是,则创建一个新的微簇.如果数据在当前微簇中,进一步检查数据在微簇团的核心半径或壳半径内.如果判断数据点落在壳半径区域内,则更新微簇的中心位置.

步骤4 删除衰减到最小阈值的微簇.所有的微簇寿命减少到衰减量时,将微簇移除,并删除与它相连的边.

步骤5 更新集群.存在3种情况会使聚类图进行更新:在已存在的微簇中心点位置已发生改变;微簇发生移动或产生新的微簇;微簇的寿命衰减到设定的阈值.

在上述情况下可以更改算法的边缘列表,需要更新微簇群的数量,首先可通过NaN算法计算出合适的邻域半径和区域密度.当微簇达到阈值或微簇中心位置发生移动时,微簇的图形边缘将发生修改,则产生的微簇的个数也发生改变.

1.2.4 EAOStream复杂度分析

EAOStream采用了NaN算法初始化参数,时间的复杂度是O(nlogn);新进入后的算法仅和存在的有限个微簇中心的距离进行比较,时间的复杂度为O(qn);检查是否有新的微簇生成、衰老到指定阈值、更新图谱结构时间复杂度为O(qn).

依据保存的微簇个数对数据流聚类算法的空间复杂度进行衡量.EAOStream仅保存当前微簇,以前的微簇不会保留,可以大量减少内存消耗.

2 实验与结果分析

为了在不同的环境中测试EAOStream的性能,采用了数据挖掘与知识发现网络入侵检测数据集(Data Mining and Knowledge Discovery Network Intrusion Detection Data Set,KDD CUP'99)、森林覆盖类型Forest Covertype及多源局部放电信号(Multi-source Partial Discharge Signal,MS-PD)数据集进行验证.本文算法在软件仿真实现后移植到硬件中,实验的硬件环境为:Intel i7-8750 CPU,16 GB的内存,Windows 10操作系统,核心板为MZ7X 7035.KDD CUP'99数据集作为数据流输入到算法中,多源PD信号数据集来自于校企合作项目,现场通过PD监测系统对多种PD源放电信号进行采集得到数据集,并同时将聚类效果与DenStream和SE-Stream算法进行对比分析.为了评估聚类效果,通常采用的评估指标包括纯度、准确度及F-Measure.

(1) 纯度是一种对聚类效果的测量方法,代表着簇本身的纯度,其定义为

F= i=1NCidCi/N

(2) 准确度通过将模型产生的聚类效果与真实聚类进行比较,来衡量模型是否成功,其定义为

P= i=1NCid/ i=1NCi

(3) F-Measure的统计量为精确率Pe和召回率Re的加权调和平均,主要用于评价分类模型的性能,其定义为

Fm= 2PeRePe+Re

2.1 聚类实验结果分析

为了验证EAOStream的性能,通过性能指标纯度、准确度及Fm来衡量聚类的质量,同时将DenStream、SE-Stream与EAOStream进行比较.在实验室中,采用3种真实的数据集,第1个数据集是KDD CUP'99,使用其中数据集中的子集,包含 494020 条记录,每条记录对应一个正常的连接或4种类型的网络攻击之一,具有34个属性和22个类.第2个数据集是Forest Covertype,来自于加州大学欧文分校(University of CaliforniaIrvine,UCI)机器学习植被型数据集,其中包含 581012 条记录,具有10个属性和7个类.第3个数据集是MS-PD数据集.与校企合作项目中的PD监测系统,在实地高压场景下模拟MS-PD信号,通过特高频传感器采集产生的多种混合的PD信号进行实验,采集到真实的MS-PD信号数据集.其中数据集包含 548573 条记录,具有2个属性和5个类.在这3种数据集中创建500个间隔为 1000 个样本的时间间隔并将它们分成25组,在这25组中求取平均的纯度、准确度及Fm.KDD CUP'99数据集是流行的数据集,用来测试不断变化的聚类算法,将EAOStream、DenStream及SE-Stream进行比较.为了使聚类效果更好,将数据归一化到相对于区域半径合适的范围.通过取性能指标的平均值来进一步降低该度量的相关性,性能指标分析结果如图3所示,EAOStream平均纯度为97%,超过SE-Stream和DenStream,平均纯度最快达到100%.可以看出,EAOStream能够快速适应这种变化.在考虑准确度和Fm时,注意到EAOStream平均准确度和Fm保持接近95%以上,其余两者算法平均准确度都有降低到80%以下.EAOStream比其他两种算法聚类精度更稳定,在不断时间积累下,精度会逐步提高.这是因为其采用的NaN算法具有不断从自适应邻域半径和区域密度进入数据点的特征,从而达到更好的聚类效果.图4所示为MS-PD数据集3种聚类算法性能对比, 图中S为样本输入的速度,设置数据流到达的速率单位为pt/s,pt为像素单位,每隔25 s显示一次聚类结果.采用了MS-PD数据集,研究其平均纯度和准确度.EAOStream针对多个样本速度和时间段来测量MS-PD数据集的平均纯度和准确度,验证EAOStream基于不同样本速度自适应参数的能力,算法的平均纯度和准确度在所有采样速度下都维持在85%以上,比其他两者聚类算法更好.

图3

图3   KDD CUP'99数据集3种聚类算法性能对比

Fig.3   Performance comparison of three clustering algorithms in KDD CUP'99 data set


图4

图4   MS-PD数据集3种聚类算法性能对比

Fig.4   Performance comparison of three clustering algorithms in MS-PD data set


表1所示为不同算法在真实数据集的性能对比.可见,在MS-PD数据集中,EAOStream纯度为98.75%,准确度为97.23%,Fm为98.14%,这表明EAOStream能够快速适应变化,因MS-PD数据集中PD信号存在从一种到多种PD渐变的过程,所以EAOStream可以克服人为主观选择参数的问题,通过NaN算法自适应邻域半径,创建KD树来提高查询近邻的效率,根据气体绝缘变电站PD信号产生的特性,从一种PD源到多种PD源渐变,其中包括干扰脉冲的存在.EAOStream是一种支持进化变化的算法,可以成功实现微簇群结构随时间的变化,这可以提高聚类的成功率.在大多数测试数据集中,EAOStream都优于其他的算法.EAOStream在KDD CUP'99数据集上,评价指标平均纯度比SE-Stream稍差,EAOStream在高维的数据集聚类效果不是特别稳定,而SE-Stream专为高维数据流设计.EAOStream设计对任意形状的微簇结构图都有很好的分类效果且能够自适应半径特征,当数据特征发生很大变化时也能够达到好的聚类效果.

表1   不同算法在真实数据集的性能对比

Tab.1  Performance comparison of different algorithms on real data sets%

算法数据集FPFm
EAOStreamKDD CUP'9995.9595.2897.49
Forest Covertype92.5898.4798.07
MS-PD98.7597.2398.14
DenStreamKDD CUP'9990.3589.2589.92
Forest Covertype88.9575.0376.82
MS-PD82.2183.4882.32
SE-StreamKDD CUP'9997.6290.2791.33
Forest Covertype91.1390.8491.62
MS-PD93.4590.8392.19

新窗口打开| 下载CSV


2.2 多种PD源信号聚类分离现场实测

为了验证EAOStream在PD信号时域特征聚类分离的可行性和有效性,与校企合作项目建立PD监测系统,在实验室中对多种不同类型混合的PD类型进行系统测试,特高频缺陷PD模拟信号发生器实物如图5所示,将采集的信号输入到硬件系统板中,如图6所示,其中包括信号采集单元和信号处理单元,将EAOStream聚类算法移植硬件系统板中,实时在线处理完后的数据上传到上位机显示.本文选取PRPD图谱中统计参数中的SkKu组成的二维图谱来实现对多种PD信号的分离.在实验室采集多种PD信号形成数据集,在3种聚类算法的效果对比图7所示,通过颜色来判断类别,相同颜色的团簇代表一类.由图7可知,有5类信号,Denstream和SE-Stream对图中第1类和第2类的分离的效果无影响,第1类信号和第2类信号微簇之间较近,容易将其判断为一类信号;图7(b)、7(c)所示第1类信号和第2类信号颜色被算法判断成一种颜色,EAOStream能够准确将两种信号分离出来.

图5

图5   特高频缺陷放电模拟信号发生器

Fig.5   Ultra-high frequency defect discharge analog signal generator


图6

图6   硬件系统图

Fig.6   Hardware system diagram


图7

图7   多源局放信号3种聚类算法的效果对比图

Fig.7   Comparison of effects of three clustering algorithms for multi-source partial discharge signals


在实际测试中,通过特高频传感器将多源PD信号输入到采集单元中,然后进入到处理单元提取脉冲的特征值,通过EAOStream将不同特征值的多源PD信号实时分离,将数据上传到上位机中,数据包括相位、放电幅度及标记3个参数.在整个过程中各个单元同步进行,数据源源不断进入到处理单元中.

在实际项目中,将算法固化到硬件系统,很难通过人工在现场调试参数,需要算法本身根据流数据特征来自适应修改邻域半径和区域密度,从而达到最佳的聚类分离效果.在PRPD图谱显示结果如图8所示,放电次数映射到颜色空间上,每个分布位置可以叠加,从而可以做到颜色标识,根据累积的次数分为6个颜色级别,对应规则如表2所示.实验中采用两种信号混合输入,分别是悬浮电极放电信号和尖端放电信号.由于实验室悬浮电极放电信号的产生没有固定相位,所以随着时间的推移,相位会发生偏移,最后形成一条绿色的线条.尖端放电信号由实验室中高压试验变压器和特高频缺陷PD模拟信号发生器产生,因相位固定,随着时间累计,中间部分颜色会一直变深,最后趋于稳定.实验证明,EAOStream对多种混合PD信号分离效果不错.

图8

图8   PRPD聚类效果图

Fig.8   PRPD clustering renderings


表2   颜色对应关系

Tab.2  Color correspondence

N颜色N颜色
1~20181~700
21~60701~2600
61~180>2600

新窗口打开| 下载CSV


3 结语

本文分析了当前气体绝缘变电站故障诊断的现状,针对传统的DBSCAN聚类算法不能处理实时且不断变化的多种PD信号特征,提出了聚类算法EAOStream,该算法可以完全在线处理数据,具有自适应半径的特征,对任意形状的簇的分类都有一定的效果.提出的算法中使用了NaN算法,主要用于自适应邻域半径和区域密度.基于使用纯度、准确度及Fm的质量指标对真实数据集进行了广泛评估.与其他算法相比,实验研究表明该算法在合理的时间内具有较高聚类成功率.在未来的工作中,将着重于提高算法的稳健性,扩展处理高维数据流,集中处理在高维数据集情况下降低算法的计算复杂性以及消除复杂数据流中噪声对聚类的负面影响,从而进一步提高该算法的性能.

参考文献

LIAO R J, YANG L J, LI J, et al.

Aging condition assessment of transformer oil-paper insulation model based on partial discharge analysis

[J]. IEEE Transactions on Dielectrics and Electrical Insulation, 2011, 18(1): 303-311.

DOI:10.1109/TDEI.2011.5704522      URL     [本文引用: 1]

SAKO H, MIO K, OKADA S.

Analysis of Phase Resolved Partial Discharge patterns with microstrip antenna

[C]// 2015 IEEE Electrical Insulation Conference. Seattle, WA, USA: IEEE, 2015: 346-357.

[本文引用: 1]

LI G Y, WANG X H, LI X, et al.

Partial discharge recognition with a multi-resolution convolutional neural network

[J]. Sensors, 2018, 18(10): 1-27.

DOI:10.3390/s18010001      URL     [本文引用: 1]

段韶峰, 李志兵, 詹花茂, .252

kV GIS中特快速瞬态过电压和特快速瞬态电流特性试验研究

[J]. 电网技术, 2015, 39(7): 2046-2051.

[本文引用: 1]

DUAN Shaofeng, LI Zhibing, ZHAN Huamao, et al.

Experimental study on the characteristics of VFTO and VFTC in 252 kV GIS

[J]. Power System Technology, 2015, 39(7): 2046-2051.

[本文引用: 1]

周承科, 李明贞, 王航, .

电力电缆资产的状态评估与运维决策综述

[J]. 高电压技术, 2016, 42(8): 2353-2362.

[本文引用: 1]

ZHOU Chengke, LI Mingzhen, WANG Hang, et al.

Review of condition assessment and maintenance strategy of power cable assets

[J]. High Voltage Engineering, 2016, 42(8): 2353-2362.

[本文引用: 1]

ZHU M X, XUE J Y, ZHANG J N, et al.

Classification and separation of partial discharge ultra-high-frequency signals in a 252 kV gas insulated substation by using cumulative energy technique

[J]. IET Science, Measurement & Technology, 2016, 10(4): 316-326.

DOI:10.1049/iet-smt.2015.0171      URL     [本文引用: 1]

卢启付, 李端姣, 唐志国, . 局部放电特高频检测技术[M]. 北京: 中国电力出版社, 2017.

[本文引用: 1]

LU Qifu, LI Duanjiao, TANG Zhiguo, et al. Partial discharge ultra-high frequency detection technology[M]. Beijing: China Electric Power Press, 2017.

[本文引用: 1]

郭俊, 吴广宁, 张血琴, .

局部放电检测技术的现状和发展

[J]. 电工技术学报, 2005, 20(2): 29-35.

[本文引用: 1]

GUO Jun, WU Guangning, ZHANG Xueqin, et al.

The actuality and perspective of partial discharge detection techniques

[J]. Transactions of China Electrotechnical Society, 2005, 20(2): 29-35.

[本文引用: 1]

BELTLE M, MULLER A, TENBOHLEN S.

Statistical analysis of online ultrahigh-frequency partial-discharge measurement of power transformers

[J]. IEEE Electrical Insulation Magazine, 2012, 28(6): 17-22.

DOI:10.1109/MEI.2012.6340520      URL     [本文引用: 1]

张广东, 秦睿, 张忠元, .

基于超高频特高频法的GIS局部放电特征图谱提取与研究

[J]. 高压电器, 2016, 52(9): 71-77.

[本文引用: 1]

ZHANG Guangdong, QIN Rui, ZHANG Zhongyuan, et al.

Extraction and analysis of characteristic spectrum of partial discharge in GIS based on UHF method

[J]. High Voltage Apparatus, 2016, 52(9): 71-77.

[本文引用: 1]

代少升, 杨雨, 聂合文, .

UHF局部放电信号包络检波电路设计与实现

[J]. 重庆邮电大学学报(自然科学版), 2021, 33(5): 736-742.

[本文引用: 1]

DAI Shaosheng, YANG Yu, NIE Hewen, et al.

UHF partial discharge signal envelope detection circuit design and implementation

[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition): 2021, 33(5): 736-742.

[本文引用: 1]

TAREQ M, SUNDARARAJAN E A, MOHD M, et al.

Online clustering of evolving data streams using a density grid-based method

[J]. IEEE Access, 2020, 8: 166472-166490.

DOI:10.1109/ACCESS.2020.3021684      URL     [本文引用: 1]

PUTRI G H, READ M N, KOPRINSKA I, et al.

ChronoClust: Density-based clustering and cluster tracking in high-dimensional time-series data

[J]. Knowledge-Based Systems, 2019, 174: 9-26.

DOI:10.1016/j.knosys.2019.02.018      URL     [本文引用: 1]

ISLAM M K, AHMED M M, ZAMLI K Z.

A buffer-based online clustering for evolving data stream

[J]. Information Sciences, 2019, 489: 113-135.

DOI:10.1016/j.ins.2019.03.022      URL     [本文引用: 1]

郑祺, 黄德才.

基于引力相似度和相对密度的不确定数据流聚类

[J]. 上海交通大学学报, 2016, 50(6): 873-878.

[本文引用: 1]

ZHENG Qi, HUANG Decai.

Uncertain data stream clustering algorithm based on gravity similarity and relative density techniques

[J]. Journal of Shanghai Jiao Tong University, 2016, 50(6): 873-878.

[本文引用: 1]

XU J, WANG G Y, LI T R, et al.

Fat node leading tree for data stream clustering with density peaks

[J]. Knowledge-Based Systems, 2017, 120: 99-117.

DOI:10.1016/j.knosys.2016.12.025      URL     [本文引用: 1]

龙真真, 张策, 王维平, .

一种基于数据流聚类的动态目标分群框架

[J]. 上海交通大学学报, 2010, 44(7): 921-925.

[本文引用: 1]

LONG Zhenzhen, ZHANG Ce, WANG Weiping, et al.

A dynamic framework for target-grouping based on clustering data streams

[J]. Journal of Shanghai Jiao Tong University, 2010, 44(7): 921-925.

[本文引用: 1]

HAHSLER M, BOLAÑOS M.

Clustering data streams based on shared density between micro-clusters

[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(6): 1449-1461.

DOI:10.1109/TKDE.2016.2522412      URL     [本文引用: 1]

于晓飞, 葛洪伟.

噪声环境下复杂流形数据的势能层次聚类算法

[J]. 重庆邮电大学学报(自然科学版), 2018, 30(6): 848-854.

[本文引用: 1]

YU Xiaofei, GE Hongwei.

A hierarchical clustering algorithm of potential energy for complex manifold data in noisy environment

[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2018, 30(6): 848-854.

[本文引用: 1]

CAO F, ESTERT M, QIAN W N, et al.

Density-based clustering over an evolving data stream with noise

[C]// Proceedings of the 2006 SIAM International Conference on Data Mining. Philadelphia, PA, USA: Society for Industrial and Applied Mathematics, 2006: 328-339.

[本文引用: 1]

CHAIRUKWATTANA R, KANGKACHIT T, RAKTHANMANON T, et al.

Efficient evolution-based clustering of high dimensional data streams with dimension projection

[C]// 2013 International Computer Science and Engineering Conference. Nakhonpathom, Thailand: IEEE, 2013: 185-190.

[本文引用: 1]

BENTLEY J L.

Multidimensional binary search trees used for associative searching

[J]. Communications of the ACM, 1975, 18(9): 509-517.

DOI:10.1145/361002.361007      URL     [本文引用: 1]

/