结合特征优选与双向长短期记忆网络的用能服务需求预测研究

doi:10.16183/j.cnki.jsjtu.2023.458

结合特征优选与双向长短期记忆网络的用能服务需求预测研究

康峰¹, 谭火超¹, 苏立伟¹, 简冬琳¹, 王帅¹, 覃浩^,¹, 张勇军²

1.广东电网有限责任公司客户服务中心,广东佛山 528000

2.华南理工大学电力学院,广州 510000

Energy Services Demand Forecasting Combined with Feature Preferences and Bidirectional Long- and Short-Term Memory Networks

KANG Feng¹, TAN Huochao¹, SU Liwei¹, JIAN Donglin¹, WANG Shuai¹, QIN Hao^,¹, ZHANG Yongjun²

1. Customer Service Center of Guangdong Power Grid Co., Ltd., Foshan 528000, Guangdong, China

2. School of Electric Power Engineering, South China University of Technology, Guangzhou 510000, China

通讯作者: 覃浩,博士生;E-mail:13914361435@163.com.

责任编辑: 王一凡

收稿日期: 2023-09-11 修回日期: 2023-10-31 接受日期: 2023-11-8

基金资助:

国家自然科学基金资助项目(52177085)
中国南方电网有限责任公司科技项目(036800KK52220003)

Received: 2023-09-11 Revised: 2023-10-31 Accepted: 2023-11-8

作者简介 About authors

康峰(1984—),硕士,从事电力营销数字化、智能客服等研究.

摘要

准确且高效的用户用能服务需求预测对于电网客户服务质量管理与客户服务风险管理至关重要.为此,提出一种基于特征优选的用户用能服务需求预测模型.在分析用户用能服务数据的基础上,改进采样算法以解决数据中存在的类不平衡问题;基于自动编码器对数据进行降维处理,以确保K均值算法高效聚类;提出基于轻量级梯度提升机的特征优选算法,筛选有效特征,提高预测模型的训练效率;提出基于注意力机制的双向长短时记忆神经网络多标签分类算法,精细化用户的用能服务需求.对广东电网某地区3年72万条工单数据进行分析,证明该模型能够有效提高预测准确率及速度.

关键词： 用能服务; 需求预测; 类不平衡; 自动编码器; 特征优选; 多标签分类

Abstract

Accurate and efficient demand forecasting of customer energy services is crucial for quality and risk management in grid customer service. Therefore, this paper proposes a user energy service demand prediction model based on feature selection. The methodology includes introducing a sampling algorithm to solve the class imbalance problem in the data on the basis of analysing the user energy service data, reducing the dimensionality of the data based on an autoencoder to ensure efficient clustering of the K-mean algorithm, constructing a feature selection algorithm based on a lightweight gradient lifting machine to filter the effective features and improve the training efficiency of the prediction model, and establishing a bidirectional long- and short-term memory neural network multi-label predicting model based on an attentional mechanism to refine the user’s energy service demand. Through the analysis of 720 000 work order data from Guangdong Power Grid over three years, showing that the model proposed can effectively improve the prediction accuracy and speed.

Keywords： energy services; demand forecasting; class imbalance; automatic encoder; feature optimization; multi label classification

PDF (5048KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

康峰, 谭火超, 苏立伟, 简冬琳, 王帅, 覃浩, 张勇军. 结合特征优选与双向长短期记忆网络的用能服务需求预测研究[J]. 上海交通大学学报, 2025, 59(7): 1007-1018 doi:10.16183/j.cnki.jsjtu.2023.458

KANG Feng, TAN Huochao, SU Liwei, JIAN Donglin, WANG Shuai, QIN Hao, ZHANG Yongjun. Energy Services Demand Forecasting Combined with Feature Preferences and Bidirectional Long- and Short-Term Memory Networks[J]. Journal of Shanghai Jiaotong University, 2025, 59(7): 1007-1018 doi:10.16183/j.cnki.jsjtu.2023.458

现代供电服务体系的建设作为国家现代服务体系建设的重要组成部分,要求以解放用户为导向,而由于客户需求的多元多变,对用户的服务需求预测准确率通常不高,这会导致客户服务管理质量下降,甚至会引发客户服务风险管理出现重大纰漏,进而造成经济效益损失及相关舆情风险^[1-2].随着电网智能化建设的快速发展并向低压用户延伸^[3],用户用能服务体系逐渐完善,电力公司掌握了大量用户用能服务数据,这为用户用能服务需求预测提供了研究基础,有助于提高客户服务管理质量以及防范客户服务风险^[4-5].

目前,国内外对用户用能服务需求预测的研究主要侧重于从用电负荷中辨识出典型负荷特性,并结合用户的社会属性信息对用户分类,从而针对不同类型用户提供个性化用能服务^[6-7].文献[8]中提出一种基于进化算法的电力客户服务需求特征表征新方法,较好适应电力客户服务随机性和多变性的特点,也可用于完成对客户的进一步分析,包括异常值检测以及行为研究;文献[9]中基于区域商业价值和区域宏观经济角度,使用反向传播神经网络算法建立了电力客户的需求预测模型,取得了良好的预测效果;文献[10]中提出并评估了低压客户典型负载曲线的表征模型,基于聚类分析进行用户行为模式识别;文献[11]中根据电力用户特点和价格套餐的多属性效用,充分考虑用户特征和包装属性对推荐结果的影响,提出了一种混合的电价套餐零售推荐方法;文献[12]中提出基于电力大数据的电网用户立体画像构建方法,能有效提高电力用户多维特征分类精度;文献[13]中提出基于长短时记忆网络-注意力机制融合的电力客户主动服务推荐方法,能较为精准地提取客户潜在服务需求;文献[14]中设计了基于综合学习粒子群优化的K-means聚类算法的电力客户评价细分及定制化增值服务系统,满足电力客户多元差异化的个性需求.

当前,基于电网大数据进行机器学习时效率受制于数据量较大,而精度受制于数据各类别数量不均衡,导致预测算法速度和精度均有待提高;同时,用户用能服务需求预测尚未形成根据用户特征、用户用电需求对用户用能服务需求进行预测的方法,且对于单个用户可能存在的多种服务需求的预测无法有效量化,预测结果相对于用户实际服务需求存在偏差,从而导致服务体验不佳,甚至引发舆论风险.

基于此,本文提出一种新型用户用能服务需求预测算法,具体包括:分析用能服务数据特点,研究数据增强算法来解决数据类不平衡问题,以确保算法模型权重不会过于偏向某一类别;研究基于自动编码器与K-means聚类融合的聚类算法,提高聚类速度;研究基于轻量级梯度提升机(light gradient boosting machine, LightGBM)的特征优选算法,以筛选出有效特征来提高模型训练效率;构建基于注意力机制的双向长短时记忆(bidirectional long short-term memory, BiLSTM)神经网络用户多标签分类算法,以实现对于用户多服务需求的量化.最后以广东电网某地区实际数据为例,对比分析本文算法与其他算法的预测性能效果.

1 数据预处理方法

对用户用能数据进行预处理,以满足后续研究要求.用户用能数据包括以电费、功率因数为代表的数值型数据,也包括以行业类别、位置为代表的字符型数据,数据内容复杂且存在冗余.为此,首先基于用户用能服务数据进行特征组合构造,并根据相关性分析法初步去除冗余特征组合;随后改进合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)以适应用户用能数据特点,以此进行数据类不平衡处理.

1.1 用户用能数据分析及特征构造

首先进行用户特征矩阵构造,从供电区域、行业类别、需求服务与用电客户之间等多个层级初步构造客户特征矩阵;并针对实收电费、实收附加费合计、电价和功率因数这几个特征,进行统计特征求算,包括均值、方差和中位数,以扩展数据的特征,最终构建了共计27个特征.对业务分类、业务子类、业务类别和申请时间等文本型数据采用LabelEncoder进行编码,LabelEncoder提供了一种简单易用的方法来将分类变量编码为数字,可以保留类别之间的相对关系,并且相比于其他编码方式,LabelEncoder生成的编码通常需要更少的内存空间,这对于处理大规模数据集或内存受限的环境非常重要.完成编码后,将数据进行归一化处理,以统一数据的量纲.

其中归一化采用最小-最大归一化的方法将各特征转化为[0,1]区间上的值,即

(1)$ x^{*}=\frac{x-x_{\min }}{x_{\max }-x_{\min }}$

式中:x_max为样本数据中的最大值;x_min为样本数据中的最小值;x为样本数据.经过上述处理,最终得到用户用能服务需求特征矩阵.

基于用户用能服务需求特征矩阵进行相关性分析,以明晰特征之间的线性相关系.Pearson相关系数法可以评估两个变量之间的线性相关性,其取值区间为[-1, 1],-1 表示完全负相关,+1表示完全正相关.相关系数法除了可以判断特征与目标之间的线性相关性,还可以用来判断特征是否冗余^[15].两个变量X和Y的Pearson相关系数计算公式为

(2)r=

\frac{\sum_{i = 1}^{n} (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sqrt{\sum_{i = 1}^{n} (X_{i} {- \bar{X})}^{2}} \sqrt{\sum_{i = 1}^{n} (Y_{i} {- \bar{Y})}^{2}}}

式中:X_i和Y_i分别代表任意两个特征值; $\bar{X}$ 和 $\bar{Y}$ 分别是任意两特征值均值;n为特征数量.

基于Pearson相关系数法进行特征分析并基于阈值进行筛选,如图1所示.可以看出,计量方式与用户类别、用户类别与计量方式、用户类别与电压等级等位于阈值0之下,不作考虑;为了提高精确性,本处仅设置阈值0作为特征筛选条件,后续非线性以及其他因素相关性均通过基于LightGBM的特征优选算法进行筛选.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 特征相关性阈值筛选图

Fig.1 Feature correlation threshold screening map

1.2 数据类不平衡处理

以广东电网下辖某地区为例,选取2019年7万条用户用能服务数据,如图2所示.数据类别分布较为不平衡,从单类来看,用电信息服务需求数据量高于其余类别;从增值服务和基础服务的角度来看,类不平衡率更高,这将极大影响预测准确率.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 原始数据类别柱状图

Fig.2 Histogram of raw data categories

数据分布不平衡是机器学习中一个广为关注的问题^[16].不平衡样本数据集的处理方法包括过采样和欠采样.但过采样和欠采样都存在一定的缺陷,过采样中如果样本特征少,会导致过拟合的现象;欠采样则会丢失多数类中的一些重要信息.SMOTE是一种用于处理不平衡数据集的算法^[17],作为过采样的一种,首先从样本集中找出所有的少数类样本T,计算出少数类样本x与其他少数类样本点之间的欧氏距离,获得样本x_i的k个近邻,并记为x_i_,near,取值为1,2,…,k;接着从x的k 个近邻中随机选择一个样本x_i_,r,再生成一个0~1之间的随机数ξ,在此基础上,合成一个新的样本 x_new,其中:

(3)$ x_{\mathrm{new}}=x_{i}+\left(x_{i, \mathrm{r}}-x_{i}\right) \xi$

重复第2步N次,便可获得N个新的样本.但是由于用户用能服务数据中不同业务数量的分布出现极端不平衡,为了保证SMOTE算法的准确性,本文改进SMOTE算法中k近邻法以适应数据特点.具体表现为对于每个少数类样本x,首先找到与x最近的k个邻居样本,定义为N_k(x_i),这些邻居样本的选择根据带权重的欧氏距离计算确定.接下来,为每个样本x计算与其邻居样本的距离,并引入权重来调整距离,以使距离计算更关注少数类样本.距离的权重计算公式为

(4)D_wei(A, B)=

\sqrt{\sum_{i = 1}^{n} w_{i} (A_{i} - B_{i})^{2}}

式中:A_i和B_i是样本A和B在第i个特征上的取值;w_i是样本的第i个特征的权重.

根据带权重的距离,计算每个邻居样本与样本x的距离.在带权重的距离度量下,这些距离将更加重视邻居样本在重要特征上的相似性.基于这些带权重的距离,可以使用分类决策规则(如多数表决)来决定样本x的类别.例如,可以选择邻居样本中的多数类别作为样本x的类别:

(5)

\begin{array}{l} y = a r g \underset{C_{i}}{m a x} \sum_{x_{i} \in N_{k} (x_{i})}^{} I (ν_{i} = C_{j}) \\ i = 1, 2, \dots, N \\ j = 1, 2, \dots, J \end{array}\}

式中:C_i表示一个类别,即一个可能的分类标签;ν_i表示样本x_i的真实类别标签;C_j代表另一个可能的类别;I(ν_i=C_j)是一个指示函数,如果样本x_i的真实类别ν_i等于C_j,则值为1,否则为0,它表示样本x_i是否属于类别C_j.

通过改进的SMOTE算法处理不平衡数据集,可以提高模型对少数类别的识别能力,并改善整体的分类性能.在此基础之上,进行最终数据类不平衡处理,处理结果如图3所示.由图3可见,各类别数量呈现正态分布,且样本平衡率得到满足,这将有益于分类算法精确性的提高.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 类不平衡处理图

Fig.3 Class imbalance processing chart

2 用户用电特性提取及标签库

在进行数据预处理之后,随即进行用户用电特性分析.鉴于用户用能服务数据量较大,基于自动编码器对数据进行降维处理,然后在选取特征和权值的基础上,采用聚类方法对样本进行相似性搜索并分类,基于分类结果进行用户多标签库建立.

2.1 基于自动编码器与K-means聚类算法

由于用电信息量巨大,若对每一个数据都进行距离计算,所涉及的计算量十分庞大.所以,在对数据进行距离计算前,通过自动编码器(autoencoder, AE)对数据进行降维,自动编码器是一类常用于无监督或者自监督学习中的深度神经网络,它可以在不给定样本标签的前提下获取到样本的深度特征^[18],如图4所示.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 自动编码器

Fig.4 Diagram of autoencoder

本文使用自动编码器对预处理后的数据进行降维处理,然后进行K-means算法聚类,以提高聚类效率,如图5所示.图中显示的是使用及不使用自动编码器对于聚类速度的对比,其中绿色线是使用了自动编码器的聚类速度,红线是未使用自动编码器的聚类速度,使用自动编码器对于聚类速度有较大提升,速度提升49.2%.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 基于自动编码器降维后的速度对比

Fig.5 Speed comparison plot based on autoencoder after dimensionality reduction results

本文基于自动编码器对数据降维处理后再进行K-means算法聚类.选取南方某地区3年数据进行聚类,本处采用肘点法及Silhouette进行聚类效果评判,评判曲线如图6所示.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 基于肘点法及Silhouette聚类效果评判

Fig.6 Clustering effectiveness evaluation based on elbow point and Silhouette method

从图6中可以看出,聚类数量小于5时,聚类效果是最佳的,但是考虑到电网以客户视角重新构建形成了23项基础供电服务产品清单及29项增值服务业务,且按电网内部大类分服务类别也分为用电报装、用电变更、渠道服务、电费服务、故障抢修、电能质量这6个基础服务大类,还包括技术服务、能源服务、用电保电这3大类增值业务^[19].显然将聚类数量单纯按肘点法及Silhouette得到的聚类效果图来确定是无法满足网公司实际需求的,因此本文在结合图6结果的同时,采用基于LightGBM的阈值确定法来共同确定最优聚类数量.具体步骤为,基于图6和电网公司基础供电服务类别,确定聚类数量的区间为[5,23].基于LightGBM的阈值确定法采用外部评估指标调整兰德指数(adjusted rand index,ARI)将聚类结果与已知的外部标签(真实类别)进行比较,以评估聚类的性能,ARI值的范围为( -1, 1),ARI越接近1,表示聚类结果越好,与真实标签的一致性越高.基于LightGBM的阈值确定法的结果如图7所示.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 基于LightGBM的聚类效果评估

Fig.7 Clustering effectiveness evaluation based on LightGBM

从图7可以看出,当聚类数量取12时,ARI分数最高,这代表着当聚类数量取12时,聚类结果与真实标签的相似性较高.因此本文将聚类数量定为12类,以此进行聚类效果展示,后续章节将基于该聚类结果进行分析.

取聚类数量为12的聚类效果图如图8所示,从图中可以看出,聚类结果重叠较多,这在一定程度上表明了每个类别的数据样本可能在其他类别中也存在,即每个样本可能同时具有多个标签.

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 聚类效果

Fig.8 Clustering effectiveness plot

2.2 用户用能服务多标签建立

实际应用中,某类用能服务所关联的需求特征标签可能并不唯一,因此用户可能对多种服务都具有潜在需求.多标签分类的学习模型如下:F= {f₁, f₂, …, f_d}表示多标签数据d维特征,L= {l₁, l₂, …, l_q}表示给定的标签信息^[20].设特征空间为X=[X₁X₂ … X_n]∈Rⁿ^×^d表示n个样例d维特征的特征空间,其中X_i表示第i个样本对应的特征向量,一个输入特征空间X_i由d维特征向量[X_i₁X_i₂ … X_id]构成.设标签空间为Y=[Y₁Y₂ … Y_n] ∈Rⁿ^×^q表示n个样例q个标签的标签空间,其中Y_i表示第i个样本对应的标签向量,Y_i是由d维特征向量[Y_i₁Y_i₂ … Y_iq]构成的一个输出空间,即该数据集中有n个样本,d个特征, q个标签.用(X_i, Y_i)表示一个样本,X_i= [X_i₁X_i₂ … X_id]表示输入向量,Y=[Y_i₁Y_i₂ … Y_iq]表示输出向量,i ∈ {1, 2, …, n},设D表示训练集,D={(X₁, Y₁), …, (X_n, Y_n)}.那么多标签学习任务的学习过程就是为了得到一个映射函数m:X→Y,对于任意标签未知的输入样本X',可以预测其对应的标签向量Y'.

多标签构造应用的前提是二值化,由于数据量较大,本文采用哈希算法进行搜索排序并最终构建二维多标签化.为了满足上述多标签分类的学习模型,在对多标签化的结果进行二值化之后,还需要最终展成多标签数据d维特征,过程如图9所示.

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 多标签特征矩阵构建流程图

Fig.9 Flow chart for construction of multi-label feature matrix

3 预测模型

完成用户用电特性提取及标签库建立之后,接下来研究用户用能服务需求预测模型.首先构建基于LightGBM的需求预测模型,得到每个特征的重要性排序,分析构建新的特征组合;构建基于注意力机制的BiLSTM神经网络模型,将新的特征组合作为输入,完成模型训练.

3.1 基于LightGBM的特征优选算法

电网用户用能服务数据离散性较大且不易解释,类别之间存在不平衡,这对于选择合适的多标签分类算法而言是一个挑战.本文选择一对多分类器(one vs rest classifier, OVR)作为分类器框架,OVR是一种常用的多标签分类算法,通过将多标签分类问题转化为多个独立的二分类问题来求解^[20],如图10所示,具有广泛适用、处理不平衡数据集、可解释性好等优势.

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 二元关联分类示意图

Fig.10 Schematic diagram of binary association classification

选用不同的机器学习算法作为OVR的基分类器,通过验证其准确率、精准率及召回率来选择最佳基分类器.选择决策树、随机森林以及LightGBM作对比测试,如图11所示.通过图11可以清楚观察到,LightGBM适合用户用能需求数据预测,除了召回率,精准率、准确率均位于领先地位,且可以观察到对应的速度,以LightGBM为基分类器的多标签分类算法,速度分别比决策树(decision tree, DT)快41%,比随机森林(random forest, RF)快25%,对于更大的数据集而言,由于LightGBM使用了一种称为Histogram-based Learning的加速技术,它能够更快地构建树模型,这意味着在大型数据集上,它可以处理成千上万甚至更多的样本和特征,而不会显著增加训练时间,所以LightGBM将会发挥更大优势.

图11

新窗口打开| 下载原图ZIP| 生成PPT

图11 基分类器效果对应图

Fig.11 Corresponding diagram of base classifier effects

LightGBM 模型属于树模型,它是由多棵决策树组合而成^[21].在每一个非叶子结点划分之前,该模型将计算每一个特征变量所带来的信息增益,然后选择最大信息增益的特征变量用于划分样本数据.信息增益越大说明特征变量区分样本的能力越强,也就说明该特征变量越具有代表性、越重要.根据变量被用于分类的总增益和与总次数将各个变量进行排序,得到 LightGBM 特征变量重要性图,如图12所示.

图12

新窗口打开| 下载原图ZIP| 生成PPT

图12 LightGBM 变量重要性图——总增益

Fig.12 LightGBM variable importance map: total gain

由图12可见,根据各个变量重要性排序,抄表区段对需求服务的判别结果具有最大的影响,其次是行业、申请时间,其余特征变量的重要性依次递减.图13为LightGBM 变量重要性拐点图,从图13中可以看出,60%左右的特征决定了模型的准确率,剩下40%作用效果甚微,故此得出,真正有用的特征即60%的特征.该60%的数据将作为最终特征组合输入到最终模型中进行训练,以期减少模型训练时间.

图13

新窗口打开| 下载原图ZIP| 生成PPT

图13 LightGBM 变量重要性拐点图

Fig.13 LightGBM variable importance inflection point

3.2 基于注意力机制的BiLSTM神经网络模型

构建最终预测模型,考虑到用户用能属性的数据如电价、电费等,多与时间相关,在进行研究时需要考虑其时序规律.BiLSTM 由正向、逆向2个长短期记忆 (LSTM)神经网络构成,相比于标准LSTM中状态传输单向的从前往后,BiLSTM同时考虑前后数据的变化规律,展现出了更加优越的性能.BiLSTM结构示意图如图14所示.图中:x为输入序列特征值;y为输出序列值;h表示隐藏状态向量;t为时刻.

图14

新窗口打开| 下载原图ZIP| 生成PPT

图14 BiLSTM结构示意图

Fig.14 Schematic diagram of BiLSTM structure

鉴于用户用能数据量较大,本文将引入注意力机制(attention mechanism, AM),注意力机制模拟了人脑注意力在特定时刻对特定区域集中的情况,从而有选择性地获取更多有效信息,忽略无用信息^[22].注意力机制层的权重系数计算公式可表示为

(6)$ \boldsymbol{e}_{t}=\boldsymbol{u} \tanh \left(w \boldsymbol{h}_{t}+\boldsymbol{b}\right)$

(7)$ \boldsymbol{a}_{t}=\frac{\exp \boldsymbol{e}_{t}}{\sum_{j=1}^{T} \exp \boldsymbol{e}_{j}}$

(8)$ \boldsymbol{s}_{t}=\sum_{t=1}^{T} \boldsymbol{a}_{t} \boldsymbol{h}_{t}$

式中:w为权重矩阵;b为偏置项;u为注意力向量;e为注意力分数;a为注意力权重;s表示上下文向量.

基于分析,构建基于注意力机制的BiLSTM(AM-BiLSTM)网络如图15所示.模型包括输入层,输入为经过特征优选后的前60%的特征,具体见图12;3个LSTM层,每个LSTM层预设为256个隐藏单元,以更深层次和更多的容量捕获上下文信息;注意力机制层,用于动态加权各个时间步的隐藏状态,以生成上下文向量;一共具有60个单元的全连接层进行局部特征整合,即图中d_i;a代表可选参数,用来在实验中验算多一个特征的有效性;一个softmax层,通过softmax激活函数将其映射到多标签分类的概率分布.在训练过程中,采用Adam优化器,学习率预设为0.001,带动量和学习率衰减以加速收敛,交叉熵损失函数用于多标签分类任务.

图15

新窗口打开| 下载原图ZIP| 生成PPT

图15 AM-BiLSTM用户用能服务需求预测模型

Fig.15 AM-BiLSTM user demand forecasting model for energy services

模型的性能较大程度上取决于超参数的设置,为了保证模型的性能,在模型之外添加贝叶斯超参数优化算法,以此针对不同的数据进行模型的超参数优化.本文采用的贝叶斯优化模型图如图16所示.

图16

新窗口打开| 下载原图ZIP| 生成PPT

图16 基于贝叶斯优化的模型流程图

Fig.16 Flow chart of the model based on Bayesian optimization

3.3 算例分析

3.3.1 实验设计

为了验证本文算法的有效性,选取广东省某地区2019—2022年共72万条电网工单数据,如表1所示,以用户编号为索引进行整合,使用本文所提算法进行实验验证.所有实验在i7-12400F(2.8 GHz),Windows10 64位操作系统的计算机上进行.

表1 数据集信息

Tab.1 Dataset information

序号	层级	数据来源	类型	内容	采样时间
1	区域	营销管理系统	用户区域	抄表区段	2019-01—2022-01
2	行业	营销管理系统	用户类型	用户电表类型(工/商/居)	2019-01—2022-01
3	用户	营销管理系统	用户信息	行业类别、用户编号、电表数	2019-01—2022-01
4	用户	营销管理系统	用户信息	用户类别、行业类别	2019-01—2022-01
5	用户	营销管理系统	工单信息	业务子类、时间	2019-01—2022-01
6	用户	智慧营业厅	工单信息	业务子类、时间	2019-01—2022-01
5	电表	营销管理系统	电表信息	报装容量	2019-01—2022-01
6	电表	计量系统	电量电费	用户月用电量、电费	2019-01—2022-01

新窗口打开| 下载CSV

基于图14所示贝叶斯优化算法,对所构建的神经网络模型进行超参数优化,最终选取模型参数如表2所示.

表2 模型主要参数信息

Tab.2 Information on main parameters of the model

参数	取值
轮数	300
隐藏层	256
学习率	0.02
层数	6

新窗口打开| 下载CSV

3.3.2 用户用能服务需求预测

首先对本文所提的特征优选算法进行验证,即选取LightGBM和AM-BiLSTM分别基于特征优选后的数据和未特征优选的数据进行训练对比,从准确率、汉明损失分析特征优选算法对于预测模型准确率的影响,以及从训练速度来验证特征优选算法对于模型训练效率的提升.实验结果如表3所示.

表3 特征优选算法的测试

Tab.3 Test of feature preference algorithms

算法	准确率	汉明损失	时间/s
LightGBM(未特征优选)	0.764 9	0.187 8	249.43
LightGBM(特征优选)	0.899 3	0.100 7	126.32
AM-BiLSTM(未特征优选)	0.879 6	0.102 4	227.15
AM-BiLSTM(特征优选)	0.953 2	0.051 1	128.95

新窗口打开| 下载CSV

从表3中可以看出,基于LightGBM的预测模型在使用特征优选后的数据进行训练后,准确率为89.93%,相比于未使用特征优选数据的情况,准确率提升17.6%,速度则相比于未使用特征优选数据的模型提升49.4%;基于AM-BiLSTM的预测模型在使用特征优选后的数据进行训练后,准确率为95.32%,相比于未使用特征优选数据的情况下,准确率提升8.3%,速度相比于未使用特征优选数据的模型提升43.2%.由分析可知,本文所提的特征优选算法对于模型的预测性能起到正向作用,且对于模型的训练速度有显著提升,平均提升速度为46%左右.

进行不同算法在相同试验条件下的性能效果对比,即所述模型均采用优选后的数据进行训练以验证本文算法有效性.对比算法包括LightGBM算法、本文所提AM-BiLSTM算法、AM-LSTM算法、BiLSTM、门控神经网络-卷积神经网络(GRU-CNN)以及门控神经网络(GRU).各模型实验结果如表4所示.

表4 各模型性能评价

Tab.4 Evaluation of performance of each model

算法	准确率	汉明损失	时间/s
LightGBM	0.899 3	0.100 7	126.32
AM-BiLSTM	0.953 2	0.051 1	128.95
CNN-GRU	0.949 5	0.051 7	289.45
BiLSTM	0.833 4	0.157 9	196.85
AM-LSTM	0.871 2	0.193 6	243.15
AM-CNN-LSTM	0.949 8	0.051 2	279.67

新窗口打开| 下载CSV

结合表4进行分析,本文所提最终模型AM-BiLSTM算法准确率达到95.32%,与机器学习LightGBM相比,准确率提高6.1%,速度相当;与深度学习模型AM-CNN-LSTM准确率相当,但是速度提高53.9%;且本文算法与其他深度学习模型相比,准确率均表现最优,准确率平均提高12.9%,速度平均提高46.3%.此外,本文所提算法的汉明损失始终最低,这验证了本文算法在多标签分类中的单标签准确率也处于领先地位.

4 结语

本文提出了一种基于特征优选的用户用能服务需求预测模型.具体包括:改进数据类不平衡处理方法有效地确保了各类用户用能服务数据的平衡性;提出基于自动编码器的K-means聚类算法可以提高电网大数据下的聚类速度;提出基于LightGBM的特征优选算法提高了模型训练速度,平均提高准确率12.9%、训练速度约46%;进而构建的AM-BiLSTM算法预测准确率高达95.32%,速度平均提高46.3%左右.综上,本文构建的需求预测模型可以在较高的训练效率下提高现代供电服务体系下的用户用能服务需求预测准确率,并具备适应不同维度数据的能力.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

BARJA

MARTINEZ S

Artificial intelligence techniques for enabling Big Data services in distribution networks: A review

[J]. Renewable and Sustainable Energy Reviews, 2021, 150: 111459.