上海交通大学学报, 2025, 59(6): 746-757 doi: 10.16183/j.cnki.jsjtu.2023.382

新型电力系统与综合能源

基于卷积神经网络与轻量级梯度提升树组合模型的电力行业短期以电折碳方法

曾金灿1, 何耿生1, 李姚旺,2, 杜尔顺2, 张宁2, 朱浩骏1

1.南方电网能源发展研究院, 广州 510700

2.清华四川能源互联网研究院,成都 610213

A Short-Term Carbon Emission Accounting Method for Power Industry Using Electricity Data Based on a Combined Model of CNN and LightGBM

ZENG Jincan1, HE Gengsheng1, LI Yaowang,2, DU Ershun2, ZHANG Ning2, ZHU Haojun1

1. Energy Research Institute of China Southern Power Grid Co., Ltd., Guangzhou 510700, China

2. Tsinghua Sichuan Energy Internet Research Institute, Chengdu 610213, China

通讯作者: 李姚旺,博士,助理研究员;E-mail:yaowang_li@126.com.

责任编辑: 王历历

收稿日期: 2023-08-9   接受日期: 2023-10-30  

Received: 2023-08-9   Accepted: 2023-10-30  

作者简介 About authors

曾金灿(1989—),工程师,从事能源电力规划和电碳耦合技术研究.

摘要

电力行业是碳排放的重点控排行业,准确、实时的电力行业碳排放计量是支撑其降碳减排的基础.目前,电力行业的碳排放计量主要基于实测法或核算法,难以很好地兼顾低计量成本与实时计量能力.为此,充分考虑电力行业良好的电力数据基础,挖掘电-碳间的相关关系,以电力历史数据为基础,基于机器学习方法提出一种电力行业短期以电折碳方法,实时估算电力行业短期碳排放情况.该方法使用卷积神经网络进行特征提取,并采用轻量级梯度提升树算法开展基于特征提取值的碳排放测算.此外,为了提升模型的泛化能力和鲁棒性,在模型训练中采用K折交叉验证技术,在模型参数优化过程中采用网格搜索技术.最后,为了验证所提模型的有效性,对比所提模型和其他机器学习模型在同等数据集划分条件下分别基于日度数据集与小时数据集中进行训练的效果.结果表明:所提模型在效果评估和测算值与目标值分布分析中均优于其他模型,能够较好地反映电力行业的短期碳排放情况.

关键词: 以电折碳; 卷积神经网络; 轻量级梯度提升树算法; 碳排放; 机器学习; 组合模型

Abstract

The electric power industry plays a pivotal role in carbon emission control. Accurate and real-time accounting of carbon emissions in the power industry is essential for supporting the carbon reduction of the power industry. At present, the measurement of carbon emissions in the power industry relies mainly on direct measurement or the accounting methods, which often struggles to balance low measurement costs with real-time accuracy. Therefore, in this paper, the robust power data infrastructure in the power industry is leveraged and the correlation between electricity consumption and carbon emissions is explored to propose a short-term electricity-to-carbon method using machine learning methods based on historical data of electricity. This method utilizes convolutional neural networks (CNNs) for feature extraction, and light gradient boosting machine (LightGBM) for carbon emission estimation based on extracted features. Moreover, K-fold cross-validation is used in model training, with parameter optimization using grid search to enhance the generalization capability and robustness of the model. To validate the proposed method, it is compared with other machine learning models under the same data segmentation condition for daily and hourly data sets. The results indicate that the proposed model outperforms other models in both performance evaluation and the consistency between estimated and target values.

Keywords: carbon emission accounting using electricity data; convolutional neural networks (CNNs); light gradient boosting machine (LightGBM); carbon emissions; machine learning; combined model

PDF (6089KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

曾金灿, 何耿生, 李姚旺, 杜尔顺, 张宁, 朱浩骏. 基于卷积神经网络与轻量级梯度提升树组合模型的电力行业短期以电折碳方法[J]. 上海交通大学学报, 2025, 59(6): 746-757 doi:10.16183/j.cnki.jsjtu.2023.382

ZENG Jincan, HE Gengsheng, LI Yaowang, DU Ershun, ZHANG Ning, ZHU Haojun. A Short-Term Carbon Emission Accounting Method for Power Industry Using Electricity Data Based on a Combined Model of CNN and LightGBM[J]. Journal of Shanghai Jiaotong University, 2025, 59(6): 746-757 doi:10.16183/j.cnki.jsjtu.2023.382

“双碳”目标提出后,碳排放的计量问题逐渐受到学术界和工业界的广泛关注.全面、精准的碳排放计量是掌握行业碳排放现状和挖掘减碳潜力的关键.电力行业作为能源产业的重要组成部分,其碳排放量一直高居前列,约占全社会碳排放的四成[1-2],因此,电力行业的碳排放计量在全社会碳排放总量的计量中占据举足轻重的地位.在“双碳”目标背景下,能耗双控将逐步转向碳排放双控,地方政府将愈发关注本地区的电力行业碳排放情况.为了实现对地区碳排放目标的过程监测和对碳排放目标实现路径的及时调整,地方政府需要加深对电力行业实时碳排放情况的掌握力度,因此,实现对电力行业高时间颗粒度的碳排放监测需求愈发迫切.

目前,电力行业直接碳排放的计量方法主要包括核算法和实测法[3-5].其中,核算法又分为燃料排放因子法和物料平衡法:燃料排放因子法主要采用燃料活动消费量和其对应的排放因子进行碳排放核算[6];物料平衡法主要通过计算原料与生产成品之间的含碳变化量进行碳排放核算[7].目前,我国主要采用核算法进行电力行业碳排放核算,该方法原理简单、易于操作,但不论是基于燃料排放因子还是物料平衡原理,核算法均存在数据统计周期长、核算颗粒度粗等问题,难以支撑实时碳排放监测.实测法主要基于烟气连续监控系统(continuous emission monitoring system, CEMS)开展碳排放的实时监测,该方法目前已广泛应用于欧美[8],但在我国尚未完全铺开.实测法能够有效实现实时、精准的碳排放计量,但是,其需要加装CEMS装置以及定期维护和校准,成本高昂.因此,当前方法难以兼顾发电行业直接碳排放计量的经济性和实时性,面对政府部门愈发迫切的实时碳排放监测需求,如何以较低的成本实现高时间颗粒度的发电碳排放监测,已成为亟待解决的难题.

受发电机组燃料消耗特性的影响,区域电力数据与区域电力行业碳排放之间存在较强的关联性,该特性给低成本、高时间颗粒度的碳排放监测提供了新思路.近年来,已有较多学者以电力数据为基础,针对电力行业的碳排放测算方法及碳排放变化趋势开展研究.文献[9-10]中提出一种面向电力系统实时用电碳排放溯源的理论——碳排放流分析模型,并在此模型上实现了一种面向电力系统分钟级、用户级用电碳排放信息实时测算的碳计量方法.文献[11]中分析了交易行为对电力行业用电碳排放计量的影响,以电力潮流信息和交易信息为基础,提出考虑交易行为影响的用电间接碳排放实时计量方法.文献[12]中针对发电直接碳排放计量问题,考虑云南地区的资源禀赋特征,提出云南地区的火力发电碳排放测算方法.文献[13]中基于城市本地电源发电和净调入电力数据建立城市电力行业碳排放测算模型,并分别从发电侧、电网侧、负荷侧和储能侧出发,提出了城市电力行业减碳措施.文献[14]中构建碳约束下的电力规划模型,研究电力系统未来电源结构演变趋势,并在此基础上分析未来电力系统的碳排放轨迹.文献[15]中使用情景分析法预测和研究我国的碳排放趋势.文献[16-19]中采用机器学习方法研究和讨论了电力行业的碳排放预测问题.文献[20]中基于前馈神经网络算法,以碳电强度为数据,实现了碳排放的监测.

目前,已有研究主要分析了电力行业碳排放的影响因素,详细研究了电力间接碳排放的计量方法,探讨了电力行业的碳排放趋势预测方法.但是,目前研究尚未充分挖掘区域电力大数据在电力行业直接碳监测计量领域的潜力,缺乏从电力大数据分析角度开展电力行业直接碳排放实时监测方法的研究.而实际上,电力数据和发电行业碳排放间具有显著的相关关系,电力数据又具有实时性强、数据质量高、计量基础好等优势;借助电力行业良好的数据基础,有望实现“以电折碳”的效果,为低成本、高时间颗粒度的电力行业直接碳排放监测提供新的技术路线.

基于以电折碳技术,地方政府能够通过建立区域发电、用电等电力数据和电力行业碳排放间关联关系的方式,对区域电力碳排放进行实时估算与区域评估,为实现碳排放双控提供技术支持.因此,探索基于大数据技术的电力行业以电折碳技术,是完善电力行业碳排放计量体系和促进电力行业降碳减排的一次尝试.同时,通过研究直接的碳排放监测算法,也可以实现对区域电力行业碳排放的低成本、高时效性监测,有助于建立地方政府建立完整、高效、低成本的电力行业碳排放监测体系.

综上研究,为改善现有方法在电力行业碳排放监测中遇到的时间颗粒度粗、直接测量成本高的痛点,通过分析电力行业大数据特点提出一种基于卷积神经网络(convolutional neural network, CNN)与轻量级梯度提升树(light gradient boosting machine, LightGBM)组合模型(CNN-LightGBM)的电力行业短期以电折碳方法.在仅使用区域负荷、发电量和电力负荷量这3类电力数据的前提下,利用CNN模型进行特征提取,再将提取后的特征导入LightGBM模型对电力行业碳排放量进行拟合测算.为了提高模型的鲁棒性,采用K折交叉验证模型训练方法进行模型的训练优化,同时采用多种模型拟合优度比对的方法验证该方法的有效性.该模型与已有电力行业碳排放计算方法相比,由于模型输入-输出结构为电力-碳排放数据,所以不依赖于传统的碳排放因子;同时,CNN模型进行特征提取是一个根据数据关系自动提取的过程,相较于基于专家经验的特征处理,减少了特征处理的工作量和专业依赖,实现了低成本、强实时性的区域电力行业碳排放监测.

1 电力行业以电折碳模型架构

电力行业以电折碳模型是一种基于区域电力数据进行区域电力碳排放实时估算的方法.基于CNN特征提取以及LightGBM算法拟合的电力行业短期以电折碳方法模型框架流程如图1所示.

图1

图1   CNN-LightGBM电力行业短期以电折碳方法流程图

Fig.1   Flow chart of short-term carbon conversion method in power industry by CNN-LightGBM


所提电力行业以电折碳方法适用于地方政府使用区域电力数据对区域电力行业整体碳排放进行测算.考虑电力数据的可获取性和模型的使用性,模型的输入特征数据选择较为容易获取的区域整体性电力数据,包括区域负荷电量预测值、区域电力生产量、区域电力消费量.本模型旨在构建电力数据和区域电力行业碳排放量数据间的关联关系.

在开展以电折碳分析前,首先需要对输入数据进行空值去除和归一化处理.之后,考虑到所选取的输入特征数据类型相对较少,为了充分发挥现有数据的潜在价值,提升模型的落地应用可行性,选择借助CNN算法优越的特征提取能力,从相对较少的输入数据中提取出有价值的潜在隐藏特征,经过CNN处理之后特征集的特征量将得到扩充.在此基础上,将提取后的特征代入LightGBM集成学习模型进行训练,借助LightGBM的非线性特征数据集拟合能力和对大规模特征数据集的处理能力,得到区域电力数据和电力行业碳排放之间的关系.为提升模型的鲁棒性和结果评估的有效性,所提CNN-LightGBM模型采用K折交叉验证,输出测算结果为多次验证的平均值;此外,采用网格搜索法获取LightGBM模型的最优参数.根据训练得到的以电折碳模型,可以通过输入实时区域电力数据的方式,测得电力行业碳排放量.最后,基于测试集训练数据,通过对照以电折碳结果和实际碳排放结果,验证CNN-LightGBM模型在解决电力行业短期以电折碳任务时的有效性.

1.1 数据集及特征变量选取

目前,由于国内尚未公开发布过可供研究的电力数据和电力行业碳排放数据,所以采用美国能源情报署(energy information administration,EIA)公开数据集EIA-930中的日度电力数据和小时数据开展研究,详细情况如表1所示.

表1   EIA-930数据集情况

Tab.1  Information of EIA-930 data set

数据规模时间范围颗粒度
2843×392015-07-01-2023-04-121 d
68233×392015-07-01T01:00:00—
2023-04-13T04:00:00
1 h

新窗口打开| 下载CSV


数据集统计了美国48个州每日和每小时的电力情况和发电碳排放情况,其中包含每日和每小时的需求电量预测值、发电量、各种发电方式的发电量、调入调出的交易电量、电力消费量以及碳排放总量等39列数据.本研究根据我国实际环境下电力数据获取的难易程度选取其中的负荷电量预测值(X1)、净发电量(剔除生产过程中的电力消耗,即注入电网的电量,X2)、发电总量(所有能源的发电总量,无论是否注入电网,X3)和电力消费量(X4)作为用于训练的输入特征集,碳排放总量(Y)作为训练目标集,组成模型训练的原始数据集.因特征数据集中存在部分空值,经过对数据集的观察,发现空值主要集中于数据集的头部和尾部,造成空值与统计口径变化和未得到统计值有关,所以对空值进行删除处理,该处理不会对数据集分布产生影响,处理之后日度数据集的规模变为 1 744×128,小时数据集的规模变为 39 228×128.

(1) 数据相关性分析.对特征集中各个特征变量与目标集进行相关性分析,绘制特征数据集与目标数据集散点图,如图2所示.由图可见,碳排放总量与需求电量预测值、净发电量、发电总量和电力消费量均存在正相关性,数据间存在方差较大、非紧凑的线性关系.使用Spearman相关系数和Pearson相关系数进行碳排放总量(Y)与需求电量预测值(X1)、净发电量(X2)、发电总量(X3)和电力消费量(X4)的定量分析,其结果如表2所示.

图2

图2   特征集与目标集数据散点图

Fig.2   Scatter plot of feature set and target set data


表2   各特征与碳排放量的相关系数

Tab.2  Correlation coefficients between each feature and carbon emissions

时间周期特征名称Spearman相关系数Pearson相关系数
日度X1-Y0.884 90.894 8
X2-Y0.849 80.888 4
X3-Y0.849 90.888 6
X4-Y0.854 10.890 8
小时X1-Y0.896 50.918 1
X2-Y0.891 80.920 5
X3-Y0.892 50.920 9
X4-Y0.895 20.922 4

新窗口打开| 下载CSV


Spearman相关系数和Pearson相关系数均用于衡量特征数据与目标数据之间的相关性,取值范围在 -1~1之间,越接近0说明相关性越弱,越接近1说明正相关性越强,越接近 -1 说明负相关性越强.Spearman相关系数可用于衡量数据之间的单调相关性,不一定是线性相关且不需要数据符合正态分布,而Pearson相关系数仅可反映数据之间的线性相关性且数据需符合正态分布.从分析结果可知,日度数据和小时数据中碳排放总量与需求电量预测值、净发电量、发电总量和电力消费量均存在较强的单调相关性,且存在线性关系.

(2) 样本处理.为了取得更好的模型效果,加快模型的收敛速度,需要将特征数据进行标准化处理,对目标数据进行缩放.模型拟合数据集采用K折交叉验证法切分训练集与测试集,K折交叉验证数据集切分方法如图3所示.将数据集切分为数据内容不重复的K组,每次使用其中1组作为测试集,其余作为训练集进行模型训练和验证.

图3

图3   K折交叉验证训练

Fig.3   K-Fold cross-validation training


采用K=5的交叉验证,将数据集分为5份,分别取其中的1份作为测试集,其余部分数据集作为训练集,进行模型的训练与预测,并将5次预测结果求平均值得到最终预测结果;这种方法可以避免因为数据集的随机划分而出现的局部最优,影响模型的泛化能力.在使用K折交叉验证的同时,组合使用网格搜索寻找最优参数组合,以实现最佳模型效果.

1.2 基于电力大数据的以电折碳模型构建

1.2.1 基于CNN模型的特征提取

CNN模型是一种包含卷积计算的神经网络算法,在解决回归和分类问题中表现出良好性能[21].经过1.1节中的样本数据分析,发现选取的特征变量之间存在强线性相关性,但直接使用简单的线性回归拟合可能因为存在共线问题而影响模型的鲁棒性和拟合效果.卷积计算能够发现样本集中的特征规律,通过卷积计算进行特征提取相较于基于经验的特征工程更加简便.采用卷积层接池化层再接入展平层的CNN网络结构,如图4所示.

图4

图4   CNN特征提取结构

Fig.4   Structure of CNN feature extraction


使用CNN进行特征提取时首先需要将特征集进行标准化处理,使特征集缩放到以0为中心点,标准差为1的数据范围内,以提高模型的提取能力.因为研究数据集是一组连续的时间序列数据,所以选用一维卷积进行特征提取[22],一维卷积的计算方法如下:

FCNN(s)= n=0F-1Xinput(s+n)μ(n)

式中:FCNN为输出的一维卷积特征序列;s为当前序列中的位置;Xinput为输入特征序列;μ(n)为卷积核μ中的第n个元素;Fμ的长度.

卷积层通过对特征数据集的局部感知和局部特征提取,实现对特征数据集中重要特征的捕捉.经过卷积处理后的特征数据将进入池化层.采用最大池化方法进行池化操作,目的是对输入的特征进行降采样,保留主流特征,提高之后训练的性能与泛化能力.最大池化基于池化步长P遍历特征序列,并取遍历操作中的最大值.最大池化的计算方法如下:

Mmax(s)=max FCNN(s+p), ∀p∈{0, 1, …, P-1}

式中:Mmax为输出的最大池化特征序列.

池化后的特征数据进入展平层,展平层的目的是将经过池化的特征张量还原成与输入特征Xinput一致的结构.图5展示了以日度数据开展以电折碳时,X1X2X3X4组成的特征数据序列Xinput经过CNN特征提取模型处理后得到CNN提取特征集D过程的数据集特征结构变化情况示意.在该提取过程中,采用128个过滤器,卷积核长度为3,最大池化为2的池化层.

图5

图5   CNN特征提取模型特征结构变化

Fig.5   Feature structure variation of CNN feature extraction model


1.2.2 基于LightGBM回归的以电折碳模型

从数据相关性分析结果发现,各特征变量与目标量碳排放之间并不是边界狭窄的线性关系,而是具有较大的边界包络线.

为了取得更优的模型效果,选用LightGBM作为回归拟合模型.LightGBM是一种基于梯度提升树(gradient boosting decision tree, GBDT)的机器学习算法,主要通过迭代的方式,不断优化模型的残差来逐步提升模型的预测性能[23].在使用CNN进行特征提取后,特征变量得到大量增加,LightGBM在大量特征变量数据集条件下的回归拟合效果更佳.LightGBM采用方图算法将连续的样本分为多个区间进行处理,以提高运算效率.LightGBM算法中的树结构与GBDT算法相似,其单个树结构同样包含多层不同的叶子节点;但是,LightGBM算法中生长策略由按层生长策略更改为按叶子生长策略,且每一层仅计算最有效的叶子节点.

LightGBM是一种集成学习模型,通过创建使用多个简单的决策树模型实现模型效果的提升,使用CNN提取的特征集D和目标集一起构建训练数据集Xtrain={(d, y)},其中d为特征集D中的样本;y为目标集中的样本.LightGBM模型的表达式为

y^i= t=1Tft(di)

式中:y^i为利用LightGBM模型得到的测算值;ft(di)为第t棵回归树对特征集D中第i个样本的测算值;T为回归树总数量.

LightGBM模型的目标函数由损失函数和正则项构成,第t棵树的目标函数的表达式为

Sobj, t=Lt+Wt
Wt=γJ+12λj=1Jwj2Lt=i=1M[yi-(y^i(t-1)+ft(di))]2

式中:LtWt分别为第t棵树的损失函数和正则惩罚项; J为叶子节点的数目;wj为第j个叶子节点的权重值;γ为叶子节点的惩罚系数;λ为正则化参数;M为样本总数;y^i(t-1)为第t-1棵树的针对第i个样本的测算值.

将使用CNN提取的特征集D和碳排放总量(Y)分别作为回归拟合模型的特征集和目标集进行回归拟合训练,利用式(5)方法构建回归树,多次迭代后收敛至损失函数最小,得到最终的LightGBM模型.

1.3 模型拟合优度评价

使用K=5的K折交叉验证法构建训练集与测试集.训练集用于训练模型,测试集用于验证拟合模型的拟合优度为评价模型拟合的优度.采用3个统计指标对模型的拟合优度进行评估:均方根误差(root-mean-square error, RMSE)、平均绝对百分比误差(mean absolute percentage error, MAPE)和决定系数R2.其中RMSE是误差评价指标,用于评价测算值与目标值的偏离程度,其数值越小说明模型测算值与目标值之间偏离程度越小;MAPE是相关误差评价指标,适合评价不同模型之间测算值与目标值之间的误差率,数值越小说明误差越小;决定系数R2用于量化模型对目标数据的解释能力,一般用于评价回归模型,取值范围在0~1,越接近1说明模型越好地解释了目标数值围绕均值的变动,越接近0说明模型解释变动的能力越差.RMSE、MAPE、R2表达式分别为

eRMSE= 1Mi=1M(yi-y^i)2
eMAPE= 1Mi=1Myi-y^iyi
R2=1- i=1M(yi-y^i)2i=1M(yi-y-)2

式中:y-为目标集的平均值.

2 实例分析

采用美国能源情报署公开数据集EIA-930中的日度和小时电力及碳排放量数据进行实例分析.为了对比CNN-LightGBM组合模型和其他模型在电力行业短期以电折碳领域的应用效果,在K=5的K折交叉验证基础上,使用同一数据开展对比分析:在使用相同训练集与测试集的前提下,分别使用CNN、LightGBM、岭回归(Ridge回归)以及CNN-LightGBM共4组模型进行对比实验,并采用模型拟合优度评价指标分析实验结果.

2.1 基于日度数据的以电折碳模型拟合评价

(1) CNN-LightGBM模型构建实例.使用需求电量预测值(X1)、净发电量(X2)、发电总量(X3)和电力消费量(X4)构建特征数据集,并将数据集进行归一化处理之后导入CNN特征提取模型.如图6所示,CNN特征提取模型的神经网络结构由一维卷积层、最大池化层及展平层3层组成,其中一维卷积层的过滤器数量为128,卷积核长度为3,一共产生512个训练参数,最大池化层的最大池化数为2.导入的特征数据集的矩阵大小为 1 744×4,经过CNN特征提取模型后得到新的提取特征数据集,其矩阵大小为 1 744×128.将新的特征数据集与目标集对应后构成新的训练数据集,使用LightGBM进行回归拟合.模型拟合采用网格搜索方法进行最优参数选取.为了增强组合模型的泛化能力,使用K=5的K折交叉验证,进行5轮不同的模型训练,每轮都使用不同的训练集和测试集.采用eRMSEeMAPER2作为评价指标,比较CNN、LightGBM、Ridge回归以及CNN-LightGBM这4种模型,以评估各模型的性能.在完成比较后,保存最佳模型.图6所示为CNN-LightGBM 模型构建实例,其中Conv 1D为一维卷积层,Max pooling 1d为寻找池化层的最大值,Flatten为卷积层到全连接层的过度,将多维的输出一维化.

图6

图6   模型构建实例

Fig.6   Example of model construction


(2) 模型拟合优度评价分析.采用K=5的K折交叉验证,在不同K值情况下样本被切分为不同的训练集和测试集,拟合的模型权重也将不同,最终对5组不同权重的模型进行模型拟合优度评估.在不同的K值中模型拟合优度评价结果如表3所示.

表3   基于日度数据不同K折取样下不同模型的测算效果

Tab.3  Calculation performance of different models based on daily data with different K-fold samplings

K模型方法评估指标
eRMSEeMAPER2
K=1Ridge0.3156.1220.852
CNN0.31621.7490.852
LightGBM0.3206.3480.847
CNN-LightGBM0.2935.6870.872
K=2Ridge0.3316.7850.832
CNN0.34822.8100.814
LightGBM0.3377.0460.826
CNN-LightGBM0.3316.8570.832
K=3Ridge0.3266.5030.835
CNN0.37824.1900.778
LightGBM0.3376.9140.823
CNN-LightGBM0.3005.9290.860
K=4Ridge0.3396.8050.830
CNN0.34623.3700.823
LightGBM0.3417.0770.828
CNN-LightGBM0.3106.1780.858
K=5Ridge0.3356.5770.819
CNN0.35621.8310.796
LightGBM0.3406.9300.813
CNN-LightGBM0.3236.5550.832
K平均Ridge0.3296.5590.833
CNN0.34922.7900.812
LightGBM0.3356.8630.827
CNN-LightGBM0.3116.2410.851

新窗口打开| 下载CSV


表3展示了5次交叉验证和取平均值之后的4种模型效果评估数据,其中K取不同值代表数据集划分不同,模型权重和效果略有不同.从表3中的K平均效果评估数据可以发现,CNN模型的RMSE和决定系数R2的值与其他模型相比没有太大差距,但MAPE差距较大,说明CNN模型在测试集中测算值整体偏离程度较低,但部分测算值与目标值之间存在较大偏离.LightGBM和Ridge回归模型表现较好,之前数据分析发现特征集与目标集存在强线性相关性,因此Ridge回归模型的各评估数据略优于LightGBM模型.但将表现相对较差的CNN模型和LightGBM模型组合使用后,其各项预测结果的评估数据均优于Ridge回归模型,说明使用CNN模型进行特征的处理比直接使用原有特征集更好地实现了目标值拟合;CNN模型特征提取的过程对特征维度进行扩展,获得更多特征数据集中隐含的特征关系,从而提高了LightGBM模型的拟合预测效果.

为了更加直观地对比分析不同模型以电折碳测算的结果与目标值之间的差异,使用参数最优的模型对全部数据进行5次交叉验证,取测算结果的平均值与目标值进行对比,结果如图7所示.由图可见,CNN的测算结果分布存在测算值与目标值之间出现较大偏差的情况.虽然Ridge回归模型的评估结果较好,但少数测算值与目标值偏差程度较大,相较于目标值的分布Ridge回归模型的测算值振幅更大.LightGBM的测算值相较目标值更为收敛,当目标值出现局部极值时其测算值往往小于目标值较多.CNN-LightGBM的测算值与目标值的贴合更加紧密,测算值的分布与目标值的分布更加贴近.

图7

图7   基于日度数据不同模型的测算结果

Fig.7   Calculation results based on different models of daily data


2.2 基于小时数据以电折碳模型拟合评价

基于小时数据的以电折碳模型拟合采用与日度数据相同的模型结构和变量结构,区别在于输入的矩阵规模和CNN模型输出的矩阵形态不同.采用K=5的K折交叉验证将数据集切分成5组不同的训练集与测试集,基于小时数据的输入训练集特征矩阵形状为 39 228×4,共 39 228 行拥有4个特征变量的训练集经过CNN模型特征提取之后,新的特征矩阵规模为 39 228×128.将新的特征矩阵与目标集组成模型训练集使用LightGBM模型进行回归拟合,共进行5次模型训练,得到5个拟合模型,使用测试集进行测算并与采用相同数据集划分的CNN、LightGBM和Ridge回归模型进行模型拟合优度评估,结果如表4所示.

表4   基于小时数据不同K折取样下不同模型的测算效果

Tab.4  Calculation performance of different models based on hourly data with different K-fold samplings

K模型方法评估指标
eRMSEeMAPER2
K=1Ridge1.4807.2100.870
CNN1.52025.1900.859
LightGBM1.5507.6800.857
CNN-LightGBM1.4507.0600.876
K=2Ridge1.4767.1890.873
CNN1.58428.2900.854
LightGBM1.5477.7120.861
CNN-LightGBM1.5297.5620.864
K=3Ridge1.4537.0770.879
CNN1.48327.7230.874
LightGBM1.5367.6740.864
CNN-LightGBM1.4146.8690.885
K=4Ridge1.5507.7170.857
CNN1.50125.4350.867
LightGBM1.5517.7170.858
CNN-LightGBM1.4457.0360.876
K=5Ridge1.4627.1360.873
CNN1.50627.2910.866
LightGBM1.5237.5920.862
CNN-LightGBM1.4347.0080.878
K平均Ridge1.4727.1630.873
CNN1.51926.7850.865
LightGBM1.5427.6750.861
CNN-LightGBM1.4557.1000.876

新窗口打开| 下载CSV


表4可见,在不同K值的划分下,训练集与测试集中模型效果略有不同,与表3中针对日度数据的测算效果类似,整体模型表现分布与基于日度数据的模型表现相似.单一CNN和LightGBM模型的表现均劣于Ridge回归模型,但是经过CNN与LightGBM组合后的模型拟合效果优于Ridge回归模型.因为日度训练数据集与小时训练数据集中两者的目标值数值范围不一致,所以不能使用RMSE进行模型效果评价.由MAPE分析发现,基于小时数据的样本效果略逊于基于日度数据的模型拟合效果,因为小时数据颗粒度更细、数据波动更大、拟合难度更大.

由于小时数据集规模庞大,所以选取最后3 028个数据点进行各模型预测数据集分布分析,如图8所示.各模型的数据分布与日度数据(见图7)的分布相似,CNN和Ridge回归模型的预测出现更多极值,偏离程度更大;CNN-LightGBM的分布更为集中,测算值相较于目标值偏小.此现象的发生与CNN模型提取过程中池化后消除部分特征使模型更加集中收敛有关.

图8

图8   基于小时数据不同模型的测算结果

Fig.8   Calculation results based on different models of hourly data


综上所述,比较CNN-LightGBM组合模型在日度电力数据集与小时电力数据集中的模型拟合优度表现发现,在解决电力行业短期以电折碳问题时,CNN-LightGBM组合模型模型评估数据优于Ridge回归模型、CNN、LightGBM.虽然评估数值仅略微优于Ridge回归模型,但观察整体数据集测算数据分布发现CNN-LightGBM在测算中的稳定性和泛化能力均优于Ridge回归模型.实证分析表明,所提方法在解决电力行业短期以电折碳问题时优于其他对比模型.

3 结语

所提电力行业短期以电折碳方法是一种基于CNN-LightGBM组合模型且仅使用少量及时性强的数据对电力行业碳排放进行短期测算的方法.在所提组合模型中,CNN使用一维卷积核进行特征提取,聚焦于对结果影响大的特征.整个模型训练过程采用K折的交叉验证进行多次数据集划分避免因为数据划分不均匀带来的模型泛化问题.在K折交叉验证的基础上,LightGBM模型的参数采用网格搜索的方法进行优化.为验证所提模型的有效性,根据数据集的特点采用CNN、LightGBM和Ridge回归进行实证算例对照实验.由日度数据集和小时数据集实验发现,CNN特征提取可以有效聚焦数据集特征,在结合LightGBM模型之后测算效果优于单独使用CNN和LightGBM,并且略微优于数据集存在强线性相关性的Ridge回归模型.在将模型分别用于全部数据测算后,观察目标值与测算值发现,CNN-LightGBM模型在测算值的分布更加收敛,且更加贴近目标值.

因国内相关数据未完全公开,所以使用了美国能源情报署数据进行模型实例对比实验,但所提研究方法与流程同样适用于国内数据集.如果使用所提方法研究国内数据集,数据特征需要根据国内数据集的收集情况进行调整.

参考文献

康重庆, 杜尔顺, 李姚旺, .

新型电力系统的“碳视角”: 科学问题与研究框架

[J]. 电网技术, 2022, 46(3): 821-833.

[本文引用: 1]

KANG Chongqing, DU Ershun, LI Yaowang, et al.

Key scientific problems and research framework for carbon perspective research of new power systems

[J]. Power System Technology, 2022, 46(3): 821-833.

[本文引用: 1]

包维瀚, 李姚旺, 季节, .

储能系统与双向电力负荷的碳排放核算方法

[J]. 电网技术, 2023, 47(8): 3049-3058.

[本文引用: 1]

BAO Weihan, LI Yaowang, JI Jie, et al.

Carbon emission accounting method for energy storage system and bidirectional power load

[J]. Power System Technology, 2023, 47(8): 3049-3058.

[本文引用: 1]

魏军晓, 耿元波, 王松.

中国水泥碳排放测算的影响因素分析与不确定度计算

[J]. 环境科学学报, 2016, 36(11): 4234-4244.

[本文引用: 1]

WEI Junxiao, GENG Yuanbo, WANG Song.

Identification of factors influencing CO2 emission estimation from Chinese cement industry and determination of their uncertainty

[J]. Acta Scientiae Circumstantiae, 2016, 36(11): 4234-4244.

[本文引用: 1]

马凯, 韩文涛, 丁艺, .

煤种对燃煤电厂碳排放经济性的影响研究

[J]. 热能动力工程, 2018, 33(9): 142-146.

MA Kai, HAN Wentao, DING Yi, et al.

Study on the influence of coal on the carbon emission economy of coal-fired power plant

[J]. Journal of Engineering for Thermal Energy and Power, 2018, 33(9): 142-146.

刘学之, 孙鑫, 朱乾坤, .

中国二氧化碳排放量相关计量方法研究综述

[J]. 生态经济, 2017, 33(11): 21-27.

[本文引用: 1]

LIU Xuezhi, SUN Xin, ZHU Qiankun, et al.

Review on the measurement methods of carbon dioxide emissions in China

[J]. Ecological Economy, 2017, 33(11): 21-27.

[本文引用: 1]

王安静, 冯宗宪, 孟渤.

中国30省份的碳排放测算以及碳转移研究

[J]. 数量经济技术经济研究, 2017, 34(8): 89-104.

[本文引用: 1]

WANG Anjing, FENG Zongxian, MENG Bo.

Mea-sure of carbon emissions and carbon transfers in 30 provinces of China

[J]. The Journal of Quantitative & Technical Economics, 2017, 34(8): 89-104.

[本文引用: 1]

吴昊, 任鑫, 朱俊杰.

发电行业二氧化碳排放监测技术现状与综述

[J]. 热力发电, 2023, 52(7): 1-13.

[本文引用: 1]

WU Hao, REN Xin, ZHU Junjie.

Current situation and review of carbon dioxide emission monitoring technology in power generation industry

[J]. Thermal Power Generation, 2023, 52(7): 1-13.

[本文引用: 1]

刘昱良, 李姚旺, 周春雷, .

电力系统碳排放计量与分析方法综述

[J]. 中国电机工程学报, 2024, 44(6): 2220-2236.

[本文引用: 1]

LIU Yuliang, LI Yaowang, ZHOU Chunlei, et al.

Overview of carbon measurement and analysis methods in power systems

[J]. Proceedings of the CSEE, 2024, 44(6): 2220-2236.

[本文引用: 1]

KANG C Q, ZHOU T R, CHEN Q X, et al.

Carbon emission flow from generation to demand: A network-based model

[J]. IEEE Transactions on Smart Grid, 2015, 6(5): 2386-2394.

[本文引用: 1]

张宁, 李姚旺, 黄俊辉, .

电力系统全环节碳计量方法与碳表系统

[J]. 电力系统自动化, 2023, 47(9): 2-12.

[本文引用: 1]

ZHANG Ning, LI Yaowang, HUANG Junhui, et al.

Carbon measurement method and carbon meter system for whole chain of power system

[J]. Automation of Electric Power Systems, 2023, 47(9): 2-12.

[本文引用: 1]

李姚旺, 刘昱良, 杨晓斌, .

计及电量交易信息的用电碳计量方法

[J]. 中国电机工程学报, 2024, 44(2): 439-450.

[本文引用: 1]

LI Yaowang, LIU Yuliang, YANG Xiaobin, et al.

Electricity carbon metering method considering electricity transaction information

[J]. Proceedings of the CSEE, 2024, 44(2): 439-450.

[本文引用: 1]

刘红琴, 王高天, 陈品文, .

地区电力行业碳排放水平测算及其特点分析

[J]. 生态经济, 2018, 34(4): 34-39.

[本文引用: 1]

LIU Hongqin, WANG Gaotian, CHEN Pinwen, et al.

The level measure and characteristics analysis of carbon emission in regional power industry

[J]. Ecological Economy, 2018, 34(4): 34-39.

[本文引用: 1]

胡壮丽, 罗毅初, 蔡航.

城市电力行业碳排放测算方法及减碳路径

[J]. 上海交通大学学报, 2024, 58(1): 82-90.

DOI:10.16183/j.cnki.jsjtu.2022.222      [本文引用: 1]

为测算城市电力行业碳排放水平和降低电力行业碳排放,提出一种城市电力行业碳排放测算方法和减碳路径.首先,基于城市本地电源发电和净调入电力数据建立城市电力行业碳排放测算模型;其次,从发电侧、电网侧、负荷侧和储能侧提出城市电力行业减碳措施;然后,建立减碳措施的效果评估模型;最后,以珠三角典型城市F市为例,利用所提碳排放测算模型测算该市电力行业碳排放,并依据减碳措施评估该市2030年碳达峰情景电力行业减碳效果.结果表明:所提模型能准确测算城市电力行业碳排放;通过减碳措施,F市在2030年至少可减少碳排放1.06×10<sup>7</sup> t.

HU Zhuangli, LUO Yichu, CAI Hang.

A method for carbon emission measurement and a carbon reduction path of urban power sector

[J]. Journal of Shanghai Jiao Tong University, 2024, 58(1): 82-90.

[本文引用: 1]

李政, 陈思源, 董文娟, .

碳约束条件下电力行业低碳转型路径研究

[J]. 中国电机工程学报, 2021, 41(12): 3987-4001.

[本文引用: 1]

LI Zheng, CHEN Siyuan, DONG Wenjuan, et al.

Low carbon transition pathway of power sector under carbon emission constraints

[J]. Proceedings of the CSEE, 2021, 41(12): 3987-4001.

[本文引用: 1]

王丽娟, 张剑, 王雪松, .

中国电力行业二氧化碳排放达峰路径研究

[J]. 环境科学研究, 2022, 35(2): 329-338.

[本文引用: 1]

WANG Lijuan, ZHANG Jian, WANG Xuesong, et al.

Pathway of carbon emission peak in China’s electric power industry

[J]. Research of Environmental Sciences, 2022, 35(2): 329-338.

[本文引用: 1]

ZHAO J J, KOU L, WANG H T, et al.

Carbon emission prediction model and analysis in the Yellow River Basin based on a machine learning method

[J]. Sustainability, 2022, 14(10): 6153.

[本文引用: 1]

LI M L, WANG W, DE G, et al.

Forecasting carbon emissions related to energy consumption in Beijing-Tianjin-Hebei Region based on grey prediction theory and extreme learning machine optimized by support vector machine algorithm

[J]. Energies, 2018, 11(9): 2475.

ARAS S, VAN M H.

An interpretable forecasting framework for energy consumption and CO2 emissions

[J]. Applied Energy, 2022, 328: 120163.

徐勇戈, 宋伟雪.

基于FCS-SVM的建筑业碳排放预测研究

[J]. 生态经济, 2019, 35(11): 37-41.

[本文引用: 1]

XU Yongge, SONG Weixue.

Carbon emission prediction of construction industry based on FCS-SVM

[J]. Ecological Economy, 2019, 35(11): 37-41.

[本文引用: 1]

叶鎏芳, 钟志鹏, 郑仁广, .

基于碳电强度的碳排放监测方法

[J]. 能源与环境, 2023(1): 40-44.

[本文引用: 1]

YE Liufang, ZHONG Zhipeng, ZHENG Renguang, et al.

Carbon emission monitoring method based on carbon electric intensity

[J]. Energy & Environment, 2023(1): 40-44.

[本文引用: 1]

章琳, 袁非牛, 张文睿, .

全卷积神经网络研究综述

[J]. 计算机工程与应用, 2020, 56(1): 25-37.

DOI:10.3778/j.issn.1002-8331.1910-0164      [本文引用: 1]

近年来,全卷积神经网络发展迅猛,在多个视觉研究领域表现出了非常亮眼的成绩。重点收集了近几年的高质量文献,对其中提出的全卷积方法进行分析总结,力求让读者通过对研读,对全卷积神经网络的关键技术、研究现状和最新进展有一个比较全面的了解。将收集到的文献,按照研究领域的不同进行分类汇总,重点提取几个研究非常活跃的领域,详细介绍一些非常具有代表性的算法,并重点介绍了各种方法的精髓所在,同时还对近一年来的最新研究进展进行了概述。通过对大量文献的梳理研究,总结出全卷积神经网络在近几年取得的成就,分析各种方法的优缺点,根据全卷积神经网络目前还存在的一些问题,归纳出未来可能的发展方向。

ZHANG Lin, YUAN Feiniu, ZHANG Wenrui, et al.

Review of fully convolutional neural network

[J]. Computer Engineering & Applications, 2020, 56(1): 25-37.

[本文引用: 1]

TORRES J F, HADJOUT D, SEBAA A, et al.

Deep learning for time series forecasting: A survey

[J]. Big Data, 2021, 9(1): 3-21.

[本文引用: 1]

CAO Q, WU Y H, YANG J, et al.

Greenhouse temperature prediction based on time-series features and LightGBM

[J]. Applied Sciences, 2023, 13(3): 1610.

[本文引用: 1]

/