基于分层强化学习的新型电力系统在线稳态调度

doi:10.16183/j.cnki.jsjtu.2023.344

基于分层强化学习的新型电力系统在线稳态调度

赵莹莹¹^,², 仇越³, 朱天晨^,³, 李凡¹^,², 苏运¹^,², 邰振赢³, 孙庆赟³, 凡航⁴

1.国网上海市电力公司,上海 200125

2.华东电力试验研究院有限公司,上海 200437

3.北京航空航天大学,北京 100191

4.华北电力大学经济与管理学院,北京 100096

Online Steady-State Scheduling of New Power Systems Based on Hierarchical Reinforcement Learning

ZHAO Yingying¹^,², QIU Yue³, ZHU Tianchen^,³, LI Fan¹^,², SU Yun¹^,², TAI Zhenying³, SUN Qingyun³, FAN Hang⁴

1. State Grid Shanghai Municipal Electric Power Company, Shanghai 200125, China

2. East China Electric Power Test and Research Institute Co., Ltd., Shanghai 200437, China

3. Beihang University, Beijing 100191, China

4. School of Economics and Management, North China Electric Power University, Beijing 100096, China

通讯作者: 朱天晨,博士;E-mail:catezi@buaa.edu.cn.

责任编辑: 王历历

收稿日期: 2023-07-24 修回日期: 2023-09-26 接受日期: 2023-11-22

基金资助:

国网上海市电力公司科技项目(B3094022000D)
上海电力人工智能工程技术研究中心研究项目(19DZ2252800)

Received: 2023-07-24 Revised: 2023-09-26 Accepted: 2023-11-22

作者简介 About authors

赵莹莹(1991—),硕士,专业工程师,从事电力大数据和人工智能技术应用工作.

摘要

随着新型电力系统的建设,高比例可再生能源的随机性导致电网运行方式的不确定性大幅增加,给电网的安全稳定经济运行带来严峻挑战.采用深度强化学习方法等数据驱动的人工智能方法对电网进行调控并进行辅助决策在新型电力系统中具有重要意义,但当前基于深度强化学习的在线调度算法仍然面临高维决策空间难建模、调度策略难优化的问题,使得模型搜索效率较低、收敛较慢.因此,提出一种基于分层强化学习的新型电力系统在线稳态调度方法,通过自适应选取关键节点调节以降低决策空间.在此基础上进一步引入基于门控循环单元的状态上下文感知模块建模高维环境状态,综合运行成本、能源消纳以及越限情况为优化目标构建模型,并考虑各种运行约束.在IEEE-118、L2RPN-WCCI-2022和SG-126算例集上验证了所提算法的有效性.

关键词： 电网运行调度; 强化学习; 分层决策; 状态表征

Abstract

With the construction of new power systems, the stochasticity of high-proportion renewable energy significantly increases the uncertainty in the operation of the power grid, posing severe challenges to its safe, stable, and economically efficient operation. Data-driven artificial intelligence methods, such as deep reinforcement learning, are becoming increasingly important for regulating and assisting decision-making in the power grid in the new power system. However, current online scheduling algorithms based on deep reinforcement learning still face challenges in modeling the high-dimensional decision space and optimizing scheduling strategies, resulting in low model search efficiency and slow convergence. Therefore, a novel online steady-state scheduling method is proposed for the new power system based on hierarchical reinforcement learning, which reduces the decision space by adaptively selecting key nodes for adjustment. In addition, a state context-aware module based on gated recurrent units is introduced to model the high-dimensional environmental state, and a model with the optimization objectives of comprehensive operating costs, energy consumption, and over-limit conditions is constructed considering various operational constraints. The effectiveness of the proposed algorithm is thoroughly validated through experiments on three standard test cases, including IEEE-118, L2RPN-WCCI-2022, and SG-126.

Keywords： operation scheduling of power grid; reinforcement learning; hierarchical decision making; state representation

PDF (4192KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

赵莹莹, 仇越, 朱天晨, 李凡, 苏运, 邰振赢, 孙庆赟, 凡航. 基于分层强化学习的新型电力系统在线稳态调度[J]. 上海交通大学学报, 2025, 59(3): 400-412 doi:10.16183/j.cnki.jsjtu.2023.344

ZHAO Yingying, QIU Yue, ZHU Tianchen, LI Fan, SU Yun, TAI Zhenying, SUN Qingyun, FAN Hang. Online Steady-State Scheduling of New Power Systems Based on Hierarchical Reinforcement Learning[J]. Journal of Shanghai Jiaotong University, 2025, 59(3): 400-412 doi:10.16183/j.cnki.jsjtu.2023.344

近年来,可再生能源的广泛接入极大地促进电力系统的能源结构向清洁化、可持续化发展.受能源供给侧结构改革及2030年碳达峰目标的驱动,电网中可再生能源的比例将进一步增加.但随着可再生能源装机量不断增加^[1],受机组输出功率波动性、随机性等特点^[2]的影响,频繁的潮流变化使得保持电网的平衡稳定成为一项具有挑战性的任务.

电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划^[3-4]、线性规划^[5⇓-7]以及多目标优化方法^[8-9]等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法^[10]、群体智能方法^[11⇓-13]以及混合方法^[14]遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题^[15].近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等^[16]将深度Q网络方法用于微电网电能产出和消纳的优化调度.余涛等^[17]提出使用分布式Q学习算法来解决复杂电网分区的最优潮流调度问题.Wei等^[18]使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等^[19]利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等^[20]基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等^[21]基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解.

然而,尽管目前基于强化学习的电网功率调节有初步的研究,但由于电网具有庞大、组合和非线性的性质,这些方法仍然难以在新型电力系统环境下学习到优质的调度策略.这是因为大量新能源机组、储能、可调负载等异构节点接入,源荷波动的不确定性陡增^[22],状态、动作等决策空间也相应增长,高维决策空间使得潮流稳态难以保持.具体而言:第一,新型电力系统通常节点规模较大,涉及发电机组、负载、储能设备等异构节点的同步调节,形成典型的高维连续动作空间,决策空间指数级增长^[23],而能保证潮流平衡稳定的动作组合占比极低,这种稀疏性使得电网通常会在几个时间步内快速失衡,智能体难以学习到优质的调度策略;第二,受可调负载、储能等设备接入及随机事件的影响,电网功率等参数的调度具有延迟影响,形成了具有复杂时空关联特征的高维状态空间.缺失复杂时空关联的建模使得智能体难以准确估计电网未来的供需变化,影响电网的平衡.

针对上述问题,提出一种新的分层强化学习方法StarHeart.首先,将电网功率的调度扩展为分层框架,上层模型根据电网运行状态自适应识别影响潮流稳定的关键节点,下层模型对上层模型选出的关键节点进行具体的运行参数调节,从而简化决策空间,提升强化学习的探索效率.进一步,建立基于门控循环单元(gated recurrent unit, GRU)模型的环境状态上下文感知模块,用以捕捉电网的时空运行特征,感知历史调控动作的延迟影响,预测供需变化,给出精准的环境状态表征以支撑调度决策.此外,在IEEE-118标准算例、L2RPN-WCCI-2022比赛算例以及SG-126标准算例上验证所提算法的有效性.实验结果显示,在包含大量新能源出力、储能、可调负载等异构设备的电网仿真环境中,相比现有深度强化学习算法综合性能提升超过2.6倍,并可显著提高电网稳定运行时长约2.3倍.

1 问题建模

本文所指的电网在线调度,是对固定时间窗口内各种不确定场景及组合进行推演,时间间隔通常为5或15 min,并实时在线给出最有可能发生场景的有功计划,包括发电计划及负荷调整计划、灵活机组开停机计划和运行方式调整安排等.同时,根据潜在风险进行安全校核和运行状态的自适应校正,从而保证新型电力系统的平稳运行,避免平衡机越限或潮流不收敛.

上述电网在线调度问题通常能够建模为一个马尔可夫决策过程 (S, A, P_trans, R, γ),并利用深度强化学习的方法求解.其中S为状态空间,A为动作空间,P_trans为状态转移函数,R为某一状态采取某一动作从环境获得的奖励,γ为折扣因子.相比传统方法将调度策略作为高维非线性规划问题求解,基于马尔可夫决策过程建模的方式更加适合新型电力系统高度复杂、动态和实时响应的特性,可以根据实时数据不断学习和调整决策策略,并应对突发扰动,可有效管理电力系统固有的不确定性和可变性.本节给出电网在线调度问题中关于状态、动作、奖励和状态转移函数的形式化建模.

1.1 状态空间

电网环境状态是电网运行调度决策的核心依据.将电网运行调度的决策依据归纳为如下式所示属性状态、拓扑结构以及状态上下文3类:

(1)

\begin{array}{l} S = [X G C] \\ X = [P Q V I_{o t h e r}] \\ G = (N, E) \end{array}\}

式中:X表示属性状态,代表电网系统各元件,如发电机、负载、储能以及线路等的各项属性,包括有功功率P、无功功率Q、电压V以及线路损耗等其他信息I_other;G为拓扑状态,即电网系统在当前时刻的拓扑结构,包括节点特征矩阵N和邻接矩阵E;C为电网状态的上下文信息,包含历史状态和动作组成的序列.

1.2 动作空间

针对开放环境下规模电网异构设备,包括源、网、荷、储等的协调互动等特性,主要针对发电机的有功功率调整值ΔP_gen,可调负载的有功功率调整值ΔP_load以及储能设备充放电功率调整值ΔP_store共3项运行参数进行调整.因此,动作空间可用下式进行表示:

(2)A=[ΔP_gen ΔP_load ΔP_store]

1.3 奖励函数

电网在线调度需要根据电网实际需求设计不同调度目标,目标的构建直接决定决策策略优化的质量,以及决策模型在各类条件下的普适性与可扩展性.通常情况下,在线调度的目标包含经济性、清洁性、风电消纳等多个维度,每个维度之间可能存在耦合关系且会受到各种不确定因素的影响.此外,深度强化学习算法的反馈代价引导了策略网络离线训练时的参数更新方向,应能够直接反映在线调度目标的实现状况.

将电网调度窗口内的经济性、安全性、功率平衡、出力平滑等各类调度目标转换为代价函数,通过最小化目标代价满足调度需求.其中,安全性代价指学习过程中调度智能体输出的调度指令输入到电网仿真运行环境时,通过潮流计算统计线路越限、平衡机越限、无功越限和节点电压越限等情况,具体包括以下几项.

(1) 线路越限惩罚:

(3)r₁=1-

\frac{1}{n_{l i n e}} \sum_{i_{1} = 1}^{n_{l i n e}}

min

\{\frac{I_{i_{1}}}{T_{i_{1}} + ε}, 1\}

式中:n_line为电网支线数目; $I_{i_{1}}$ 、 $T_{i_{1}}$ 分别为支路i₁的电流和热极限;ε=0.1用于防止分母为0.该惩罚项表示当电网运行中越多数量支路的电流接近甚至超过热极限时,给予相应调度动作的惩罚越高.

(2) 平衡机越限惩罚:

(4)r₂ =-

\sum_{i_{2} = 1}^{n_{b a l}}

p_{i_{2}}

Δ $p_{i_{2}}$ = $\{\begin{array}{l} |(p_{i_{2}} - p_{i_{2}}^{m a x}) / p_{i_{2}}^{m a x}|, \\ p_{i_{2}}^{m a x} \leq p_{i_{2}} \leq 1.1 p_{i_{2}}^{m a x} \\ |(p_{i_{2}} - p_{i_{2}}^{m i n}) / p_{i_{2}}^{m i n}|, \\ 0.9 p_{i_{2}}^{m i n} \leq p_{i_{2}} \leq p_{i_{2}}^{m i n} \\ 0, 其他 \end{array}$

式中:n_bal为平衡机个数; $p_{i_{2}}$ 为第i₂个平衡机的实际有功出力; $p_{i_{2}}^{m a x}$ 、 $p_{i_{2}}^{m i n}$ 分别为平衡机i₂的出力上下限.r₂限制了平衡机出力的波动幅度,从而尽可能保证电网潮流的平稳性.

(3) 无功功率越限惩罚:

(5)r₃=-

\sum_{i_{3} = 1}^{n_{g e n}}

q_{i_{3}}

Δ $q_{i_{3}}$ = $\{\begin{array}{l} |(q_{i_{3}} - q_{i_{3}}^{m a x}) / q_{i_{3}}^{m a x}|, & q_{i_{3}} \geq q_{i_{3}}^{m a x} \\ |(q_{i_{3}} - q_{i_{3}}^{m i n}) / q_{i_{3}}^{m i n}|, & q_{i_{3}} \leq q_{i_{3}}^{m i n} \\ 0, & 其他 \end{array}$

式中:n_gen为机组总个数; $q_{i_{3}}$ 为第i₃个机组的实际无功出力; $q_{i_{3}}^{m a x}$ 、 $q_{i_{3}}^{m i n}$ 分别为机组i₃的无功出力上下限.

(4) 节点电压越限惩罚:

(6)r₄ =-

\sum_{i_{4} = 1}^{n_{s u b}}

v_{i_{4}}

Δ $v_{i_{4}}$ = $\{\begin{array}{l} |(v_{i_{4}} - v_{i_{4}}^{m a x}) / v_{i_{4}}^{m a x}|, & v_{i_{4}} \geq v_{i_{4}}^{m a x} \\ |(v_{i_{4}} - v_{i_{4}}^{m i n}) / v_{i_{4}}^{m i n}|, & v_{i_{4}} \leq v_{i_{4}}^{m i n} \\ 0, & 其他 \end{array}$

式中:n_sub为电网节点个数; $v_{i_{4}}$ 为第i₄个节点的电压值; $v_{i_{4}}^{m a x}$ 、 $v_{i_{4}}^{m i n}$ 为第i₄分别个节点的电压上下限.

经济性代价指输出的在线调度计划中决策时刻t的各台机组运行费用、新能源消纳量等,具体包括如下几项.

(1) 新能源机组消纳量:

(7)r₅=

\sum_{i_{5} = 1}^{n_{n e w}} p_{i_{5}}^{n e w}

\sum_{i_{5} = 1}^{n_{n e w}} {\bar{p}}_{i_{5}}^{n e w}

式中:n_new为新能源机组个数; $p_{i_{5}}^{n e w}$ 为新能源机组的实际有功出力; ${\bar{p}}_{i_{5}}^{n e w}$ 为第i₅个新能源机组在当前时刻的最大出力.当越多数量的新能源机组实际有功越接近其最大出力时,标识新能源消纳程度越高,环境给予智能体的奖励相应越高.

(2) 机组运行成本惩罚:

(8)$\begin{aligned}r_{6}= & -\frac{1}{\sum_{i_{6}=1}^{n_{\text {ld }}} p_{i_{6}}^{\text {ld }}} (a \sum_{i_{3}=1}^{n_{\text {gen }}} \Delta p_{i_{3}}^{\text {gen }}+b \sum_{i_{7}=1}^{n_{\text {adild }}} \Delta p_{i_{7}}^{\text {adild }}+ \\& c \sum_{i_{8}=1}^{n_{\text {sore }}} \Delta p_{i_{8}}^{\text {store }})\end{aligned}$

式中:n_ld、n_adjld、n_store分别为负载、可调负载以及储能设备的数目; $p_{i_{6}}^{l d}$ 为负载的有功功率;Δ $p_{i_{3}}^{g e n}$ 、Δ $p_{i_{7}}^{a d j l d}$ 、Δ $p_{i_{8}}^{s t o r e}$ 分别为机组、可调负载、储能设备的有功调整绝对值;a、b、c为权重系数,且a = 1, b = 1.5, c = 2.

对上述各奖励项进行归一化,并结合在线调度目标的侧重进行加权取值,即为总体的奖励函数.将时间步t上的奖励函数R_t定义为上述6个子项的加权和:

(9)R_t=a₁r'₁+a₂r'₂+a₃r'₃+a₄r'₄+a₅r'₅+a₆r'₆

式中:a₁~a₆为各子项奖励函数的权重系数,且a₁=1, a₂=2, a₃=4, a₄=1, a₅=1, a₆=1;r'₁~r'₆代表归一化后的奖励子项.

1.4 状态转移函数

电网系统状态的不稳定性既受到调节操作的影响,也会受到环境随机因素的影响,例如线路随机断线故障和支路负荷越限故障等,因此将这些因素考虑在内,并基于此提出状态转移函数:

(10)S_t₊₁=f(S_t, A_t, e_t)

式中:f表示状态转移函数;S_t、A_t、e_t分别为t时刻的状态、动作和环境随机因素;S_t₊₁为下一时刻的状态.

1.5 约束条件

电力系统的在线调度需要满足上下限约束、启停约束、爬坡约束3类约束条件,上下限约束主要包括以下几项.

(1) 机组有功出力上下限约束:

(11)

p_{i_{3}}^{m i n}

≤

p_{i_{3}}

≤

p_{i_{3}}^{m a x}

式中: $p_{i_{3}}^{m a x}$ 、 $p_{i_{3}}^{m i n}$ 分别为第i₃个机组的有功出力上下限; $p_{i_{3}}$ 为第i₃个机组的有功出力.其含义为电力系统内除平衡机外,任意机组的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限.

(2) 新能源机组最大出力约束:

(12)p_new≤

p_{n e w}^{m a x}

式中:p_new为新能源机组的有功出力注入值; $p_{n e w}^{m a x}$ 为新能源机组的最大出力值.该约束的含义为新能源机组的有功出力注入值始终不能大于最大出力值.

(3) 机组无功出力约束:

(13)

q_{i_{3}}^{m i n}

≤

q_{i_{3}}

≤

q_{i_{3}}^{m a x}

式(13)含义为电力系统内任意机组的无功出力值始终不能超过其上下限.

(4) 电压上下限约束:

(14)

v_{i_{4}}^{m i n}

≤

v_{i_{4}}

≤

v_{i_{4}}^{m a x}

式(14)含义为节点电压始终不能超过其上下限.

(5) 支路越限约束.若任一支路的电流值超过其热稳限值,表示该支路电流越限.若支路电流越限但未超热稳限值的135%,表示支路“软过载”;若支路电流超热稳限值的135%,表示支路“硬过载”.任意支路连续时长t发生“软过载”,则该支路停运;发生“硬过载”则支路立即停运.支路停运16个时间步之后,重新投运.

(6) 平衡机上下限约束:

(15)0.9

p_{i_{2}}^{m a x}

≤

p_{i_{2}}

≤1.1

p_{i_{2}}^{m a x}

该约束条件用于分担控制策略不合理导致的系统不平衡功率.潮流计算后,平衡机有功出力需不超过上限的110%,并不低于下限的90%.

机组爬坡约束为

(16)Δp_coal≤g_camp

式中:Δp_coal为火电机组的有功出力调整值;g_camp为爬坡率.式(16)含义为任意火电机组的有功出力调整值必须小于爬坡速率.

机组启停约束主要涉及火电机组的停运规则.具体而言,机组停运前机组有功出力必须调整至出力下限,再调整至0.机组停机后在连续时长t内不允许重新启动.火电机组启动规则为机组开启前有功出力必须调整至出力下限.机组重新启动后在连续时长t内不允许停机.新能源机组和平衡机没有关机状态,一直保持开机.火电机组的关机状态通过判断机组有功出力是否为0来确定.

2 基于分层强化学习的在线稳态调度框架

基于分层强化学习算法提出一种电网运行在线调度框架StarHeart,如图1所示,旨在解决高比例新能源机组接入导致的高维决策空间挑战.该方法以Actor-Critic算法结构为主体框架,利用状态上下文感知的时序表征嵌入机制和关键节点自适应优选的分层决策机制,有效缓解环境状态、动作空间的指数爆炸问题.图中:s_t_-_L、a_t_-_L分别为t-L时刻的状态和动作.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 基于分层强化学习的在线稳态调度方法总体框架

Fig.1 Overall architecture of hierarchical reinforcement learning-based scheduling method

2.1 分层强化学习与Actor-Critic结构

2.1.1 分层强化学习

分层强化学习是一种解决多层次任务决策问题的强化学习方法,其主要思想是将决策任务分解为多个子问题或子任务,构建分层结构的两类智能体,使得原始决策问题形成“顶层-底层”的两层结构^[24].其中,顶层智能体π_H基于当前状态S选择最佳子任务g=π_H(s)来完成整体任务目标,底层智能体π_L则基于当前状态和上层目标输出每一步决策动作a=π_L(s, g)以具体执行子任务.在每一个子任务中,底层智能体以最大化该子任务的期望奖励为目标,即J(π_L)=E[R_g(s, a)],R_g为由子任务g确定的奖励函数,而顶层智能体则以最大化分解的子任务的期望奖励为目标,即J(π_H)=E[R(s, g)].相比传统的单层强化学习架构,分层强化学习通过层次分解,显著降低决策空间,能够有效提升决策效率.分层强化学习已被广泛应用于游戏、电网等场景下的高维决策空间任务^[25^-^27].

2.1.2 Actor-Critic结构

Actor-Critic是一类经典的深度强化学习算法结构,有效结合了传统强化学习方法中的策略梯度方法和值函数方法^[23].在Actor-Critic结构中,Actor代表策略网络π_θ(s|a),负责学习策略,根据当前状态选择一个动作,并以最大化累积奖励为目标.Critic代表价值网络V_ϕ(s),负责学习值函数,并通过估计当前状态的值函数来指导Actor的决策.Actor网络通过策略梯度更新模型参数:

θ←θ+α_θ(V_ϕ(s)+r(s, a))Δ_θlg(s'|s, a)

Critic网络则通过目标价值和预测价值之间的均方误差更新模型参数:

ϕ←ϕ+α_ϕΔ_ϕ(r(s, a)+V_ϕ(s')-V_ϕ(s))²

其中s'表示下一时刻的状态;r为环境奖励;θ、ϕ分别为策略网络和价值网络的模型参数;α_θ、α_ϕ分别为策略网络和价值网络的学习率.Actor-Critic结构可以通过参数化策略函数来处理连续动作空间,具有更广泛的适用性,并且更容易适应高维状态空间.所提方法以Actor-Critic算法结构作为主体框架,引入状态上下文感知与自适应分层决策机制,以解决电网环境的高维空间的问题.

2.2 状态上下文感知的时序表征嵌入机制

环境状态是智能体决策的重要依据,状态表示的质量直接影响智能体的决策效果.然而由于高比例新能源的接入,出力、潮流等变化存在极强的时空高维关联,所以电网运行存在极大不确定性.传统基于单一时刻的运行状态表示方法无法准确建模高维时空特征,智能体难以捕捉供需和潮流的变化规律,容易导致决策模型失效.因此,考虑引入状态上下文信息增强环境状态表征.具体而言,环境状态在表征断面属性信息X和拓扑结构信息G的同时,额外引入节点的动作上下文特征C以准确建模时空相关性,如图2所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 状态上下文嵌入模块的网络结构

Fig.2 Neural network structure of state context embedding module

针对属性状态信息X_t和拓扑结构信息G=(N, E),首先利用多层感知器(multilayer perceptron,MLP)和图卷积层(graph convolutional networks, GCN) ^[26]融合提取属性信息浅层关联特征和结构关联特征:

(17)

\begin{array}{l} {\hat{X}}_{t} = M L P (X_{t}) \\ {\hat{O}}_{t} = G C N (G, X_{t}) \end{array}\}

为了增强对于环境状态的表征能力,在融合属性信息和拓扑信息的基础上,引入状态上下文感知机制,提取电网潮流、供需等环境要素之间的内在时空关联.利用GRU表征历史潮流断面和历史调节动作等状态上下文时序嵌入^[27],最小失真地建模环境状态转移.GRU模型的输入为历史潮流断面以及历史调节动作序列H_t=(X_t_-_L, X_t_-_L₊₁, …, X_t, A_t_-_L, A_t_-_L₊₁, …, A_t),t 时刻动作A_t输出h_t为t时刻的上下文嵌入特征,该特征向量由前一时刻的特征向量h_t_-1迭代计算得到,具体计算过程为

(18)

\begin{array}{l} x_{t} = [X_{t}, A_{t}] \\ r_{t} = σ (W_{r} [h_{t - 1}, x_{t}]) \\ z_{t} = σ (W_{z} [h_{t - 1}, x_{t}]) \\ {\tilde{h}}_{t} = t a n h (W_{h} [r_{t} ☉ h_{t - 1}, x_{t}]) \\ h_{t} = (1 - z_{t}) ☉ h_{t - 1} + z_{t} ☉ {\tilde{h}}_{t} \end{array}\}

式中:X_t为t时刻的潮流断面内,电网各元件的各项属性状态;σ为激活函数;tanh为双曲正切函数;r_t、z_t分别为GRU结构中重置门信号和更新门信号;W_r、W_z分别为重置门和更新门的权重矩阵;[·]表示向量拼接算子;☉表示矩阵按位乘运算.

最终将属性特征 ${\hat{X}}_{t}$ 、结构特征O_t以及时序关联特征h_t进行拼接,作为全局状态表征S_t输入到分层决策模型,如下:

(19)S_t=[

{\hat{X}}_{t}

O_t h_t]

2.3 关键节点自适应优选的分层决策机制

高比例新能源电网通常包括大规模的出力、负载以及储能节点,其决策空间随着节点数量和属性维度呈指数级增长,是典型的高维连续决策空间.在单个时间步内对所有节点进行全量调节会导致电网潮流在短时间内迅速失衡,使智能体难以获取优质的电网调节经验,进而难以进行策略学习与优化.

受文献[28]中基于高频动作筛选以缩小大规模离散动作空间的启发,针对高维连续的电网调节动作空间,设计一种如图3所示的自适应的分层决策机制.该机制将电网中全部可调节单元的调整值生成过程解耦为两个层次:单元选择层和功率调整层.其中,单元选择层根据电网的运行状态自适应地识别关键节点,并选取这些关键节点作为功率调整的动作空间,有效降低决策空间的维度.功率调整层则聚焦于单元选择层中输出的关键电网节点,生成这些关键节点的具体功率调整值,即图中数值.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 关键节点自适应优选的分层决策机制

Fig.3 Hierarchical decision-making mechanism for adaptive and optimal critical node selection

如2.2节所述,通过改进传统Actor-Critic模型架构,构建两个Actor策略网络,分别用来建模单元选择层和功率调整层,实现了自适应分层决策模块.以π_s和π_a分别表示单元选择层和功率调整层的策略网络,其输入均为全局状态表征S_t.功率调整层的输出向量A_adj表示对每个电网节点的功率调整值a'₁~a'_N,单元选择层输出0-1向量A_sel,其中 $b_{i_{4}}$ =0代表该节点在当前时间步不参与调节, $b_{i_{4}}$ =1则代表参与调节,N为电网系统中全部可调节单元的数量.策略网络最终输出动作可表示为上述两个向量的按位乘积,表示为

(20)

\begin{array}{l} A_{a d j} = [\begin{array}{l} a'_{1} & a'_{2} & \dots & a'_{N} \end{array}] = π_{a} (S_{t}) \\ A_{s e l} = [\begin{array}{l} b_{1} & b_{2} & \dots & b_{N} \end{array}] = π_{s} (S_{t}) \\ b_{i_{4}} = 0, 1 \\ A = A_{s e l} ☉ A_{a d j} = [\begin{array}{l} a'_{1} b_{1} & a'_{2} b_{2} & \dots & a'_{N} b_{N} \end{array}] \end{array}\}

2.4 模型优化算法

使用确定性策略梯度(deep deterministic policy gradient,DDPG)^[29]算法进行训练,其中主要涉及策略网络与价值网络的优化.策略网络被分为单元选择层和功率调整层两层,其网络参数分别为θ_s和θ_a.策略网络的损失函数由两项组成,如下式所示:

(21)L_ϕ=L_ϕ₁+L_ϕ₂

L_ϕ₁=- $\frac{1}{m} \sum_{i_{9} = 1}^{m}$ Q( $S_{i_{9}}$ , π_s( $S_{i_{9}}$ |θ_s)☉π_a( $S_{i_{9}}$ |θ_a)|ϕ)
L_ϕ₂= $\sum_{i_{9} = 1}^{m}$ (∑_j[π_s( $S_{i_{9}}$ |θ_s)☉π_a( $S_{i_{9}}$ |θ_a)]_j+
∑_j[ $P_{g e n, i_{9}}$ ]_j+∑_j[ $P_{l o a d, i_{9}}$ ]_j)²

式中:L_ϕ₁代表价值网络输出的负值以保证期望奖励的最大化,其中m为单步更新所采用的数据批次大小,Q(·)为价值网络的输出, $S_{i_{9}}$ 为数据中i₉时刻的状态; L_ϕ₂为功率误差修正项,其中∑_j[x]_j表示对向量x内部各元素求和, $P_{g e n, i_{9}}$ 为第i₉时刻发电机组的输出功率向量, $P_{l o a d, i_{9}}$ 为i₉时刻负载的消纳向量.该修正项的意义在于使得模型在最大化期望奖励的同时,尽可能保持电网系统的功率注入和消纳全局平衡,以减少平衡机的负担.

价值网络Q_ϕ的损失函数如下式所示:

(22)

\begin{array}{l} L_{ϕ} = \frac{1}{m} \sum_{i_{9} = 1}^{m} (y_{i_{9}} - Q (S_{i_{9}}, A_{i_{9}} {|ϕ))}^{2} \\ y_{i_{9}} = R_{i_{9}} + γ (1 - d_{i_{9}}) Q {(S}_{i_{9} + 1}, \\ π_{s} {(S}_{i_{9}} | θ_{s}) ☉ π_{a} (S_{i_{9}} | θ_{a}) |ϕ) \end{array}\}

式中: $A_{i_{9}}$ 、 $R_{i_{9}}$ 分别为数据中第i₉时刻的动作和奖励; $d_{i_{9}}$ 为数据中i₉时刻是否为回合终止时刻.

3 实验验证

为了验证所提方法的有效性和鲁棒性,以欧洲CIGRE低压微电网系统^[30]以及中国某省级电网网架及其运行情况为实验对象,采用grid2op进行仿真.重点通过以下3项实验上开展所提方法的性能验证与结果分析:①验证StarHeart在综合目标函数上相比基线方法的性能提升;②验证所提两个新模块对于提升目标函数效果的增益幅度;③验证所提方法应对随机扰动的鲁棒性,例如在环境中模拟新能源出力快速突变等情况.

3.1 数据集

在IEEE-118标准算例、L2RPN-WCCI-2022比赛算例^[30]以及SG-126标准算例3个常用的标准算例数据集的电网运行仿真环境上对StarHeart算法开展实验验证,这些环境均包含高比例的新能源出力以及至少连续1年的收敛潮流断面数据.

IEEE-118标准算例参见https://grid2op.readthedocs.io/en/latest/.包括总线、支线、变电器、发电机、负载、平衡机等多种电网实例,网络共包含62个发电机,其中42个为新能源发电机,91个负载,118个总线,186个支线.其中,发电机包括火能、太阳能、风能等多种类型,新能源装机占比在60%以上.

L2RPN-WCCI-2022比赛算例^[30]参见https://l2rpn.chalearn.org/.网络拓扑与IEEE-118一致,区别在于增加了7个储能设备,同时添加站点维修、随机攻击等突发事件.算例数据中负载平均电量需求约为IEEE-118的1.4倍,线路压力长期保持较高水平,运行决策难度较大.

SG-126标准算例参见https://aistudio.baidu.com/aistudio/competition/detail/423/0/introduction.新能源装机占比超过30%,除了多种类型的发电机之外,该算例的可调节单元还包括储能设备和可调负载,具有更大的决策空间.此外SG-126算例还模拟了真实电网环境中线路阻塞、线路随机故障、天气变化等开放特性,进一步增加决策难度.

作为示例,图4展示了SG-126标准算例的电网拓扑图,该算例包含54个发电机组,其中18个为新能源机组,包括普通负载、可调节负载的91个负载以及5个储能设备、126条总线以及185条支线,共145个节点.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 SG-126标准算例的电网拓扑示意图

Fig.4 Power grid topology of SG-126 standard test case

3.2 评价指标

遵循Dorfer等^[31]的设置,在以累积奖励x_score作为评价指标的基础上,新增电网稳定运行轮数x_round为评价指标.计算方式分别如下式所示:

(23)

\begin{array}{l} x_{s c o r e} = \sum_{i = 1}^{l} R_{i} \\ x_{r o u n d} = l \end{array}\}

式中:l为单回合内模型运行的总时间步.在计算线路越限^[30]、机组运行成本^[30]、无功功率越限^[32]以及节点电压越线^[17]的基础上,增加新能源消纳占比和平衡机组越限两个子项^[33],并根据多个子项的线性加权和^[25]来综合评估电网运行的安全性、环保性以及经济性等.电网稳定运行轮数x_round为模型单个回合稳定运行的总轮数,反映电网运行的稳定性^[31].

3.3 基线方法

选取随机策略 (Random)、DDPG^[29]、PPO^[34]、A2C^[35]以及TD3^[36]等4个经典的强化学习算法与StarHeart方法比较,以验证方法的性能.

3.4 超参数设置

StarHeart算法中所涉及的关键超参数包括各参数的参数名、参数含义以及实验中的参数取值,如表1所示.

表1 模型超参数取值

Tab.1 Hyper-parameters of model

参数名	参数含义	参数取值
lr_actor	Actor模型初始学习率	1×10^-5
lr_critic	Critic模型初始学习率	1×10^-3
max_episode	训练总回合数	2×10⁵
batch_size	每批次训练样本大小	1 024
gradient_clip	梯度裁剪上限	1.0
init_action_std	动作随机探索噪声初始标准差	0.3
active_function	模型激活函数	Tanh
mlp_num_layers	Actor和Critic隐藏层数目	3
history_state_len	历史信息序列长度	25
gru_num_layers	GRU模型结构层数	2
gru_hidden_size	GRU模型隐藏层维度	64
gcn_hidden_size	GCN模型隐藏层维度	32
gcn_dropout	GCN模型舍弃率	0.1

新窗口打开| 下载CSV

3.5 实验结果与分析

3.5.1 训练结果对比与分析

表2展示了在3个算例数据集下,包括StarHeart和基线方法在内的性能评价,包括累积奖励x_score和电网稳定运行轮数x_round两项指标.图5为各算法训练的累积奖励x_score和电网稳定运行轮数x_round的收敛曲线.实验结果显示,StarHeart算法相对于最优的基线算法,显著提升了算法的收敛效果,在IEEE-118、L2RPN-WCCI-2022和SG-126这3个电网算例集上的稳定运行轮数分别提升163.9%、77.1%以及454.8%,平均提升约2.3倍;稳定、环保与经济等综合性能分别提升220.9%、31.5%以及525.6%,平均提升约2.6倍.

表2 各算例中算法性能评价(均值±方差)

Tab.2 Evaluation performance in all test cases(mean±variance)

算例	算法	x_score	x_round
IEEE-118	Random	-14.09±8.21	21.48±12.88
	DDPG	413.65±114.00	844.82±192.19
	TD3	497.57±65.75	919.82±89.09
	A2C	5.95±1.48	58.20±3.46
	PPO	5.68±1.39	56.34±3.06
	StarHeart	1327.24±103.59	2229.83±186.79
L2RPN-WCCI-2022	Random	-8.33±6.12	20.22±5.84
	DDPG	58.22±16.97	126.32±25.17
	TD3	46.51±11.35	100.96±19.60
	A2C	5.43±1.71	40.07±2.52
	PPO	6.46±3.23	39.71±2.33
	StarHeart	76.56±8.31	223.66±15.20
SG-126	Random	19.94±1.06	30.34±1.89
	DDPG	109.38±13.14	141.27±16.98
	TD3	251.59±27.26	371.75±34.36
	A2C	263.69±21.29	573.17±59.44
	PPO	150.36±44.69	262.03±72.14
	StarHeart	684.30±60.16	783.80±79.15

新窗口打开| 下载CSV

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 StarHeart与基线算法在多个算例集上的收敛曲线

Fig.5 Convergence curves of StarHeart and baseline algorithms in various environments

3.5.2 消融实验

通过消融状态上下文嵌入和自适应分层决策两个模块,验证模型的改进效果.如图6所示,选取SG-126标准样例集作为消融实验的仿真环境,并测试了原始算法 (StarHeart) 和移除自适应分层决策模块的算法 (StarHeart-H) 的训练效果.实验结果显示,自适应分层决策模块显著提升了原始模型的效果,其中平均累积奖励提升3.65倍,平均电网稳定运行轮数提升3.11倍.该结果表明,自适应分层决策模块有效降低了高维决策空间,能够准确识别影响潮流变化的关键节点,提升强化学习模型探索效率与收敛效果.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 自适应分层决策模块的消融实验

Fig.6 Ablation study of adaptive hierarchical decision-making module

如图7所示,将StarHeart算法与移除状态上下文嵌入模块的本文算法 (StarHeart-S) 进行对比,实验结果显示,状态上下文嵌入模块对模型的效果也具有显著的提升,使得模型的平均累积奖励提升38.91%,而平均电网稳定运行时长提升30.51%.该结果证明状态上下文嵌入模块有力解决了原始环境中的高维状态问题,有效提取了电网潮流、调节动作等之间的时空关联,为电网节点的调节提供充分的决策依据.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 状态上下文嵌入模块的消融实验

Fig.7 Ablation study of state context embedding module

3.5.3 鲁棒性测试

在上述消融实验的基础上,对StarHeart算法开展鲁棒性测试,测试算法在新能源出力快速突变情况下的性能.图8展示了无状态上下文嵌入模块的StarHeart算法在原环境设置(StarHeart-S) 和模拟的出力快速突变环境设置 (StarHeart-S-F) 的收敛曲线,图9为StarHeart算法在原始环境和模拟出力快速突变环境 (StarHeart-F) 的收敛曲线.实验结果显示,在缺少状态上下文嵌入模块时,模型在出力快速突变环境下的平均累积奖励和平均电网稳定运行时长分别降低12.00%和17.22%,而在加入状态上下文嵌入模块后,出力的快速突变扰动的引入仅使StarHeart模型的平均累积奖励降低5.66%,平均轮数降低1.32%.上述结果说明状态上下文嵌入模块对于克服环境的非平稳性具有积极效果.表3显示了消融实验和随机事件扰动实验中各算法累积奖励和运行轮数的平均最终收敛结果.

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 无状态上下文嵌入模块的StarHeart算法在两种环境设置下的实验结果

Fig.8 Experimental results of StarHeart without state context embedding module in two environment settings

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 带有状态上下文嵌入模块的StarHeart算法在两种环境设置下的实验结果

Fig.9 Experimental results of StarHeart with state context embedding module in two environment settings

表3 SG-126算例集仿真下的消融实验结果

Tab.3 Experimental results of ablation studies on SG-126 simulator

算法	x_score	x_round
StarHeart	684.30±60.16	783.80±79.15
StarHeart-H	147.19±19.14	190.53±21.40
StarHeart-S	492.61±39.98	600.59±56.17
StarHeart-F	725.34±71.32	794.29±79.32
StarHeart-S-F	551.72±46.98	704.03±74.17

新窗口打开| 下载CSV

4 结语

新型电力系统下电网在线运行调度是当今能源领域需要解决的重要问题.针对高比例新能源电网带来的高维决策空间的核心挑战,提出一种基于分层强化学习的在线调度框架StarHeart,利用状态上下文嵌入和自适应分层决策机制,降低状态和动作空间,解决高维决策空间的低效探索问题.广泛的实验证明,StarHeart方法将电网在线调度策略的有效性提高2.6倍,具有较强的鲁棒抗扰能力,为新型电力系统的自主稳定控制提供了新的解决方案.然而,电网的在线运行调度仍存在一些通用性与泛化性问题有待解决.例如,本文算法目前仅支持面向功率、电压等连续动作空间下的在线调度,尚未融合面向电网拓扑优化等离散动作空间.学习混合动作空间下的调度策略是未来优化的重要方向.另外,尽管本文算法在实验中仿真了线路阻塞、线路随机故障、天气变化等异常事件以模拟真实环境的开放特性,但这些事件都基于固定的分布随机生成,泛化到更复杂的真实电网环境中仍面临挑战.借助时序预测等算法建模未来突发事件,增强神经网络泛化能力,认知高风险的边缘状态可能是潜在的优化方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

王继业

人工智能赋能源网荷储协同互动的应用及展望

[J]. 中国电机工程学报, 2022, 42(21): 7667-7681.