近年来,可再生能源的广泛接入极大地促进电力系统的能源结构向清洁化、可持续化发展.受能源供给侧结构改革及2030年碳达峰目标的驱动,电网中可再生能源的比例将进一步增加.但随着可再生能源装机量不断增加[1 ] ,受机组输出功率波动性、随机性等特点[2 ] 的影响,频繁的潮流变化使得保持电网的平衡稳定成为一项具有挑战性的任务.
电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解.
然而,尽管目前基于强化学习的电网功率调节有初步的研究,但由于电网具有庞大、组合和非线性的性质,这些方法仍然难以在新型电力系统环境下学习到优质的调度策略.这是因为大量新能源机组、储能、可调负载等异构节点接入,源荷波动的不确定性陡增[22 ] ,状态、动作等决策空间也相应增长,高维决策空间使得潮流稳态难以保持.具体而言:第一,新型电力系统通常节点规模较大,涉及发电机组、负载、储能设备等异构节点的同步调节,形成典型的高维连续动作空间,决策空间指数级增长[23 ] ,而能保证潮流平衡稳定的动作组合占比极低,这种稀疏性使得电网通常会在几个时间步内快速失衡,智能体难以学习到优质的调度策略;第二,受可调负载、储能等设备接入及随机事件的影响,电网功率等参数的调度具有延迟影响,形成了具有复杂时空关联特征的高维状态空间.缺失复杂时空关联的建模使得智能体难以准确估计电网未来的供需变化,影响电网的平衡.
针对上述问题,提出一种新的分层强化学习方法StarHeart.首先,将电网功率的调度扩展为分层框架,上层模型根据电网运行状态自适应识别影响潮流稳定的关键节点,下层模型对上层模型选出的关键节点进行具体的运行参数调节,从而简化决策空间,提升强化学习的探索效率.进一步,建立基于门控循环单元(gated recurrent unit, GRU)模型的环境状态上下文感知模块,用以捕捉电网的时空运行特征,感知历史调控动作的延迟影响,预测供需变化,给出精准的环境状态表征以支撑调度决策.此外,在IEEE-118标准算例、L2RPN-WCCI-2022比赛算例以及SG-126标准算例上验证所提算法的有效性.实验结果显示,在包含大量新能源出力、储能、可调负载等异构设备的电网仿真环境中,相比现有深度强化学习算法综合性能提升超过2.6倍,并可显著提高电网稳定运行时长约2.3倍.
1 问题建模
本文所指的电网在线调度,是对固定时间窗口内各种不确定场景及组合进行推演,时间间隔通常为5或15 min,并实时在线给出最有可能发生场景的有功计划,包括发电计划及负荷调整计划、灵活机组开停机计划和运行方式调整安排等.同时,根据潜在风险进行安全校核和运行状态的自适应校正,从而保证新型电力系统的平稳运行,避免平衡机越限或潮流不收敛.
上述电网在线调度问题通常能够建模为一个马尔可夫决策过程 (S , A , P trans , R , γ ),并利用深度强化学习的方法求解. 其中S 为状态空间,A 为动作空间,P trans 为状态转移函数,R 为某一状态采取某一动作从环境获得的奖励,γ 为折扣因子. 相比传统方法将调度策略作为高维非线性规划问题求解,基于马尔可夫决策过程建模的方式更加适合新型电力系统高度复杂、动态和实时响应的特性,可以根据实时数据不断学习和调整决策策略,并应对突发扰动,可有效管理电力系统固有的不确定性和可变性. 本节给出电网在线调度问题中关于状态、动作、奖励和状态转移函数的形式化建模.
1.1 状态空间
电网环境状态是电网运行调度决策的核心依据. 将电网运行调度的决策依据归纳为如下式所示属性状态、拓扑结构以及状态上下文3类:
(1) S = [ X G C ] X = [ P Q V I o t h e r ] G = ( N , E )
式中:X 表示属性状态,代表电网系统各元件,如发电机、负载、储能以及线路等的各项属性,包括有功功率P 、无功功率Q 、电压V 以及线路损耗等其他信息Iother ;G 为拓扑状态,即电网系统在当前时刻的拓扑结构,包括节点特征矩阵N 和邻接矩阵E ;C 为电网状态的上下文信息,包含历史状态和动作组成的序列.
1.2 动作空间
针对开放环境下规模电网异构设备,包括源、网、荷、储等的协调互动等特性,主要针对发电机的有功功率调整值Δ Pgen ,可调负载的有功功率调整值Δ Pload 以及储能设备充放电功率调整值Δ Pstore 共3项运行参数进行调整. 因此,动作空间可用下式进行表示:
(2) A =[ΔP gen ΔP load ΔP store ]
1.3 奖励函数
电网在线调度需要根据电网实际需求设计不同调度目标,目标的构建直接决定决策策略优化的质量,以及决策模型在各类条件下的普适性与可扩展性. 通常情况下,在线调度的目标包含经济性、清洁性、风电消纳等多个维度,每个维度之间可能存在耦合关系且会受到各种不确定因素的影响. 此外,深度强化学习算法的反馈代价引导了策略网络离线训练时的参数更新方向,应能够直接反映在线调度目标的实现状况.
将电网调度窗口内的经济性、安全性、功率平衡、出力平滑等各类调度目标转换为代价函数,通过最小化目标代价满足调度需求. 其中,安全性代价指学习过程中调度智能体输出的调度指令输入到电网仿真运行环境时,通过潮流计算统计线路越限、平衡机越限、无功越限和节点电压越限等情况,具体包括以下几项.
(3) r1 =1- 1 n l i n e ∑ i 1 = 1 n l i n e min I i 1 T i 1 + ε , 1
式中:n line 为电网支线数目;I i 1 、T i 1 分别为支路i 1 的电流和热极限;ε =0. 1用于防止分母为0. 该惩罚项表示当电网运行中越多数量支路的电流接近甚至超过热极限时,给予相应调度动作的惩罚越高.
(4) r2 =- ∑ i 2 = 1 n b a l Δ p i 2 Δp i 2 =( p i 2 - p i 2 m a x ) / p i 2 m a x , p i 2 m a x ≤ p i 2 ≤ 1.1 p i 2 m a x ( p i 2 - p i 2 m i n ) / p i 2 m i n , 0.9 p i 2 m i n ≤ p i 2 ≤ p i 2 m i n 0 , 其 他
式中:nbal 为平衡机个数;p i 2 为第i 2 个平衡机的实际有功出力;p i 2 m a x 、p i 2 m i n 分别为平衡机i 2 的出力上下限.r 2 限制了平衡机出力的波动幅度,从而尽可能保证电网潮流的平稳性.
(5) r3 =- ∑ i 3 = 1 n g e n Δ q i 3 Δq i 3 =( q i 3 - q i 3 m a x ) / q i 3 m a x , q i 3 ≥ q i 3 m a x ( q i 3 - q i 3 m i n ) / q i 3 m i n , q i 3 ≤ q i 3 m i n 0 , 其 他
式中:ngen 为机组总个数;q i 3 为第i 3 个机组的实际无功出力;q i 3 m a x 、q i 3 m i n 分别为机组i 3 的无功出力上下限.
(6) r4 =- ∑ i 4 = 1 n s u b Δ v i 4 Δv i 4 =( v i 4 - v i 4 m a x ) / v i 4 m a x , v i 4 ≥ v i 4 m a x ( v i 4 - v i 4 m i n ) / v i 4 m i n , v i 4 ≤ v i 4 m i n 0 , 其 他
式中:nsub 为电网节点个数;v i 4 为第i 4 个节点的电压值;v i 4 m a x 、v i 4 m i n 为第i 4 分别个节点的电压上下限.
经济性代价指输出的在线调度计划中决策时刻t的各台机组运行费用、新能源消纳量等,具体包括如下几项.
(7) r5 = ∑ i 5 = 1 n n e w p i 5 n e w / ∑ i 5 = 1 n n e w p - i 5 n e w
式中:nnew 为新能源机组个数;p i 5 n e w 为新能源机组的实际有功出力;p - i 5 n e w 为第i 5 个新能源机组在当前时刻的最大出力. 当越多数量的新能源机组实际有功越接近其最大出力时,标识新能源消纳程度越高,环境给予智能体的奖励相应越高.
(8) $\begin{aligned}r_{6}= & -\frac{1}{\sum_{i_{6}=1}^{n_{\text {ld }}} p_{i_{6}}^{\text {ld }}} (a \sum_{i_{3}=1}^{n_{\text {gen }}} \Delta p_{i_{3}}^{\text {gen }}+b \sum_{i_{7}=1}^{n_{\text {adild }}} \Delta p_{i_{7}}^{\text {adild }}+ \\& c \sum_{i_{8}=1}^{n_{\text {sore }}} \Delta p_{i_{8}}^{\text {store }})\end{aligned}$
式中:nld 、nadjld 、nstore 分别为负载、可调负载以及储能设备的数目;p i 6 l d 为负载的有功功率;Δp i 3 g e n 、Δp i 7 a d j l d 、Δp i 8 s t o r e 分别为机组、可调负载、储能设备的有功调整绝对值;a 、b 、c 为权重系数,且a = 1, b = 1. 5, c = 2.
对上述各奖励项进行归一化,并结合在线调度目标的侧重进行加权取值,即为总体的奖励函数. 将时间步t 上的奖励函数Rt 定义为上述6个子项的加权和:
(9) Rt =a 1 r' 1 +a 2 r' 2 +a 3 r' 3 +a 4 r' 4 +a 5 r' 5 +a 6 r' 6
式中:a 1 ~a 6 为各子项奖励函数的权重系数,且a 1 =1, a 2 =2, a 3 =4, a 4 =1, a 5 =1, a 6 =1;r' 1 ~r' 6 代表归一化后的奖励子项.
1.4 状态转移函数
电网系统状态的不稳定性既受到调节操作的影响,也会受到环境随机因素的影响,例如线路随机断线故障和支路负荷越限故障等,因此将这些因素考虑在内,并基于此提出状态转移函数:
(10) St +1 =f (St , At , et )
式中:f 表示状态转移函数;St 、At 、et 分别为t 时刻的状态、动作和环境随机因素;St +1 为下一时刻的状态.
1.5 约束条件
电力系统的在线调度需要满足上下限约束、启停约束、爬坡约束3类约束条件,上下限约束主要包括以下几项.
(11) p i 3 m i n ≤ p i 3 ≤ p i 3 m a x
式中:p i 3 m a x 、p i 3 m i n 分别为第i 3 个机组的有功出力上下限;p i 3 为第i 3 个机组的有功出力. 其含义为电力系统内除平衡机外,任意机组的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限.
(12) pnew ≤ p n e w m a x
式中:pnew 为新能源机组的有功出力注入值;p n e w m a x 为新能源机组的最大出力值. 该约束的含义为新能源机组的有功出力注入值始终不能大于最大出力值.
(13) q i 3 m i n ≤ q i 3 ≤ q i 3 m a x
式(13)含义为电力系统内任意机组的无功出力值始终不能超过其上下限.
(14) v i 4 m i n ≤ v i 4 ≤ v i 4 m a x
(5) 支路越限约束. 若任一支路的电流值超过其热稳限值,表示该支路电流越限. 若支路电流越限但未超热稳限值的135% ,表示支路“软过载”;若支路电流超热稳限值的135% ,表示支路“硬过载”. 任意支路连续时长t发生“软过载”,则该支路停运;发生“硬过载”则支路立即停运. 支路停运16个时间步之后,重新投运.
(15) 0.9 p i 2 m a x ≤ p i 2 ≤1.1 p i 2 m a x
该约束条件用于分担控制策略不合理导致的系统不平衡功率. 潮流计算后,平衡机有功出力需不超过上限的110% ,并不低于下限的90%.
(16) Δp coal ≤g camp
式中:Δ pcoal 为火电机组的有功出力调整值;gcamp 为爬坡率. 式(16)含义为任意火电机组的有功出力调整值必须小于爬坡速率.
机组启停约束主要涉及火电机组的停运规则. 具体而言,机组停运前机组有功出力必须调整至出力下限,再调整至0. 机组停机后在连续时长t内不允许重新启动. 火电机组启动规则为机组开启前有功出力必须调整至出力下限. 机组重新启动后在连续时长t内不允许停机. 新能源机组和平衡机没有关机状态,一直保持开机. 火电机组的关机状态通过判断机组有功出力是否为0来确定.
2 基于分层强化学习的在线稳态调度框架
基于分层强化学习算法提出一种电网运行在线调度框架StarHeart ,如图1 所示,旨在解决高比例新能源机组接入导致的高维决策空间挑战. 该方法以Actor-Critic 算法结构为主体框架,利用状态上下文感知的时序表征嵌入机制和关键节点自适应优选的分层决策机制,有效缓解环境状态、动作空间的指数爆炸问题. 图中:st - L 、at - L 分别为t -L 时刻的状态和动作.
图1
图1
基于分层强化学习的在线稳态调度方法总体框架
Fig.1
Overall architecture of hierarchical reinforcement learning-based scheduling method
2.1 分层强化学习与Actor-Critic结构
2.1.1 分层强化学习
分层强化学习是一种解决多层次任务决策问题的强化学习方法,其主要思想是将决策任务分解为多个子问题或子任务,构建分层结构的两类智能体,使得原始决策问题形成“顶层- 底层”的两层结构[24 ] . 其中,顶层智能体π H 基于当前状态S 选择最佳子任务g =π H (s )来完成整体任务目标,底层智能体π L 则基于当前状态和上层目标输出每一步决策动作a =π L (s , g )以具体执行子任务. 在每一个子任务中,底层智能体以最大化该子任务的期望奖励为目标,即J (π L )=E [Rg (s , a )],Rg 为由子任务g 确定的奖励函数,而顶层智能体则以最大化分解的子任务的期望奖励为目标,即J (π H )=E [R (s , g )]. 相比传统的单层强化学习架构,分层强化学习通过层次分解,显著降低决策空间,能够有效提升决策效率. 分层强化学习已被广泛应用于游戏、电网等场景下的高维决策空间任务[25 - 27] .
2.1.2 Actor-Critic结构
Actor-Critic 是一类经典的深度强化学习算法结构,有效结合了传统强化学习方法中的策略梯度方法和值函数方法[23 ] . 在Actor-Critic 结构中,Actor 代表策略网络πθ (s |a ),负责学习策略,根据当前状态选择一个动作,并以最大化累积奖励为目标.Critic 代表价值网络Vϕ (s ),负责学习值函数,并通过估计当前状态的值函数来指导Actor 的决策.Actor 网络通过策略梯度更新模型参数:
θ ←θ +αθ (Vϕ (s )+r (s , a ))Δθ lg(s' |s , a )
Critic 网络则通过目标价值和预测价值之间的均方误差更新模型参数:
ϕ ←ϕ +αϕ Δϕ (r (s , a )+Vϕ (s' )-Vϕ (s ))2
其中s' 表示下一时刻的状态;r 为环境奖励;θ 、ϕ 分别为策略网络和价值网络的模型参数;αθ 、αϕ 分别为策略网络和价值网络的学习率.Actor-Critic 结构可以通过参数化策略函数来处理连续动作空间,具有更广泛的适用性,并且更容易适应高维状态空间. 所提方法以Actor-Critic 算法结构作为主体框架,引入状态上下文感知与自适应分层决策机制,以解决电网环境的高维空间的问题.
2.2 状态上下文感知的时序表征嵌入机制
环境状态是智能体决策的重要依据,状态表示的质量直接影响智能体的决策效果. 然而由于高比例新能源的接入,出力、潮流等变化存在极强的时空高维关联,所以电网运行存在极大不确定性. 传统基于单一时刻的运行状态表示方法无法准确建模高维时空特征,智能体难以捕捉供需和潮流的变化规律,容易导致决策模型失效. 因此,考虑引入状态上下文信息增强环境状态表征. 具体而言,环境状态在表征断面属性信息X 和拓扑结构信息G 的同时,额外引入节点的动作上下文特征C 以准确建模时空相关性,如图2 所示.
图2
图2
状态上下文嵌入模块的网络结构
Fig.2
Neural network structure of state context embedding module
针对属性状态信息Xt 和拓扑结构信息G =(N , E ),首先利用多层感知器(multilayer perceptron,MLP)和图卷积层(graph convolutional networks, GCN) [26 ] 融合提取属性信息浅层关联特征和结构关联特征:
(17) X ^ t = M L P ( X t ) O ^ t = G C N ( G , X t )
为了增强对于环境状态的表征能力,在融合属性信息和拓扑信息的基础上,引入状态上下文感知机制,提取电网潮流、供需等环境要素之间的内在时空关联. 利用GRU 表征历史潮流断面和历史调节动作等状态上下文时序嵌入[27 ] ,最小失真地建模环境状态转移.GRU 模型的输入为历史潮流断面以及历史调节动作序列Ht =(Xt - L , Xt - L +1 , …, Xt , At - L , At - L +1 , …, At ),t 时刻动作At 输出ht 为t 时刻的上下文嵌入特征,该特征向量由前一时刻的特征向量ht -1 迭代计算得到,具体计算过程为
(18) x t = [ X t , A t ] r t = σ ( W r [ h t - 1 , x t ] ) z t = σ ( W z [ h t - 1 , x t ] ) h ~ t = t a n h ( W h [ r t ☉ h t - 1 , x t ] ) h t = ( 1 - z t ) ☉ h t - 1 + z t ☉ h ~ t
式中:Xt 为t 时刻的潮流断面内,电网各元件的各项属性状态;σ 为激活函数;tanh 为双曲正切函数;rt 、zt 分别为GRU 结构中重置门信号和更新门信号;Wr 、Wz 分别为重置门和更新门的权重矩阵;[·]表示向量拼接算子;☉表示矩阵按位乘运算.
最终将属性特征X ^ t 、结构特征Ot 以及时序关联特征ht 进行拼接,作为全局状态表征St 输入到分层决策模型,如下:
(19) St =[X ^ t Ot ht ]
2.3 关键节点自适应优选的分层决策机制
高比例新能源电网通常包括大规模的出力、负载以及储能节点,其决策空间随着节点数量和属性维度呈指数级增长,是典型的高维连续决策空间. 在单个时间步内对所有节点进行全量调节会导致电网潮流在短时间内迅速失衡,使智能体难以获取优质的电网调节经验,进而难以进行策略学习与优化.
受文献[28 ]中基于高频动作筛选以缩小大规模离散动作空间的启发,针对高维连续的电网调节动作空间,设计一种如图3 所示的自适应的分层决策机制. 该机制将电网中全部可调节单元的调整值生成过程解耦为两个层次:单元选择层和功率调整层. 其中,单元选择层根据电网的运行状态自适应地识别关键节点,并选取这些关键节点作为功率调整的动作空间,有效降低决策空间的维度. 功率调整层则聚焦于单元选择层中输出的关键电网节点,生成这些关键节点的具体功率调整值,即图中数值.
图3
图3
关键节点自适应优选的分层决策机制
Fig.3
Hierarchical decision-making mechanism for adaptive and optimal critical node selection
如2. 2节所述,通过改进传统Actor-Critic 模型架构,构建两个Actor 策略网络,分别用来建模单元选择层和功率调整层,实现了自适应分层决策模块. 以πs 和πa 分别表示单元选择层和功率调整层的策略网络,其输入均为全局状态表征St . 功率调整层的输出向量A adj 表示对每个电网节点的功率调整值a' 1 ~a'N ,单元选择层输出0- 1向量A sel ,其中 b i 4 =0代表该节点在当前时间步不参与调节,b i 4 =1则代表参与调节,N 为电网系统中全部可调节单元的数量. 策略网络最终输出动作可表示为上述两个向量的按位乘积,表示为
(20) A a d j = a ' 1 a ' 2 … a ' N = π a ( S t ) A s e l = b 1 b 2 … b N = π s ( S t ) b i 4 = 0 , 1 A = A s e l ☉ A a d j = a ' 1 b 1 a ' 2 b 2 … a ' N b N
2.4 模型优化算法
使用确定性策略梯度(deep deterministic policy gradient ,DDPG )[29 ] 算法进行训练,其中主要涉及策略网络与价值网络的优化. 策略网络被分为单元选择层和功率调整层两层,其网络参数分别为θs 和θa . 策略网络的损失函数由两项组成,如下式所示:
(21) Lϕ =Lϕ 1 +Lϕ 2
Lϕ 1 =-1 m ∑ i 9 = 1 m Q (S i 9 , πs (S i 9 |θs )☉πa (S i 9 |θa )|ϕ )Lϕ 2 =∑ i 9 = 1 m ( ∑j [πs (S i 9 |θs )☉πa (S i 9 |θa )]j + ∑j [P g e n , i 9 ]j +∑j [P l o a d , i 9 ]j )2
式中:Lϕ 1 代表价值网络输出的负值以保证期望奖励的最大化,其中m 为单步更新所采用的数据批次大小,Q (·)为价值网络的输出,S i 9 为数据中i 9 时刻的状态; Lϕ 2 为功率误差修正项,其中∑j [x ]j 表示对向量x 内部各元素求和,P g e n , i 9 为第i 9 时刻发电机组的输出功率向量,P l o a d , i 9 为i 9 时刻负载的消纳向量. 该修正项的意义在于使得模型在最大化期望奖励的同时,尽可能保持电网系统的功率注入和消纳全局平衡,以减少平衡机的负担.
(22) L ϕ = 1 m ∑ i 9 = 1 m ( y i 9 - Q ( S i 9 , A i 9 ϕ ) ) 2 y i 9 = R i 9 + γ ( 1 - d i 9 ) Q (S i 9 + 1 , π s (S i 9 | θ s ) ☉ π a ( S i 9 | θ a ) ϕ )
式中:A i 9 、R i 9 分别为数据中第i 9 时刻的动作和奖励;d i 9 为数据中i 9 时刻是否为回合终止时刻.
3 实验验证
为了验证所提方法的有效性和鲁棒性,以欧洲CIGRE 低压微电网系统[30 ] 以及中国某省级电网网架及其运行情况为实验对象,采用grid 2op 进行仿真. 重点通过以下3项实验上开展所提方法的性能验证与结果分析:①验证StarHeart 在综合目标函数上相比基线方法的性能提升;②验证所提两个新模块对于提升目标函数效果的增益幅度;③验证所提方法应对随机扰动的鲁棒性,例如在环境中模拟新能源出力快速突变等情况.
3.1 数据集
在IEEE- 118标准算例、L 2RPN-WCCI- 2022比赛算例[30 ] 以及SG- 126标准算例3个常用的标准算例数据集的电网运行仿真环境上对StarHeart 算法开展实验验证,这些环境均包含高比例的新能源出力以及至少连续1年的收敛潮流断面数据.
IEEE- 118标准算例参见https ://grid 2op.readthedocs.io/en/latest/. 包括总线、支线、变电器、发电机、负载、平衡机等多种电网实例,网络共包含62个发电机,其中42个为新能源发电机,91个负载,118个总线,186个支线. 其中,发电机包括火能、太阳能、风能等多种类型,新能源装机占比在60% 以上.
L 2RPN-WCCI- 2022比赛算例[30 ] 参见https ://l 2rpn.chalearn.org/. 网络拓扑与IEEE- 118一致,区别在于增加了7个储能设备,同时添加站点维修、随机攻击等突发事件. 算例数据中负载平均电量需求约为IEEE- 118的1. 4倍,线路压力长期保持较高水平,运行决策难度较大.
SG- 126标准算例参见https ://aistudio.baidu.com/aistudio/competition/detail/ 423/ 0/introduction. 新能源装机占比超过30% ,除了多种类型的发电机之外,该算例的可调节单元还包括储能设备和可调负载,具有更大的决策空间. 此外SG- 126算例还模拟了真实电网环境中线路阻塞、线路随机故障、天气变化等开放特性,进一步增加决策难度.
作为示例,图4 展示了SG- 126标准算例的电网拓扑图,该算例包含54个发电机组,其中18个为新能源机组,包括普通负载、可调节负载的91个负载以及5个储能设备、126条总线以及185条支线,共145个节点.
图4
图4
SG-126标准算例的电网拓扑示意图
Fig.4
Power grid topology of SG-126 standard test case
3.2 评价指标
遵循Dorfer 等[31 ] 的设置,在以累积奖励xscore 作为评价指标的基础上,新增电网稳定运行轮数xround 为评价指标. 计算方式分别如下式所示:
(23) x s c o r e = ∑ i = 1 l R i x r o u n d = l
式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] .
3.3 基线方法
选取随机策略 (Random )、DDPG [29 ] 、PPO [34 ] 、A 2C [35 ] 以及TD 3[36 ] 等4个经典的强化学习算法与StarHeart 方法比较,以验证方法的性能.
3.4 超参数设置
StarHeart 算法中所涉及的关键超参数包括各参数的参数名、参数含义以及实验中的参数取值,如表1 所示.
3.5 实验结果与分析
3.5.1 训练结果对比与分析
表2 展示了在3个算例数据集下,包括StarHeart和基线方法在内的性能评价,包括累积奖励x score 和电网稳定运行轮数x round 两项指标.图5 为各算法训练的累积奖励x score 和电网稳定运行轮数x round 的收敛曲线.实验结果显示,StarHeart算法相对于最优的基线算法,显著提升了算法的收敛效果,在IEEE-118、L2RPN-WCCI-2022和SG-126这3个电网算例集上的稳定运行轮数分别提升163.9%、77.1%以及454.8%,平均提升约2.3倍;稳定、环保与经济等综合性能分别提升220.9%、31.5%以及525.6%,平均提升约2.6倍.
图5
图5
StarHeart与基线算法在多个算例集上的收敛曲线
Fig.5
Convergence curves of StarHeart and baseline algorithms in various environments
3.5.2 消融实验
通过消融状态上下文嵌入和自适应分层决策两个模块,验证模型的改进效果.如图6 所示,选取SG-126标准样例集作为消融实验的仿真环境,并测试了原始算法 (StarHeart) 和移除自适应分层决策模块的算法 (StarHeart-H) 的训练效果.实验结果显示,自适应分层决策模块显著提升了原始模型的效果,其中平均累积奖励提升3.65倍,平均电网稳定运行轮数提升3.11倍.该结果表明,自适应分层决策模块有效降低了高维决策空间,能够准确识别影响潮流变化的关键节点,提升强化学习模型探索效率与收敛效果.
图6
图6
自适应分层决策模块的消融实验
Fig.6
Ablation study of adaptive hierarchical decision-making module
如图7 所示,将StarHeart算法与移除状态上下文嵌入模块的本文算法 (StarHeart-S) 进行对比,实验结果显示,状态上下文嵌入模块对模型的效果也具有显著的提升,使得模型的平均累积奖励提升38.91%,而平均电网稳定运行时长提升30.51%.该结果证明状态上下文嵌入模块有力解决了原始环境中的高维状态问题,有效提取了电网潮流、调节动作等之间的时空关联,为电网节点的调节提供充分的决策依据.
图7
图7
状态上下文嵌入模块的消融实验
Fig.7
Ablation study of state context embedding module
3.5.3 鲁棒性测试
在上述消融实验的基础上,对StarHeart算法开展鲁棒性测试,测试算法在新能源出力快速突变情况下的性能.图8 展示了无状态上下文嵌入模块的StarHeart算法在原环境设置(StarHeart-S) 和模拟的出力快速突变环境设置 (StarHeart-S-F) 的收敛曲线,图9 为StarHeart算法在原始环境和模拟出力快速突变环境 (StarHeart-F) 的收敛曲线.实验结果显示,在缺少状态上下文嵌入模块时,模型在出力快速突变环境下的平均累积奖励和平均电网稳定运行时长分别降低12.00%和17.22%,而在加入状态上下文嵌入模块后,出力的快速突变扰动的引入仅使StarHeart模型的平均累积奖励降低5.66%,平均轮数降低1.32%.上述结果说明状态上下文嵌入模块对于克服环境的非平稳性具有积极效果.表3 显示了消融实验和随机事件扰动实验中各算法累积奖励和运行轮数的平均最终收敛结果.
图8
图8
无状态上下文嵌入模块的StarHeart算法在两种环境设置下的实验结果
Fig.8
Experimental results of StarHeart without state context embedding module in two environment settings
图9
图9
带有状态上下文嵌入模块的StarHeart算法在两种环境设置下的实验结果
Fig.9
Experimental results of StarHeart with state context embedding module in two environment settings
4 结语
新型电力系统下电网在线运行调度是当今能源领域需要解决的重要问题.针对高比例新能源电网带来的高维决策空间的核心挑战,提出一种基于分层强化学习的在线调度框架StarHeart,利用状态上下文嵌入和自适应分层决策机制,降低状态和动作空间,解决高维决策空间的低效探索问题.广泛的实验证明,StarHeart方法将电网在线调度策略的有效性提高2.6倍,具有较强的鲁棒抗扰能力,为新型电力系统的自主稳定控制提供了新的解决方案.然而,电网的在线运行调度仍存在一些通用性与泛化性问题有待解决.例如,本文算法目前仅支持面向功率、电压等连续动作空间下的在线调度,尚未融合面向电网拓扑优化等离散动作空间.学习混合动作空间下的调度策略是未来优化的重要方向.另外,尽管本文算法在实验中仿真了线路阻塞、线路随机故障、天气变化等异常事件以模拟真实环境的开放特性,但这些事件都基于固定的分布随机生成,泛化到更复杂的真实电网环境中仍面临挑战.借助时序预测等算法建模未来突发事件,增强神经网络泛化能力,认知高风险的边缘状态可能是潜在的优化方向.
参考文献
View Option
[1]
王继业 . 人工智能赋能源网荷储协同互动的应用及展望
[J]. 中国电机工程学报 , 2022 , 42 (21 ): 7667 -7681 .
[本文引用: 1]
WANG Jiye . Application and prospect of source-grid-load-storage coordination enabled by artificial intelligence
[J]. Proceedings of the CSEE , 2022 , 42 (21 ): 7667 -7681 .
[本文引用: 1]
[2]
叶志亮 , 黎灿兵 , 张勇军 , 等 . 含高比例气象敏感可再生能源电网日前调度时间颗粒度优化
[J]. 上海交通大学学报 , 2023 , 57 (7 ): 781 -790 .
DOI:10.16183/j.cnki.jsjtu.2022.277
[本文引用: 1]
调度计划的时间颗粒度指调度计划中每个时段长度.随着气象敏感可再生能源占比的提高,调度时段内电网净负荷的波动性显著增强,造成系统爬坡能力不足、频率异常等风险.因此,不同可再生能源渗透率下时间颗粒度的设置成为当前迫切需要解决的问题.提出基于全局灵敏度的日前调度时间颗粒度优化方法,采用Sobol'方法和多项式混沌展开的全局灵敏度方法量化不同时间颗粒度下净负荷波动性、不确定性对优化调度影响,在精细化程度和负荷预测准确率之间取得一种平衡,选择合适的时间颗粒度使优化调度效果最优.分析和仿真结果表明:时间颗粒度的选择主要由净负荷波动率决定,依据净负荷波动率选择合适时间颗粒度,使得不平衡功率最小化,可达到提升优化调度效果和降低调度成本的目的.
YE Zhiliang , LI Canbing , ZHANG Yongjun , et al . Optimization of day-ahead dispatch time resolution in power system with a high proportion of climate-sensitive renewable energy sources
[J]. Journal of Shanghai Jiao Tong University , 2023 , 57 (7 ): 781 -790 .
[本文引用: 1]
[3]
RIFFONNEAU Y , BACHA S , BARRUEL F , et al . Optimal power flow management for grid connected PV systems with batteries
[J]. IEEE Transactions on Sustainable Energy , 2011 , 2 (3 ): 309 -320 .
[本文引用: 1]
[4]
AN L N , QUOC-TUAN T . Optimal energy management for grid connected microgrid by using dynamic programming method [C]//2015 IEEE Power & Energy Society General Meeting. Denver, USA : IEEE , 2015 : 1 -5 .
[本文引用: 1]
[5]
李鹏 , 王加浩 , 黎灿兵 , 等 . 计及源荷不确定性与设备变工况特性的园区综合能源系统协同优化运行方法
[J]. 中国电机工程学报 , 2023 , 43 (20 ): 7802 -7811 .
[本文引用: 1]
LI Peng , WANG Jiahao , LI Canbing , et al . Collaborative optimal scheduling of the community integrated energy system considering source-load uncertainty and equipment off-design performance
[J]. Proceedings of the CSEE , 2023 , 43 (20 ): 7802 -7811 .
[本文引用: 1]
[6]
GUO Y F , WU Q W , GAO H L , et al . Double-time-scale coordinated voltage control in active distribution networks based on MPC
[J]. IEEE Transactions on Sustainable Energy , 2020 , 11 (1 ): 294 -303 .
[本文引用: 1]
[7]
陈雨婷 , 赵毅 , 吴俊达 , 等 . 考虑碳排放指标的配电网经济调度方法
[J]. 上海交通大学学报 , 2023 , 57 (4 ): 442 -451 .
DOI:10.16183/j.cnki.jsjtu.2021.482
[本文引用: 1]
碳中和愿景下二氧化碳排放配额指标逐步递减,清洁电源必将超高比例渗透,传统配电网调度模式需解决碳排放达标与清洁电源强间歇性平抑等问题.在分析碳排放指标与电功率经济成本耦合关系的基础上,提出未来态配电网碳电耦合新型调度模型,针对系统运行碳排放成本递增若干场景,基于二阶锥规划模型提出配电网优化调度策略,设置不同的碳排放成本区间及并网容量区间,在改进的IEEE 33节点系统验证了方法的有效性,算例结果表明:在特定的成本区间内,配电网的发电行为随之变化,所提方法能够有效应用于双碳目标下的配电网经济调度中,提高配电网稳定性,促进清洁能源消纳.
CHEN Yuting , ZHAO Yi , WU Junda , et al . Economic dispatch method of distribution network considering carbon emission index
[J]. Journal of Shanghai Jiao Tong University , 2023 , 57 (4 ): 442 -451 .
[本文引用: 1]
[8]
戚艳 , 尚学军 , 聂靖宇 , 等 . 基于改进多目标灰狼算法的冷热电联供型微电网运行优化
[J]. 电测与仪表 , 2022 , 59 (6 ): 12 -19 .
[本文引用: 1]
QI Yan , SHANG Xuejun , NIE Jingyu , et al . Optimization of CCHP micro-grid operation based on improved multi-objective grey wolf algorithm
[J]. Electrical Measurement & Instrumentation , 2022 , 59 (6 ): 12 -19 .
[本文引用: 1]
[9]
刘新苗 , 李卓环 , 曾凯文 , 等 . 基于集群负荷预测的主动配电网多目标优化调度
[J]. 电测与仪表 , 2021 , 58 (5 ): 98 -104 .
[本文引用: 1]
LIU Xinmiao , LI Zhuohuan , ZENG Kaiwen , et al . Multi-objective optimal dispatching of active distribution network based on cluster load prediction
[J]. Electrical Measurement & Instrumentation , 2021 , 58 (5 ): 98 -104 .
[本文引用: 1]
[10]
HIJJO M , FELGNER F , FREY G . PV-Battery-Diesel microgrid layout design based on stochastic optimization [C]//2017 6th International Conference on Clean Electrical Power. Santa Margherita Ligure, Italy : IEEE , 2017 : 30 -35 .
[本文引用: 1]
[11]
潘险险 , 陈霆威 , 许志恒 , 等 . 适应多场景的微电网一体化柔性规划方法
[J]. 上海交通大学学报 , 2022 , 56 (12 ): 1598 -1607 .
DOI:10.16183/j.cnki.jsjtu.2021.402
[本文引用: 1]
为了提高微电网建设运维的经济性,满足多种不同类型微电网对可靠性的个性化需求,提出一种适应多场景的微电网一体化柔性规划方法.以类型与组成判断结果为依据,建立包含容量规划与网架规划的双层模型.下层容量规划以微源建设运行成本最小为目标,采用混合整数优化算法求解;上层网架规划以网络建设运行成本最小为目标,采用粒子群算法求解,形成了组成判断-容量规划-网架规划的闭环一体化规划系统.系统可通过灵活调整独立运行持续时间约束以及对负荷停电重视程度参数,满足不同微电网对可靠性的个性化需求.算例表明:所提方法可有效降低微电网的建设运维成本,对多种类型与组成、多种可靠性需求的场景均具有良好的适应性.
PAN Xianxian , CHEN Tingwei , XU Zhiheng , et al . A multi-scenario integrated flexible planning method for microgrid
[J]. Journal of Shanghai Jiao Tong University , 2022 , 56 (12 ): 1598 -1607 .
[本文引用: 1]
[12]
符杨 , 丁枳尹 , 米阳 . 计及储能调节的时滞互联电力系统频率控制
[J]. 上海交通大学学报 , 2022 , 56 (9 ): 1128 -1138 .
DOI:10.16183/j.cnki.jsjtu.2022.145
[本文引用: 1]
针对互联电力系统中源荷不确定以及通信延时导致系统频率偏差过大的问题,提出了计及储能调节的两域时滞电力系统频率控制策略.建立了含汽轮发电机、风机和储能等设备的两区域时滞互联电网模型,根据区域控制偏差(ACE) 所在的区间对储能装置和汽轮发电机的调频任务进行分工.利用改进粒子群(MPSO)算法优化比例积分微分(PID)负荷频率控制器实现二次调频,提升了一定时滞区间内负荷频率控制(LFC)系统的频率稳定性.对储能装置设计分数阶PID(FOPID)控制器,调节其输出功率以平滑源荷波动,提高了储能系统的辅助调频性能,进一步控制互联电力系统的频率偏差.在MATLAB/Simulink平台对不同工况进行对比分析,验证了所提频率控制策略的有效性.
FU Yang , DING Zhiyin , MI Yang . Frequency control strategy for interconnected power systems with time delay considering optimal energy storage regulation
[J]. Journal of Shanghai Jiao Tong University , 2022 , 56 (9 ): 1128 -1138 .
[本文引用: 1]
[13]
李珂 , 邰能灵 , 张沈习 . 基于改进粒子群算法的配电网综合运行优化
[J]. 上海交通大学学报 , 2017 , 51 (8 ): 897 -902 .
DOI:10.16183/j.cnki.jsjtu.2017.08.001
[本文引用: 1]
在无功优化、分布式电源(DG)有功优化和网络重构协同的条件下,以有功网损最小为目标函数、多种电气限制和网络拓扑结构为约束条件建立了配电网综合运行优化模型;针对基本粒子群算法容易陷入局部最优、收敛速度慢等缺点,提出一种改进的粒子群(IPSO)算法,并将其用于求解配电网综合运行优化模型.结果表明,所建配电网综合运行优化模型能够同时优化补偿电容器投切容量、有载调压变压器变比、DG出力和网络开关状态,从而获得配电网的最佳运行状态.同时,通过IEEE 33节点配电网算例的仿真结果验证了配电网综合运行优化模型的有效性和IPSO算法的高效性.
LI Ke , TAI Nengling , ZHANG Shenxi . Comprehensive optimal dispatch of distribution network based on improved particle swarm optimization algorithm
[J]. Journal of Shanghai Jiao Tong University , 2017 , 51 (8 ): 897 -902 .
[本文引用: 1]
[14]
BADAWY M O , SOZER Y . Power flow management of a grid tied PV-battery system for electric vehicles charging
[J]. IEEE Transactions on Industry Applications , 2017 , 53 (2 ): 1347 -1357 .
[本文引用: 1]
[15]
ERICK A O , FOLLY K A . Reinforcement learning approaches to power management in grid-tied microgrids: A review [C]//2020 Clemson University Power Systems Conference. Clemson, USA : IEEE , 2020 : 1 -6 .
[本文引用: 1]
[16]
JI Y , WANG J H , XU J C , et al . Real-time energy management of a microgrid using deep reinforcement learning
[J]. Energies , 2019 , 12 (12 ): 2291 .
[本文引用: 1]
[17]
余涛 , 刘靖 , 胡细兵 . 基于分布式多步回溯Q (λ )学习的复杂电网最优潮流算法
[J]. 电工技术学报 , 2012 , 27 (4 ): 185 -192 .
[本文引用: 2]
YU Tao , LIU Jing , HU Xibing . Optimal power flow for complex power grid using distributed multi-step backtrack Q (λ ) learning
[J]. Transactions of China Electrotechnical Society , 2012 , 27 (4 ): 185 -192 .
[本文引用: 2]
[18]
WEI Y F , ZHANG Z Q , YU F R , et al . Power allocation in HetNets with hybrid energy supply using actor-critic reinforcement learning [C]//GLOBECOM 2017-2017 IEEE Global Communications Conference. Singapore : IEEE , 2017 : 1 -5 .
[本文引用: 1]
[19]
朱介北 , 徐思旸 , 李炳森 , 等 . 基于电网专家策略模仿学习的新型电力系统实时调度
[J]. 电网技术 , 2023 , 47 (2 ): 517 -530 .
[本文引用: 1]
ZHU Jiebei , XU Siyang , LI Bingsen , et al . Real-time security dispatch of modern power system based on grid expert strategy imitation learning
[J]. Power System Technology , 2023 , 47 (2 ): 517 -530 .
[本文引用: 1]
[20]
HU J X , YE Y J , TANG Y , et al . Towards risk-aware real-time security constrained economic dispatch: A tailored deep reinforcement learning approach
[J]. IEEE Transactions on Power Systems , 2024 , 39 (2 ): 3972 -3986 .
[本文引用: 1]
[21]
CUI H , YE Y J , HU J X , et al . Online preventive control for transmission overload relief using safe reinforcement learning with enhanced spatial-temporal awareness
[J]. IEEE Transactions on Power Systems , 2024 , 39 (1 ): 517 -532 .
[本文引用: 1]
[22]
俞发强 , 张名捷 , 程语 , 等 . 需求响应下的并网型风-光-沼微能源网优化配置
[J]. 上海交通大学学报 , 2023 , 57 (1 ): 10 -16 .
DOI:10.16183/j.cnki.jsjtu.2022.017
[本文引用: 1]
我国农村地区存在丰富的生物质资源,可通过发酵系统将其转化为沼气能加以利用.然而,沼气工程的产出以沼气为主,经济效益普遍较低,难以推广.提出一种由多种可再生能源构成的并网风-光-沼微能源网,利用太阳能、风能和沼气之间的互补性,为用户提供沼气和电力.根据微生物发酵动力学模型和沼气发酵的温敏特性,对沼气的类储能特性进行建模.同时考虑需求侧响应进一步增加系统灵活性,利用分时电价节省购电成本,从而将投资成本和年度运行成本降至最低.案例研究表明,该风-光-沼微能源网可稳定地向用户提供电力;并且通过参与需求响应,可使得投资成本降低3%~9%的情况下年收益增加127%~240%.
YU Faqiang , ZHANG Mingjie , CHENG Yu , et al . Optimal sizing of grid-connected wind-solar-biogas integrated energy system considering demand response
[J]. Journal of Shanghai Jiao Tong University , 2023 , 57 (1 ): 10 -16 .
[本文引用: 1]
[23]
ARULKUMARAN K , DEISENROTH M P , BRUNDAGE M , et al . Deep reinforcement learning: A brief survey
[J]. IEEE Signal Processing Magazine , 2017 , 34 (6 ): 26 -38 .
[本文引用: 2]
[24]
PATERIA S , SUBAGDJA B , TAN A H , et al . Hierarchical reinforcement learning
[J]. ACM Computing Surveys , 2022 , 54 (5 ): 1 -35 .
[本文引用: 1]
[25]
YOON D , HONG S , LEE B J , et al . Winning the l2RPN challenge: Power grid management via semi-markov afterstate actor-critic [C]//The Ninth International Conference on Learning Representations. Vienna, Austria : ICLR , 2021 : 1 -18 .
[本文引用: 1]
[26]
KIPF T , WELLING M . Semi-supervised classification with graph convolutional networks [DB/OL]. (2017-02-22)[2023-07-22]. https://arxiv.org/abs/1609.02907.pdf.
URL
[本文引用: 1]
[27]
WU L Z , KONG C , HAO X H , et al . A short-term load forecasting method based on GRU-CNN hybrid neural network model
[J]. Mathematical Problems in Engineering , 2020 , 2020 : 1428104 .
[本文引用: 1]
[28]
LAN T , DUAN J J , ZHANG B , et al . AI-based autonomous line flow control via topology adjustment for maximizing time-series ATCs [C]//2020 IEEE Power & Energy Society General Meeting. Montreal, Canada : IEEE , 2020 : 1 -5 .
[本文引用: 1]
[29]
LILLICRAP T P , HUNT J J , PRITZEL A , et al . Continuous control with deep reinforcement learning [DB/OL]. (2015-09-09)[2023-07-22]. http://arxiv.org/abs/1509.02971v6.
URL
[本文引用: 2]
[30]
SERRÉ G , BOGUSLAWSKI E , DONNOT B , et al . Reinforcement learning for Energies of the future and carbon neutrality: A challenge design [DB/OL]. (2022-07-21) [2023-07-22]. http://arxiv.org/abs/2207.10330v1.
URL
[本文引用: 5]
[31]
DORFER M , FUXJÄGER A R , KOZÁK K , et al . Power grid congestion management via topology optimization with AlphaZero [DB/OL]. (2022-11-10)[2023-07-22]. https://arxiv.org/abs/2211.05612.pdf.
URL
[本文引用: 2]
[32]
季颖 , 王建辉 . 基于深度强化学习的微电网在线优化调度
[J]. 控制与决策 , 2022 , 37 (7 ): 1675 -1684 .
[本文引用: 1]
JI Ying , WANG Jianhui . Online optimal scheduling of a microgrid based on deep reinforcement learning
[J]. Control & Decision , 2022 , 37 (7 ): 1675 -1684 .
[本文引用: 1]
[33]
王甜婧 , 汤涌 , 郭强 , 等 . 基于知识经验和深度强化学习的大电网潮流计算收敛自动调整方法
[J]. 中国电机工程学报 , 2020 , 40 (8 ): 2396 -2405 .
[本文引用: 1]
WANG Tianjing , TANG Yong , GUO Qiang , et al . Automatic adjustment method of power flow calculation convergence for large-scale power grid based on knowledge experience and deep reinforcement learning
[J]. Proceedings of the CSEE , 2020 , 40 (8 ): 2396 -2405 .
[本文引用: 1]
[34]
SCHULMAN J , WOLSKI F , DHARIWAL P , et al . Proximal policy optimization algorithms [DB/OL]. (2017-07-20)[2023-07-22]. http://arxiv.org/abs/1707.06347v2.
URL
[本文引用: 1]
[35]
HAARNOJA T , ZHOU A , ABBEEL P , et al . Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [DB/OL]. (2018-01-04) [2023-07-22]. http://arxiv.org/abs/1801.01290v2.
URL
[本文引用: 1]
[36]
FUJIMOTO S , VAN HOOF H , MEGER D . Addressing function approximation error in actor-critic methods [DB/OL]. (2018-02-26)[2023-07-22]. http://arxiv.org/abs/1802.09477v3.
URL
[本文引用: 1]
人工智能赋能源网荷储协同互动的应用及展望
1
2022
... 近年来,可再生能源的广泛接入极大地促进电力系统的能源结构向清洁化、可持续化发展.受能源供给侧结构改革及2030年碳达峰目标的驱动,电网中可再生能源的比例将进一步增加.但随着可再生能源装机量不断增加[1 ] ,受机组输出功率波动性、随机性等特点[2 ] 的影响,频繁的潮流变化使得保持电网的平衡稳定成为一项具有挑战性的任务. ...
Application and prospect of source-grid-load-storage coordination enabled by artificial intelligence
1
2022
... 近年来,可再生能源的广泛接入极大地促进电力系统的能源结构向清洁化、可持续化发展.受能源供给侧结构改革及2030年碳达峰目标的驱动,电网中可再生能源的比例将进一步增加.但随着可再生能源装机量不断增加[1 ] ,受机组输出功率波动性、随机性等特点[2 ] 的影响,频繁的潮流变化使得保持电网的平衡稳定成为一项具有挑战性的任务. ...
含高比例气象敏感可再生能源电网日前调度时间颗粒度优化
1
2023
... 近年来,可再生能源的广泛接入极大地促进电力系统的能源结构向清洁化、可持续化发展.受能源供给侧结构改革及2030年碳达峰目标的驱动,电网中可再生能源的比例将进一步增加.但随着可再生能源装机量不断增加[1 ] ,受机组输出功率波动性、随机性等特点[2 ] 的影响,频繁的潮流变化使得保持电网的平衡稳定成为一项具有挑战性的任务. ...
Optimization of day-ahead dispatch time resolution in power system with a high proportion of climate-sensitive renewable energy sources
1
2023
... 近年来,可再生能源的广泛接入极大地促进电力系统的能源结构向清洁化、可持续化发展.受能源供给侧结构改革及2030年碳达峰目标的驱动,电网中可再生能源的比例将进一步增加.但随着可再生能源装机量不断增加[1 ] ,受机组输出功率波动性、随机性等特点[2 ] 的影响,频繁的潮流变化使得保持电网的平衡稳定成为一项具有挑战性的任务. ...
Optimal power flow management for grid connected PV systems with batteries
1
2011
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
1
2015
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
计及源荷不确定性与设备变工况特性的园区综合能源系统协同优化运行方法
1
2023
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Collaborative optimal scheduling of the community integrated energy system considering source-load uncertainty and equipment off-design performance
1
2023
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Double-time-scale coordinated voltage control in active distribution networks based on MPC
1
2020
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
考虑碳排放指标的配电网经济调度方法
1
2023
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Economic dispatch method of distribution network considering carbon emission index
1
2023
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
基于改进多目标灰狼算法的冷热电联供型微电网运行优化
1
2022
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Optimization of CCHP micro-grid operation based on improved multi-objective grey wolf algorithm
1
2022
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
基于集群负荷预测的主动配电网多目标优化调度
1
2021
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Multi-objective optimal dispatching of active distribution network based on cluster load prediction
1
2021
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
1
2017
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
适应多场景的微电网一体化柔性规划方法
1
2022
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
A multi-scenario integrated flexible planning method for microgrid
1
2022
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
计及储能调节的时滞互联电力系统频率控制
1
2022
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Frequency control strategy for interconnected power systems with time delay considering optimal energy storage regulation
1
2022
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
基于改进粒子群算法的配电网综合运行优化
1
2017
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Comprehensive optimal dispatch of distribution network based on improved particle swarm optimization algorithm
1
2017
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Power flow management of a grid tied PV-battery system for electric vehicles charging
1
2017
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
1
2020
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Real-time energy management of a microgrid using deep reinforcement learning
1
2019
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
基于分布式多步回溯Q (λ )学习的复杂电网最优潮流算法
2
2012
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
Optimal power flow for complex power grid using distributed multi-step backtrack Q (λ ) learning
2
2012
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
1
2017
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
基于电网专家策略模仿学习的新型电力系统实时调度
1
2023
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Real-time security dispatch of modern power system based on grid expert strategy imitation learning
1
2023
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Towards risk-aware real-time security constrained economic dispatch: A tailored deep reinforcement learning approach
1
2024
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
Online preventive control for transmission overload relief using safe reinforcement learning with enhanced spatial-temporal awareness
1
2024
... 电网运行的在线调度是研究热点,现有方法主要包括基于经验规则的方法、最优化方法以及基于数据驱动的深度强化学习方法3大类.基于经验规则的方法主要依赖于调度员的运行经验,但随着电网网络结构和新能源占比变化,过去的经验规则适应性逐渐降低.最优化方法通过建立数学模型,运用各类优化方法求解,例如动态规划[3 -4 ] 、线性规划[5 ⇓ -7 ] 以及多目标优化方法[8 -9 ] 等.但最优化方法容易陷入局部最优解,因此也有较多关于全局搜索优化的方法.全局搜索优化方法主要利用遗传算法[10 ] 、群体智能方法[11 ⇓ -13 ] 以及混合方法[14 ] 遍历解空间进行求解.然而这些方法仍然高度依赖领域知识,并存在可扩展性差、求解效率低等问题[15 ] .近年来,深度强化学习是解决电网在线调度问题的新兴方法,这类方法基于深度神经网络对运行数据特征的关联与挖掘能力,无需建立数学模型.同时,利用最大化奖励函数进行解空间的有向探索,避免了对全局解空间的遍历.例如Ji等[16 ] 将深度Q 网络方法用于微电网电能产出和消纳的优化调度.余涛等[17 ] 提出使用分布式Q 学习算法来解决复杂电网分区的最优潮流调度问题.Wei等[18 ] 使用基于策略梯度的Actor-Critic算法,来解决异构电力网络中能量效率的功率分配问题.朱介北等[19 ] 利用模仿学习与深度强化学习结合的方式对电力拓扑结构进行优化控制.Hu等[20 ] 基于深度强化学习的风险感知实时安全约束经济调度方法框架,采用改进的TD3算法设计电网系统功率实时调度策略.Cui等[21 ] 基于内点策略优化的安全深度强化学习方法,对基于约束马尔可夫决策过程建模的电网调度问题进行求解. ...
需求响应下的并网型风-光-沼微能源网优化配置
1
2023
... 然而,尽管目前基于强化学习的电网功率调节有初步的研究,但由于电网具有庞大、组合和非线性的性质,这些方法仍然难以在新型电力系统环境下学习到优质的调度策略.这是因为大量新能源机组、储能、可调负载等异构节点接入,源荷波动的不确定性陡增[22 ] ,状态、动作等决策空间也相应增长,高维决策空间使得潮流稳态难以保持.具体而言:第一,新型电力系统通常节点规模较大,涉及发电机组、负载、储能设备等异构节点的同步调节,形成典型的高维连续动作空间,决策空间指数级增长[23 ] ,而能保证潮流平衡稳定的动作组合占比极低,这种稀疏性使得电网通常会在几个时间步内快速失衡,智能体难以学习到优质的调度策略;第二,受可调负载、储能等设备接入及随机事件的影响,电网功率等参数的调度具有延迟影响,形成了具有复杂时空关联特征的高维状态空间.缺失复杂时空关联的建模使得智能体难以准确估计电网未来的供需变化,影响电网的平衡. ...
Optimal sizing of grid-connected wind-solar-biogas integrated energy system considering demand response
1
2023
... 然而,尽管目前基于强化学习的电网功率调节有初步的研究,但由于电网具有庞大、组合和非线性的性质,这些方法仍然难以在新型电力系统环境下学习到优质的调度策略.这是因为大量新能源机组、储能、可调负载等异构节点接入,源荷波动的不确定性陡增[22 ] ,状态、动作等决策空间也相应增长,高维决策空间使得潮流稳态难以保持.具体而言:第一,新型电力系统通常节点规模较大,涉及发电机组、负载、储能设备等异构节点的同步调节,形成典型的高维连续动作空间,决策空间指数级增长[23 ] ,而能保证潮流平衡稳定的动作组合占比极低,这种稀疏性使得电网通常会在几个时间步内快速失衡,智能体难以学习到优质的调度策略;第二,受可调负载、储能等设备接入及随机事件的影响,电网功率等参数的调度具有延迟影响,形成了具有复杂时空关联特征的高维状态空间.缺失复杂时空关联的建模使得智能体难以准确估计电网未来的供需变化,影响电网的平衡. ...
Deep reinforcement learning: A brief survey
2
2017
... 然而,尽管目前基于强化学习的电网功率调节有初步的研究,但由于电网具有庞大、组合和非线性的性质,这些方法仍然难以在新型电力系统环境下学习到优质的调度策略.这是因为大量新能源机组、储能、可调负载等异构节点接入,源荷波动的不确定性陡增[22 ] ,状态、动作等决策空间也相应增长,高维决策空间使得潮流稳态难以保持.具体而言:第一,新型电力系统通常节点规模较大,涉及发电机组、负载、储能设备等异构节点的同步调节,形成典型的高维连续动作空间,决策空间指数级增长[23 ] ,而能保证潮流平衡稳定的动作组合占比极低,这种稀疏性使得电网通常会在几个时间步内快速失衡,智能体难以学习到优质的调度策略;第二,受可调负载、储能等设备接入及随机事件的影响,电网功率等参数的调度具有延迟影响,形成了具有复杂时空关联特征的高维状态空间.缺失复杂时空关联的建模使得智能体难以准确估计电网未来的供需变化,影响电网的平衡. ...
... Actor-Critic 是一类经典的深度强化学习算法结构,有效结合了传统强化学习方法中的策略梯度方法和值函数方法[23 ] . 在Actor-Critic 结构中,Actor 代表策略网络πθ (s |a ),负责学习策略,根据当前状态选择一个动作,并以最大化累积奖励为目标.Critic 代表价值网络Vϕ (s ),负责学习值函数,并通过估计当前状态的值函数来指导Actor 的决策.Actor 网络通过策略梯度更新模型参数: ...
Hierarchical reinforcement learning
1
2022
... 分层强化学习是一种解决多层次任务决策问题的强化学习方法,其主要思想是将决策任务分解为多个子问题或子任务,构建分层结构的两类智能体,使得原始决策问题形成“顶层- 底层”的两层结构[24 ] . 其中,顶层智能体π H 基于当前状态S 选择最佳子任务g =π H (s )来完成整体任务目标,底层智能体π L 则基于当前状态和上层目标输出每一步决策动作a =π L (s , g )以具体执行子任务. 在每一个子任务中,底层智能体以最大化该子任务的期望奖励为目标,即J (π L )=E [Rg (s , a )],Rg 为由子任务g 确定的奖励函数,而顶层智能体则以最大化分解的子任务的期望奖励为目标,即J (π H )=E [R (s , g )]. 相比传统的单层强化学习架构,分层强化学习通过层次分解,显著降低决策空间,能够有效提升决策效率. 分层强化学习已被广泛应用于游戏、电网等场景下的高维决策空间任务[25 - 27] . ...
1
2021
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
1
... 针对属性状态信息Xt 和拓扑结构信息G =(N , E ),首先利用多层感知器(multilayer perceptron,MLP)和图卷积层(graph convolutional networks, GCN) [26 ] 融合提取属性信息浅层关联特征和结构关联特征: ...
A short-term load forecasting method based on GRU-CNN hybrid neural network model
1
2020
... 为了增强对于环境状态的表征能力,在融合属性信息和拓扑信息的基础上,引入状态上下文感知机制,提取电网潮流、供需等环境要素之间的内在时空关联. 利用GRU 表征历史潮流断面和历史调节动作等状态上下文时序嵌入[27 ] ,最小失真地建模环境状态转移.GRU 模型的输入为历史潮流断面以及历史调节动作序列Ht =(Xt - L , Xt - L +1 , …, Xt , At - L , At - L +1 , …, At ),t 时刻动作At 输出ht 为t 时刻的上下文嵌入特征,该特征向量由前一时刻的特征向量ht -1 迭代计算得到,具体计算过程为 ...
1
2020
... 受文献[28 ]中基于高频动作筛选以缩小大规模离散动作空间的启发,针对高维连续的电网调节动作空间,设计一种如图3 所示的自适应的分层决策机制. 该机制将电网中全部可调节单元的调整值生成过程解耦为两个层次:单元选择层和功率调整层. 其中,单元选择层根据电网的运行状态自适应地识别关键节点,并选取这些关键节点作为功率调整的动作空间,有效降低决策空间的维度. 功率调整层则聚焦于单元选择层中输出的关键电网节点,生成这些关键节点的具体功率调整值,即图中数值. ...
2
... 使用确定性策略梯度(deep deterministic policy gradient ,DDPG )[29 ] 算法进行训练,其中主要涉及策略网络与价值网络的优化. 策略网络被分为单元选择层和功率调整层两层,其网络参数分别为θs 和θa . 策略网络的损失函数由两项组成,如下式所示: ...
... 选取随机策略 (Random )、DDPG [29 ] 、PPO [34 ] 、A 2C [35 ] 以及TD 3[36 ] 等4个经典的强化学习算法与StarHeart 方法比较,以验证方法的性能. ...
5
... 为了验证所提方法的有效性和鲁棒性,以欧洲CIGRE 低压微电网系统[30 ] 以及中国某省级电网网架及其运行情况为实验对象,采用grid 2op 进行仿真. 重点通过以下3项实验上开展所提方法的性能验证与结果分析:①验证StarHeart 在综合目标函数上相比基线方法的性能提升;②验证所提两个新模块对于提升目标函数效果的增益幅度;③验证所提方法应对随机扰动的鲁棒性,例如在环境中模拟新能源出力快速突变等情况. ...
... 在IEEE- 118标准算例、L 2RPN-WCCI- 2022比赛算例[30 ] 以及SG- 126标准算例3个常用的标准算例数据集的电网运行仿真环境上对StarHeart 算法开展实验验证,这些环境均包含高比例的新能源出力以及至少连续1年的收敛潮流断面数据. ...
... L 2RPN-WCCI- 2022比赛算例[30 ] 参见https ://l 2rpn.chalearn.org/. 网络拓扑与IEEE- 118一致,区别在于增加了7个储能设备,同时添加站点维修、随机攻击等突发事件. 算例数据中负载平均电量需求约为IEEE- 118的1. 4倍,线路压力长期保持较高水平,运行决策难度较大. ...
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
... [30 ]、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
2
... 遵循Dorfer 等[31 ] 的设置,在以累积奖励xscore 作为评价指标的基础上,新增电网稳定运行轮数xround 为评价指标. 计算方式分别如下式所示: ...
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
基于深度强化学习的微电网在线优化调度
1
2022
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
Online optimal scheduling of a microgrid based on deep reinforcement learning
1
2022
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
基于知识经验和深度强化学习的大电网潮流计算收敛自动调整方法
1
2020
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
Automatic adjustment method of power flow calculation convergence for large-scale power grid based on knowledge experience and deep reinforcement learning
1
2020
... 式中:l为单回合内模型运行的总时间步. 在计算线路越限[30 ] 、机组运行成本[30 ] 、无功功率越限[32 ] 以及节点电压越线[17 ] 的基础上,增加新能源消纳占比和平衡机组越限两个子项[33 ] ,并根据多个子项的线性加权和[25 ] 来综合评估电网运行的安全性、环保性以及经济性等. 电网稳定运行轮数xround 为模型单个回合稳定运行的总轮数,反映电网运行的稳定性[31 ] . ...
1
... 选取随机策略 (Random )、DDPG [29 ] 、PPO [34 ] 、A 2C [35 ] 以及TD 3[36 ] 等4个经典的强化学习算法与StarHeart 方法比较,以验证方法的性能. ...
1
... 选取随机策略 (Random )、DDPG [29 ] 、PPO [34 ] 、A 2C [35 ] 以及TD 3[36 ] 等4个经典的强化学习算法与StarHeart 方法比较,以验证方法的性能. ...
1
... 选取随机策略 (Random )、DDPG [29 ] 、PPO [34 ] 、A 2C [35 ] 以及TD 3[36 ] 等4个经典的强化学习算法与StarHeart 方法比较,以验证方法的性能. ...