基于联邦强化学习的电热综合能源系统能量管理策略
Energy Management Strategy of Integrated Electricity-Heat Energy System Based on Federated Reinforcement Learning
通讯作者: 王琪,硕士生;E-mail:455951466@qq.com.
责任编辑: 王历历
收稿日期: 2022-10-20 修回日期: 2023-03-6 接受日期: 2023-03-9
基金资助: |
|
Received: 2022-10-20 Revised: 2023-03-6 Accepted: 2023-03-9
作者简介 About authors
王金锋(1984-),博士,高级工程师,从事电力需求侧管理、综合能源服务、电力市场、碳资产管理研究.
电热综合能源系统(IES)的能量管理关系到园区的经济效益与多能互补能力,但面临新能源出力随机性和用户负荷不确定性的挑战.首先,构建电热IES能量管理问题的数学模型,将各供能子系统赋能为智能体,基于深度确定性策略梯度(DDPG)算法建立综合考虑子系统实时用能负荷、分时电价及各设备出力的系统能量管理模型.然后,采用联邦学习技术,在训练过程中交互3个子系统的能量管理模型梯度参数对模型的训练效果进行协同优化,打破数据壁垒的同时保护各子系统数据隐私.最后,通过算例分析验证了所构建基于联邦学习框架的DDPG能量管理模型能有效提升园区IES经济效益.
关键词:
The energy management of the electricity-heating integrated energy system (IES) is related to the economic benefits and multi-energy complementary capabilities of a park, but it faces the challenges of the randomness of renewable energy and the uncertainty of load. First, in this paper, a mathematical model of the energy management problem for the electricity-heating IES is conducted, and each energy supply subsystem is empowered as an agent. Based on the deep deterministic policy gradient (DDPG) algorithm, a system energy management model is established that comprehensively considers the real-time energy load of the subsystem, the time-of-use pricing, and the output of each equipment. Then, the federated learning technology is used to interact with the gradient parameters of the energy management model of the three subsystems during the training process to synergistically optimize the training effect of the model, which can protect the data privacy of each subsystem while breaking the data barriers. Finally, an example analysis verifies that the proposed federated-DDPG energy management model can effectively improve the economic benefits of the park-level IES.
Keywords:
本文引用格式
王金锋, 王琪, 任正某, 孙晓晨, 孙毅, 赵一伊.
WANG Jinfeng, WANG Qi, REN Zhengmou, SUN Xiaochen, SUN Yi, ZHAO Yiyi.
为了摆脱机理建模的制约,并通过离线训练缩短实时调度决策时间,引入数据驱动,采用无模型的强化学习(Reinforcement Learning,RL)方法.强化学习通过智能体与环境的迭代交互,依靠奖励回报自适应学习生成最优策略,不受精确的模型信息和预测准确性的制约.此外,强化学习还可以与具备良好数据处理能力的深度学习相结合形成较传统优化算法更易实现的深度强化学习(Deep Reinforcement Learning,DRL)[12]算法.
此外,当前机器学习模型构建多依托集中式框架进行分布式学习优化,需要各智能体之间进行信息交互,随着IES规模的不断扩大,数据隐私的地位逐步提高.伴随着用户对数据隐私的重视,分布式学习的隐私保护逐步成为当前研究重点.国内外学者提出联邦强化学习方法来解决此类问题.在联邦强化学习中,各智能体通过向聚合中心发送模型参数替代数据,进而保护了用户的隐私安全.文献[17]中将纵向联邦学习与深度强化学习算法相结合,协同优化电、热、气3种能源系统实时管理能力的同时保护各参与方的数据安全.文献[18]中将联邦学习与能源需求学习相结合,有效保护用户数据隐私的同时预测电动汽车的能源需求.文献[19]中提出一种联邦强化学习(Federated Reinforcement Learning,FRL)方法用于多智能家庭的能源管理.当前,针对IES的能量管理过程中的隐私问题,多采用多智能体强化学习方法,尚缺乏联邦强化学习的研究与应用.FRL框架中,各参与方间交互DRL模型中间参数,协同优化各参与方DRL模型的训练速度[20⇓-22].此外,FRL在各参与方中采用间接交互模型中间参数的方式替代了原始数据的直接交换,使各参与方的数据隐私得到有效保护.
以工业园区为研究场景构建一个包含3个供能子系统的电热IES模型,同时基于DDPG算法设计一种能兼容于3个异构供能子系统的能量管理模型.对于3个异构供能子系统,该模型能够综合考虑园区实时电负荷、热负荷、分时电价,朝着经济效益最大化方向自适应地对供能子系统内部各设备的出力进行调整.此外,提出一种基于联邦学习框架的DDPG算法(Federated-Deep Deterministic Policy Gradient,F-DDPG)对园区IES能量进行管理.在F-DDPG框架中,各供能子系统利用内部数据,独立地对DDPG能量管理模型进行训练.在模型训练过程中,F-DDPG采用联邦学习算法交互各供能子系统能量管理模型的梯度参数,协同优化各子系统能量管理模型训练速度.最后,通过算例仿真验证了所构建基于联邦强化学习的园区IES能量管理方法对系统经济效益的显著提升.
1 园区IES结构及设备模型
园区IES内部通常包含多个供能子系统,其典型架构如图1所示.各供能子系统分别用MG1、MG2、MGN来表示,其内部分为产能设备、储能设备、用能负荷3部分.其中,产能设备主要包括热电联产机组(Combined Heat and Power,CHP)、燃气锅炉(Gas Boiler,GB)、电锅炉(Electric Boiler,EB)等设备,储能设备主要包括电储能、热储能,用能负荷主要包括电、热等固定负荷以及可控负荷.
图1
各供能子系统内部设置智能体,负责收集本系统内部可再生能源出力、电热负荷需求以及各设备状态信息,并调节各可控设备出力.各智能体可通过数据传输链路实现与IEIP的信息交互,各智能体上传能源系统模型参数等信息,经IELP分析处理后,平台下发调度指令.
各供能子系统既可实现本系统内部自治,又可协作运行.一方面,各智能体都包含策略网络和价值网络,可实现各供能子系统的就地数据处理;另一方面,各智能体上传各网络特征参数至IELP,最终通过IELP的调度实现协同优化.该架构避免了调度过程中大量隐私数据传输.
1.1 供能子系统设备模型
各供能子系统内元件特性详述如下:
(1) CHP模型.CHP机组作为IES的核心设备,以天然气为主要燃料,可输出热、电能,具有较高的综合用能效率.
CHP机组的发电功率为
式中:
CHP机组发电功率满足约束条件:
式中:
此外,CHP机组在输出电能的同时,也会放出大量热能.CHP机组输出热功率与电功率比值为热电比β,CHP机组t时段输出热功率可表示为
式中:ηHE为余热回收效率.
(2) 燃气锅炉模型.燃气锅炉消耗天然气为IES提供热能,其输出热功率为
式中:ηGB为燃气锅炉的效率;VGB(t)为t时段内燃气锅炉的单位时间天然气消耗量.
燃气锅炉输出热功率满足约束条件:
式中:
(3) 电锅炉模型.电锅炉消耗电能为IES提供热能,其输出热功率为
式中:
制热电锅炉输出热功率满足约束条件:
式中:
(4) 电储能模型.电储能设备作为IES的重要组成部分,可在一定程度上对IES中源荷不确定性进行缓解.建立典型电储能设备-蓄电池的数学模型.蓄电池的储电状态受上一时段储电状态和充放电功率影响,满足以下公式:
式中:Bsoc(t)为蓄电池在t时段的储电状态;PBA(t)为蓄电池的运行功率,为正时表示其处于放电状态,为负时表示其处于充电状态;QBA为蓄电池的最大容量;ηBA为蓄电池的充放电系数,表示为
式中:ηch∈(0, 1]为蓄电池的充电系数;ηdis∈(0, 1]为蓄电池的放电系数.
蓄电池的运行功率满足约束条件:
式中:
(5) 热储能模型.热储能设备与电储能设备同为IES的重要组成部分,对IES的意义与作用与电储能设备一致.以蓄热罐为典型热储能设备为例进行建模.蓄热罐t时段的储热状态满足下式:
式中:PHS(t)为蓄热罐的运行功率,为正时表示其处于放热状态,为负时表示其处于吸热状态;σx为蓄热罐的自损率;ηHS为蓄热罐的吸放热系数,表示为
式中:ηchr∈(0, 1]为蓄热罐的放热功率;ηdch∈(0, 1]为蓄热罐的吸热效率.
1.2 约束条件
IES的约束条件分为各设备自身约束条件和热电功率平衡约束条件,设备的自身约束如1.1节所示.根据IES结构,供能子系统能源平衡约束如下.
(1) 电功率平衡约束方程:
式中:PMG(t)、PNE(t)分别为t时段电网流入IES的电功率、新能源发电功率; Pload(t)为电负荷.
(2) 热功率平衡约束方程:
式中:Hload(t)为t时段热负荷;HHS(t)为t时段蓄热罐的热功率.
(3) 外部能源供应约束.t时段电网流入IES的电功率满足以下约束条件:
式中:
t时段天然气供应商对IES的天然气供应量满足以下约束条件:
式中:vNG(t)为t时段供应商天然气供应总量;
1.3 目标函数
在电热IES中,系统运行成本主要包括购电成本、购气成本、弃风弃光成本.奖励函数只考虑购能成本以及弃风弃光成本,忽略设备启停成本和维护成本.以最小化系统运行成本为目标,日前经济调度的运行成本为
式中:CE为购能成本;CNE为弃风弃光成本.
式中:λMG(t)为t时段电价;λNG(t)为天然气的单位热量价格;PMG(t)为正表示系统向主电网购电,为负表示系统向主电网售电,产生弃风弃光行为.
弃风弃光成本公式如下所示:
式中:T为日前调度的时间段数;cNcurt为弃光成本系数;PNcurt(t)为弃风弃光量.
2 供能子系统系统的DDPG能量管理模型
2.1 DDPG能量管理模型
基于DDPG算法构建一种能自适应地对供能子系统设备出力进行调整的优化管理模型.各供能子系统中,DDPG能量管理模型观测电负荷需求、热负荷需求以及各设备运行状态等信息并汇总至子系统,由子系统对各设备出力的动作进行调整.DDPG能量管理模型基于子系统内是否存在弃风弃光等情况,对子系统所执行策略的经济效果进行量化分析,并通过迭代寻优不断更新策略.
2.2 状态空间
电热IES模型中,智能体观测的环境信息为新能源发电功率、负荷需求、蓄电池的荷电状态、蓄热罐的储热状态.任意时段t下,3种能源系统的状态空间定义为
其中:
2.3 动作空间
智能体收集到环境状态后,经由策略集π进行决策,执行动作空间A内存储的一个动作.在时段t,选用设备的出力情况表示IES中的动作.由于PCHP(t)确定后,HCHP(t)可由式(3)计算得到;PEB(t)确定后,HEB(t)可根据式(6)确定,此外,HGB(t)确定后,HHS(t)可由式(14)确定;进而PMG(t)也通过式(13)计算确定.即在PCHP(t)、PEB(t)、HGB(t)、PBA(t)确定后,其他量可以迅速得到.故IES的动作可表示为
2.4 奖励函数
经济运行成本的最小化是电热IES的最终目标.强化学习算法中,将最小化问题转换成最大化奖励函数问题,因此,智能体i在时段t输出的奖励表示为
通过与
在IES某一确定状态si下,可通过动作-值函数Qπ(si, ai)[23]对动作ai的优劣程度进行评估,其目标是找到最优策略π以最大化状态-动作值函数:
其中:ri为动作空间.
3 基于F-DDPG的系统能量管理方法
3.1 基于MADDPG的系统能量管理
传统的强化学习方法在解决单智能体问题时都能取得较好的学习效果,但当面对多智能体相互合作或竞争的环境时,由于状态与动作空间随着智能体的增加而成倍增长,模型无法有效学习,所以引入多智能体DDPG(Multi-Agent Deep Deterministic Policy Gradient,MADDPG).
在MADDPG模型内,各智能体分为观测全局环境状态的评论家(Critic)网络和观测局部环境状态的演员(Actor)网络[24].MADDPG算法依托集中训练的Critic网络来应对环境的非稳定状态,在训练阶段,Critic网络传递全局信息至各智能体,同步各智能体策略状态,保证MADDPG的训练稳定性.Actor网络和Critic网络均为采用线性整流函数激活的多层全连接网络.建立的Actor和Critic网络的结构如图2所示.obs用来表示输入层的五维(5d)观测值,Actor网络经过两个神经元分别为500、128的隐藏层后在输出层输出四维(4d)的决策值,并采用双曲正切函数tanh作为激活函数控制动作输出,避免过大或过小的动作值对系统的影响.n为数组个数.
图2
Critic网络则分别经过 1024、512、300的隐藏层,最后Linear即全连接层输出网络评估参数Q值,各隐藏层通过选取整流函数Relu作为激活函数来应对训练过程中梯度消失对神经网络学习率的冲击.
建立的园区IES模型中,各供能子系统赋能为智能体,单独计算子系统收益.各智能体由Actor网络、Critic网络、目标Actor网络、目标Critic网络构成.在训练阶段,Critic网络观测全局信息并基于此评估当前联合状态和联合动作的价值,对Actor网络的策略进行调整;训练好的Actor网络仅利用局部观测信息即可输出最优动作.各网络参数更新方法如下所示:
(1) Critic网络参数更新.Actor网络通过最小化损失函数以更新网络参数,即
式中:
式中:
损失函数的梯度计算公式为
根据损失函数的梯度更新Critic网络参数为
式中:α为Critic网络的学习率.
(2) Actor网络参数更新.训练过程中,Actor网络更新其参数
根据确定性策略梯度更新Actor网络参数为
式中:μ为Actor网络的学习率.
(3) 目标网络参数更新.利用软更新技术更新目标网络的参数来进一步保证学习过程的稳定性[25]:
式中:τ为软更新系数,且τ≪1.
MADDPG算法中引入Ornstein-Uhlenbeck噪声来强化供能子系统训练过程中算法探索环境的能力,从而输出更优的动态调度策略.
3.2 基于F-DDPG的系统能量管理
将DDPG算法扩展到FRL,用于解决连续动作任务,称为F-DDPG.DDPG算法训练过程的关键在于通过训练Critic网络来估计准确的长期回报,进而指导Actor网络调整策略获取良好的回报.F-DDPG的主要目的在于提供一个全局的Critic网络指导智能体调整策略以获取最优整体回报.采用F-DDPG算法的单供能子系统与采用MADDPG算法单供能子系统以及采用传统DDPG方法的独立供能子系统相比,具有更好的通信效率和计算效率.
相较于MADDPG,F-DDPG的Critic网络参数更新中,由于
式中:[[·]]表示Paillier加密;G为3个系统聚合后的平均梯度.在F-DDPG算法中,Paillier加密的引入保证各子系统都不能在交互损失函数时,获得其它子系统的损失函数信息.该项措施有效保证园区IES在进行 F-DDPG能量优化管理过程中的数据隐私.
中央服务器下发全局梯度至各智能体,更新本地Critic网络参数,如下所示:
建立基于F-DDPG算法的IES能量管理框架如图3所示.
图3
图3
基于F-DDPG的IES能量管理框架
Fig.3
Energy management framework of IES based on F-DDPG
该算法通过经验回放机制,采用历史的电负荷、热负荷、新能源出力、蓄热罐运行功率及入网电功率数据作为系统状态输入,离线训练F-DDPG算法网络.离线训练结束后得到的F-DDPG算法参数直接代入IES的能量管理问题进行求解.在调度执行阶段,各智能体观测当前系统状态信息并输入训练好的F-DDPG算法网络,迭代寻优后经由内部Actor网络输出调度策略.随后,执行策略并更新环境状态,输出当前策略奖励值.然后输入时段t+1系统的状态信息,并做出该时段的决策.不断迭代最终输出动态调度动作.
4 算例分析
以某一台区下的园区IES为例对所提基于FRL的电热IES能量管理策略的有效性进行验证,该园区可分为3个供能子系统,各供能子系统内具体设备信息如表1所示.
表1 供能子系统资源配置
Tab.1
供能子系统 | 所包含设备 |
---|---|
MG1 | 风力发电机、光伏、CHP机组、电、热储能系统、燃气锅炉、电热锅炉及电、热负荷 |
MG2 | 风力发电机、光伏、CHP机组、电、热储能系统、燃气锅炉及电、热负荷 |
MG3 | 风力发电机、光伏、电、热储能系统、燃气锅炉、电热锅炉及电、热负荷 |
表2 供能子系统中设备运行参数
Tab.2
设备 | Pmin, Hmin/MW | Pmax, Hmax/MW |
---|---|---|
CHP机组 | 0 | 1.2 |
电热锅炉 | 0 | 1.4 |
燃气锅炉 | 0 | 1.2 |
蓄电池 | -0.2 | 0.2 |
表3 供能子系统中其他参数
Tab.3
参数 | 数值 | 参数 | 数值 |
---|---|---|---|
ηCHP | 0.32 | ηEB | 0.94 |
β | 1.25 | ηGB | 0.82 |
ηHE | 0.73 | CNcurt | 0.20 |
表4 分时电价
Tab.4
时段 | 购电电价/ [元·(kW·h)-1] | 售电电价/ [元·(kW·h)-1] |
---|---|---|
峰时段 | 0.922 | 0.500 |
平时段 | 0.540 | 0.200 |
谷时段 | 0.382 | 0 |
图4
4.1 动态调度结果
调度开始前,F-DDPG算法网络经由历史数据进行离线训练,调整网络性能,训练好的算法网络用于调度阶段系统的动态能量管理.为了更好地阐释系统的动态能量管理结果,基于所提F-DDPG算法输出的PCHP(t)、vGB(t)、PBA(t)、HGB(t)以及相应计算得到的HCHP(t)、HEB(t)、HHS(t)、PMG(t),以该园区2016年6月15日的调度情况为例进行分析.
首先验证3种供能子系统DDPG能量管理模型的奖励函数收敛性,以及F-DDPG 方法对3种供能子系统DDPG能量管理模型奖励函数收敛曲线的改善效果.3种供能子系统的 DDPG能量管理模型在各训练回合下的奖励函数收敛曲线如图5所示.由图可见,各供能子系统能量管理模型奖励函数都在迭代训练过程中实现收敛.由于所提算法在各DDPG能量管理模型训练过程中经由联邦学习加密,所以利用交互各能源系统的损失函数来计算园区IES的综合损失函数,从而对各DDPG能量管理模型的训练水平进行量化;此外,F-DDPG方法通过计算各DDPG能量管理模型对于当前园区IES损失函数的梯度信息,独立地更新和优化各DDPG能量管理模型的评估网络参数.因此所提F-DDPG方法能够有效提升各供能子系统的DDPG能量管理模型训练效率.
图5
图5
各供能子系统能量管理模型奖励函数收敛曲线
Fig.5
Convergence curves of reward function of energy management model of each energy supply subsystem
此外,F-DDPG依托Paillier全同态加密算法,减轻了各供能子系统DDPG能量管理模型梯度信息以及子系统原始数据的泄露风险.因此,F-DDPG方法能够有效打破异构供能子系统之间数据壁垒,在保护数据隐私的前提下协同训练各供能子系统能量管理模型.
图6
图6
基于F-DDPG算法的电功率调度结果
Fig.6
Result of electrical power scheduling based on F-DDPG algorithm
图7
图7
基于F-DDPG算法的热功率调度结果
Fig.7
Result of thermal power scheduling based on F-DDPG algorithm
由图6可见,MG1、MG2、MG3子系统内整体趋势为:主要由CHP机组、蓄电池产生电能,其中蓄电池受分时电价引导充放电.以MG1为例,蓄电池在谷电价且电负荷较小时充电以备后续的高峰时段,如 1:15—2:45、5:30—6:45 等时段;在峰电价且电负荷较高时放电以减少运行成本,如 12:00—13:00、14:00—15:00 等时段.在谷电价时电能出力供电热锅炉消耗,反向向电网售电;平电价阶段,系统向主电网购电以满足用电需求.
由图7可见,MG1、MG2、MG3整体趋势为:蓄热罐受分时电价影响,谷电价和平电价时蓄热为后续的高峰时刻做准备,如 0:00—2:00、4:45—5:00 等时段,在峰电价且热负荷较高时放热以减少运行成本.MG1中,CHP机组持续供热,在谷电价且热需求高于0.5 MW时,机组制热不能满足热负荷需求,采用电热锅炉购电制热以及燃气锅炉制热进行补充.峰电价时CHP机组、蓄热罐、燃气锅炉以及少量电热锅炉制热满足热负荷需求.MG2中,CHP机组持续供热,在谷电价且热需求高于0.5 MW时,机组制热无法满足热负荷需求,采用燃气锅炉制热进行补充.峰电价时CHP机组、蓄热罐、燃气锅炉制热满足热负荷需求.平电价时,CHP机组和燃气锅炉联合供热满足热需求和供蓄热罐吸热.MG3中,谷电价且低负荷时主要由电热锅炉制热,当热需求高于0.9 MW时,电锅炉制热不能满足热负荷需求,燃气锅炉制热进行补充,如 4:45—5:15 等时段;峰电价时主要由蓄热罐放热,少量燃气锅炉、电热锅炉制热满足热负荷需求.
综上,所提基于F-DDPG算法的能量管理策略能够在满足用能需求的前提下不断调整各子系统设备出力以提升系统经济效益.
4.2 对比分析
表5给出3种能量管理方法的经济效益和有效训练时长.有效训练时长指利用相同数据集开展100次实验,不忽略管理模型所出现的不收敛、过拟合等不成功训练情况, 统计其成功训练收敛的平均用时.
表5 不同能量管理方法的日运行成本统计结果
Tab.5
优化方法 | 成本/元 | 有效训练时长/s | ||
---|---|---|---|---|
MG1 | MG2 | MG3 | ||
传统方法 | 19342.00 | 16786.00 | 49560.00 | 14228.00 |
MADDPG | 18424.00 | 16629.00 | 47892.00 | 10634.20 |
F-DDPG | 12973.02 | 13845.09 | 41469.00 | 6121.80 |
由表可见,对于上述园区IES,采用所提方法计算结果优于传统调度方法与MADDPG算法,验证了该方法的求解有效性;同时该算法的有效训练时长远小于上述两种算法,表明F-DDPG算法具有较高的计算效率.
在传统调度方法中,在IES管理的各时隙下,都需要针对热、电负荷与新能源出力进行精准预测并基于预测结果重新计算系统在后续1 h的管理方案;而所提算法无需对源荷信息进行预测,只需要将源荷信息作为智能体观察到的状态信息输入算法网络,大大缩短有效训练时间.此外,相较于所提算法,传统调度方法对各部分数据进行集中处理因而无法保证数据隐私.相较于MADDPG算法,所提 F-DDPG 方法基于联邦学习技术,在训练过程中通过各供能子系统模型梯度参数的交互而相互影响,使各智能体的模型训练效率和效果朝着更优的方向提升,更快速、更高效地实现系统的优化调度.
5 结论
面向工业园区电热IES,本文提出一种基于联邦强化学习的园区IES能量管理方法.F-DDPG算法通过在3个供能子系统中分别构建DDPG能量管理模型来管理各系统内设备的实时出力值.同时 F-DDPG 方法采用间接交互各子系统DDPG能量管理模型的梯度信息替代原始数据的直接交互,协作进行能量管理.最后,通过算例仿真对F-DDPG方法的有效性进行验证,并得到以下主要结论:
(1) 基于DDPG构建的供能子系统能量管理模型,综合考虑供能子系统内的新能源出力、实时热、电负荷、分时电价,动态地管理3个供能子系统在日内各状态下的设备出力.
(2) 所提基于联邦强化学习的园区IES能量管理方法能够使各供能子系统DDPG能量管理模型的训练效率和效果朝着更优的方向提升,并收获优良的经济效益.
(3) 由于能量管理过程中,各供能子系统避免了原始数据的直接交互,所提F-DDPG方法能够有效地对各供能子系统内部用能数据隐私进行保护.
参考文献
考虑能源效率的综合能源系统多目标优化调度
[J].
Multi-objective optimal scheduling of integrated energy system considering energy efficiency
[J].
能源互联网下基于博弈与证据理论的综合能源系统评价方法研究
[J].
Evaluation method of comprehensive energy system based on game theory & evidence theory under energy Internet
[J].
考虑需求侧响应的园区综合能源系统优化配置
[J].
Optimal configuration of park-level integrated energy system considering demand response
[J].
多园区微网优化共享运行策略
[J].
Optimal sharing operation strategy for multi park-level microgrid
[J].
基于强化学习的综合能源系统管理综述
[J].
Reinforcement learning based integrated energy system management: A survey
[J].
Decentralized control for residential energy management of a smart users microgrid with renewable energy exchange
[J].
Optimal energy management and sizing of renewable energy and battery systems in residential sectors via a stochastic MILP model
[J].
MINLP probabilistic scheduling model for demand response programs integrated energy hubs
[J].
A MILP-based modular energy management system for urban multi-energy systems: Performance and sensitivity analysis
[J].
区域综合能源系统冷-热-电-气概率多能流计算
[J].
Calculation of cold-heat-electricity-gas probabilistic multi-energy flow in regional comprehensive energy system
[J].
考虑需求响应与光伏不确定性的综合能源系统鲁棒优化
[J].
Robust optimization of integrated energy systems considering demand response and photovoltaic uncertainty
[J].
多智能体深度强化学习的若干关键科学问题
[J].
Important scientific problems of multi-agent deep reinforcement learning
[J].
基于深度强化学习的微能源网能量管理与优化策略研究
[J].
Research on energy management and optimization strategy of micro-energy network based on deep reinforcement learning
[J].
基于柔性行动器-评判器深度强化学习的电-气综合能源系统优化调度
[J].
Optimal dispatching of electric-gas integrated energy system based on flexible actuator-judge deep reinforcement learning
[J].
Dynamic energy conversion and management strategy for an integrated electricity and natural gas system with renewable energy: Deep reinforcement learning approach
[J].
A novel multi-agent DDQN-AD method-based distributed strategy for automatic generation control of integrated energy systems
[J].
基于纵向联邦强化学习的居民社区综合能源系统协同训练与优化管理方法
[J].
The collaborative training and management-optimized method for residential integrated energy system based on vertical federated reinforcement learning
[J].
Energy demand prediction with federated learning for electric vehicle networks
[C]
Federated reinforcement learning for energy management of multiple smart homes with distributed energy resources
[J].
基于主从博弈的工业园区综合能源系统互动优化运行方法
[J].
Leader-follower game based optimized operation method for interaction of integrated energy system in industrial park
[J].
计及热惯性和运行策略的综合能源系统可靠性评估方法
[J].
Reliability evaluation of integrated energy system considering thermal inertia and operation strategy
[J].
城市燃气SCADA及信息管理系统设计
[J].
Design of information management system for urban natural gas SCADA system
[J].
基于深度强化学习的综合能源系统动态经济调度
[J].
Dynamic economic dispatch for integrated energy system based on deep reinforcement learning
[J].
Multi-agent actor-critic for mixed cooperative-competitive environments
[C]
T-soft update of target network for deep reinforcement learning
[J].
DOI:10.1016/j.neunet.2020.12.023
PMID:33450653
[本文引用: 1]
This paper proposes a new robust update rule of target network for deep reinforcement learning (DRL), to replace the conventional update rule, given as an exponential moving average. The target network is for smoothly generating the reference signals for a main network in DRL, thereby reducing learning variance. The problem with its conventional update rule is the fact that all the parameters are smoothly copied with the same speed from the main network, even when some of them are trying to update toward the wrong directions. This behavior increases the risk of generating the wrong reference signals. Although slowing down the overall update speed is a naive way to mitigate wrong updates, it would decrease learning speed. To robustly update the parameters while keeping learning speed, a t-soft update method, which is inspired by Student-t distribution, is derived with reference to the analogy between the exponential moving average and the normal distribution. Through the analysis of the derived t-soft update, we show that it takes over the properties of the Student-t distribution. Specifically, with a heavy-tailed property of the Student-t distribution, the t-soft update automatically excludes extreme updates that differ from past experiences. In addition, when the updates are similar to the past experiences, it can mitigate the learning delay by increasing the amount of updates. In PyBullet robotics simulations for DRL, an online actor-critic algorithm with the t-soft update outperformed the conventional methods in terms of the obtained return and/or its variance. From the training process by the t-soft update, we found that the t-soft update is globally consistent with the standard soft update, and the update rates are locally adjusted for acceleration or suppression.Copyright © 2020 Elsevier Ltd. All rights reserved.
High-resolution stochastic integrated thermal-electrical domestic demand model
[J].
An integrated tool for optimal energy scheduling and power quality improvement of a microgrid under multiple demand response schemes
[J].
Optimal charging of Electric Vehicles in residential area
[J].
/
〈 |
|
〉 |
