基于深度强化学习的电网拓扑优化及潮流控制
周毅, 周良才, 丁佳立, 高佳宁

Power Network Topology Optimization and Power Flow Control Based on Deep Reinforcement Learning
ZHOU Yi, ZHOU Liangcai, DING Jiali, GAO Jianing
表1 智能体性能对比
Tab.1 Performance comparison of AI agent
智能体 失败
次数
平均得分 平均得分
(排除失败场景)
不作为 91 2471.42 4534.72
仅使用模仿学习训练 198 38.210 3820.63
使用引导式训练 7 4269.63 442.49
使用预警机制λ=0.850 0 4253.40 4253.40
使用预警机制λ=0.875 1 4347.56 4369.41
使用预警机制λ=0.900 0 4396.77 4396.77
使用预警机制λ=0.925 0 4493.27 4493.27
使用预警机制λ=0.950 0 4492.89 4492.89
使用预警机制λ=0.975 2 4446.12 4491.03