基于深度强化学习的电网拓扑优化及潮流控制

周毅, 周良才, 丁佳立, 高佳宁

Power Network Topology Optimization and Power Flow Control Based on Deep Reinforcement Learning

ZHOU Yi, ZHOU Liangcai, DING Jiali, GAO Jianing

表1 智能体性能对比

Tab.1 Performance comparison of AI agent

智能体	失败次数	平均得分	平均得分 (排除失败场景)
不作为	91	2471.42	4534.72
仅使用模仿学习训练	198	38.210	3820.63
使用引导式训练	7	4269.63	442.49
使用预警机制λ=0.850	0	4253.40	4253.40
使用预警机制λ=0.875	1	4347.56	4369.41
使用预警机制λ=0.900	0	4396.77	4396.77
使用预警机制λ=0.925	0	4493.27	4493.27
使用预警机制λ=0.950	0	4492.89	4492.89
使用预警机制λ=0.975	2	4446.12	4491.03