懒惰强化学习算法在发电调控REG框架的应用_技术

惰性是人类的天性，然而惰性能让人类无需过于复杂的练习就能学习某项技能，对于人工智能而言，是否可有基于惰性的快速学习的方法？本文提出一种懒惰强化学习(Lazy reinforcement learning, LRL) 算法。采用基于人工社会-计算实验-平行执行(ArTIficial socieTIes-ComputaTIonal experiments -Parallel execuTIon, ACP) 和社会系统的平行系统, 在短时间内产生大量数据以适应所提算法的需要。

为了快速获取准确的发电调度与控制动作，本文建立了大量的平行发电控制系统。在平行发电系统中，多重虚拟发电控制系统被用来对真实发电控制系统不断地进行仿真。当虚拟控制发电系统的控制效果优于实际发电控制系统时，它们之间会交换它们发电控制器的重要数据。即虚拟发电控制系统将重要的控制器参数传递到真实发电控制系统，而真实发电系统则将更新后的系统模型参数反馈回虚拟发电控制系统之中。

平行发电控制系统

传统学习算法会对所有通过平行系统获取的数据进行学习。然而，采用这些数据进行学习不一定能够取得比当前真实系统更优的控制效果。因此，本文所提出的懒惰强化学习算法，会筛选出那些更优的数据进行学习。

实时经济调度与控制(Real-time economic generation dispatch and control, REG)控制器来替代传统的发电控制框架。采用了基于人工社会-计算实验-平行执行(Artificial societies - Computational experiments - Parallel execution, ACP)和社会系统的平行系统在短时间内产生大量数据以适应所提算法的需要。

平行系统下基于实时经济发电调度与控制器的懒惰强化学习算法的流程图

从仿真结果图可以看出，由于仿真采用了平行系统，降低了所使用的真实仿真时间，由于平行系统进行了迭代，加速了仿真的过程

平行系统频率偏差收敛曲线

平行系统区域控制误差收敛曲线

为了解决多区域大规模互联电网经济调度和发电控制中存在的协同问题，本文提出了一种REG框架。该框架可作为一种传统发电调控框架的替代。然后，为REG控制器提出了一种基于人工社会-计算实验-平行执行方法的懒惰学习算法。基于REG控制器的LRL算法的特征可以总结如下：

(1)本文提出了一种统一时间尺度的REG控制框架，并提出一种基于REG控制器的LRL算法。可以有效地对电力系统的下一运行状态进行预测并且输出满足UC问题的约束动作指令，取得最优的控制效果。

(2)LRL中的强化学习网络具有同时产生多个输出的能力。因此，基于REG控制器LRL的可以不断地为存在于多区域大规模互联电网的所有AGC机组输出发电命令。

(3)通过搭建平行系统，使得基于LRL的REG控制器可以用于解决多区域大规模互联电网经济调度和发电控制问题。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2635330.html