J Shanghai Jiaotong Univ Sci ›› 2025, Vol. 30 ›› Issue (6): 1085-1102.doi: 10.1007/s12204-023-2631-x
收稿日期:2021-11-23
接受日期:2022-01-27
出版日期:2025-11-21
发布日期:2025-11-26
禹鑫燚,徐思宇,樊越海,欧林林
Received:2021-11-23
Accepted:2022-01-27
Online:2025-11-21
Published:2025-11-26
摘要: 为了解决复杂多变环境下多输入多输出(MIMO)系统的控制问题,本文针对移动机器人的自动控制提出了一种基于深度强化学习(RL)的无模型自适应LSAC-PID方法。根据环境反馈,作为上层控制器的RL智能体将最优参数输出给下层MIMO PID控制器,实现实时最优控制。首先,提出了一种无模型自适应MIMO PID混合控制策略,通过强化学习中最先进的软演员评论家(SAC)算法来实现控制参数的实时最优整定。其次,为了提高RL的收敛速度和控制性能,基于李雅普诺夫理论设计了一种适用于非策略RL算法的奖励塑造方法,并基于此确定了一种基于李雅普诺夫奖励的自适应LSAC-PID整定方法。通过软策略迭代的策略评估和策略改进,从数学上证明了提出的LSAC-PID算法的收敛性和最优性。最后,基于所提出的奖励塑造方法,针对循线机器人系统设计了奖励函数来提高其稳定性。仿真和实验结果表明,在不依赖控制系统模型和解耦控制回路的情况下,提出的自适应LSAC-PID方法可以实现MIMO PID参数的实时最优整定,具有收敛速度快、泛化性强和实时性高等优点。
中图分类号:
. 基于李雅普诺夫奖励塑造的移动机器人自适应LSAC-PID控制方法[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(6): 1085-1102.
YU Xinyi, XU Siyu, FAN Yuehai, OU Linlin. Self-Adaptive LSAC-PID Approach Based on Lyapunov Reward Shaping for Mobile Robots[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(6): 1085-1102.
| [1] FU Z, CHEN Z P, ZHENG C, et al. A cable-tunnel inspecting robot for dangerous environment [J]. International Journal of Advanced Robotic Systems, 2008, 5(3): 243-248. [2] NAGATANI K, KIRIBAYASHI S, OKADA Y, et al. Redesign of rescue mobile robot Quince [C]//2011 IEEE International Symposium on Safety, Security, and Rescue Robotics. Kyoto: IEEE, 2011: 13-18. [3] TUBA E, STRUMBERGER I, ZIVKOVIC D, et al. Mobile robot path planning by improved brain storm optimization algorithm [C]//2018 IEEE Congress on Evolutionary Computation. Rio de Janeiro: IEEE, 2018: 1-8. [4] WANG Q G, NIE Z Y. PID control for MIMO processes [M]//PID control in the third millennium. London: Springer, 2012: 177-204. [5] KATEBI R. Robust multivariable tuning methods [M]//PID control in the third millennium. London: Springer, 2012: 255-280. [6] GIL P, LUCENA C, CARDOSO A, et al. Gain tuning of fuzzy PID controllers for MIMO systems: A performance-driven approach [J]. IEEE Transactions on Fuzzy Systems, 2015, 23(4): 757-767. [7] BOYD S, HAST M, ASTROM K J. MIMO PID tuning via iterated LMI restriction [J]. International Journal of Robust and Nonlinear Control, 2016, 26(8): 1718-1731. [8] SONG Y D, HUANG X C, WEN C Y. Robust adaptive fault-tolerant PID control of MIMO nonlinear systems with unknown control direction [J]. IEEE Transactions on Industrial Electronics, 2017, 64(6): 4876-4884. [9] HOWELL M N, BEST M C. On-line PID tuning for engine idle-speed control using continuous action reinforcement learning automata [J]. Control Engineering Practice, 2000, 8(2): 147-154. [10] CARLUCHO I, DE PAULA M, VILLAR S A, et al. Incremental Q-learning strategy for adaptive PID control of mobile robots [J]. Expert Systems With Applications, 2017, 80: 183-199. [11] CARLUCHO I, DE PAULA M, ACOSTA G G, et al. Double Q-PID algorithm for mobile robot control [J]. Expert Systems With Applications, 2019, 137: 292-307.
[12] KONDA V, TSITSIKLIS J. Actor-critic algorithms [C]//12th International Conference on Neural Information Processing Systems. Denver: NIPS, 1999: 1008-1014. |
| [1] | 陈实, 杨林森, 刘艺洪, 罗欢, 臧天磊, 周步祥. 小样本数据驱动模式下的新建微电网优化调度策略[J]. 上海交通大学学报, 2025, 59(6): 732-745. |
| [2] | . 使用课程学习的动态布料折叠[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(5): 988-997. |
| [3] | 张婉滢, 司马珂, 张育禾, 孟健, 杨振, 周德云. 基于近端策略优化的多弹协同围捕机动目标制导控制方法[J]. 空天防御, 2025, 8(4): 94-103. |
| [4] | 王志博, 呼卫军, 马先龙, 全家乐, 周皓宇. 感知驱动控制的无人机拦截碰撞技术[J]. 空天防御, 2025, 8(4): 78-84. |
| [5] | 杜君南, 帅逸仙, 陈顶, 汪敏, 周金鹏. 基于约束强化学习的海上编队探测节点协同部署算法[J]. 空天防御, 2025, 8(3): 95-103. |
| [6] | 李奕佳, 李嘉诺, 柯良军. 基于强化学习的无人机协作防守策略设计与验证[J]. 空天防御, 2025, 8(3): 73-85. |
| [7] | 周文杰, 付昱龙, 郭相科, 戚玉涛, 张海宾. 基于博弈树与数字平行战场的空战决策方法[J]. 空天防御, 2025, 8(3): 50-58. |
| [8] | 赵莹莹, 仇越, 朱天晨, 李凡, 苏运, 邰振赢, 孙庆赟, 凡航. 基于分层强化学习的新型电力系统在线稳态调度[J]. 上海交通大学学报, 2025, 59(3): 400-412. |
| [9] | 刘雁行, 乔如妤, 梁楠, 陈宇, 于凯, 吴汉霄. 基于负荷准线和深度强化学习的含电动汽车集群系统新能源消纳策略[J]. 上海交通大学学报, 2025, 59(10): 1464-1475. |
| [10] | 杨映荷, 魏汉迪, 范迪夏, 李昂. 基于高斯过程回归和深度强化学习的水下扑翼推进性能寻优方法[J]. 上海交通大学学报, 2025, 59(1): 70-78. |
| [11] | 赵艳飞1,2,3, 肖鹏4, 王景川1,2,3, 郭锐4. 基于局部语义地图的移动机器人半自主导航[J]. J Shanghai Jiaotong Univ Sci, 2025, 30(1): 27-33. |
| [12] | 刘月笙, 贺宁, 贺利乐, 张译文, 习坤, 张梦芮. 基于机器学习的移动机器人路径跟踪MPC控制器参数自整定[J]. J Shanghai Jiaotong Univ Sci, 2024, 29(6): 1028-1036. |
| [13] | 刘华华, 王青. 基于强化学习的多飞行器目标分配方法[J]. 空天防御, 2024, 7(5): 65-72. |
| [14] | 周毅, 周良才, 史迪, 赵小英, 闪鑫. 基于安全深度强化学习的电网有功频率协同优化控制[J]. 上海交通大学学报, 2024, 58(5): 682-692. |
| [15] | 穆建彬,杨海丽,何德峰. 基于控制屏障函数的自主移动机器人安全编队分布式模型预测控制[J]. J Shanghai Jiaotong Univ Sci, 2024, 29(4): 678-688. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||