J Shanghai Jiaotong Univ Sci

Select

李舒逸, 李旻哲, 敬忠良

2024 (4): 601-612.
doi: 10.1007/s12204-024-2732-1

摘要 ( 1290 )

PDF(1213KB) ( 575 )

动态环境中多智能体路径规划问题一直是一个挑战，主要是由于障碍物位置的不断变化以及智能体之间复杂的相互作用。这些因素导致解决方案收敛速度慢，甚至在某些情况下完全发散。为了解决这个问题，提出了一种利用双重决斗深度Q网络（D3QN）的新方法，适用于动态多智能体和复杂环境。设计了一种基于多智能体位置约束的新奖励函数，并采纳了一种基于增量学习的训练策略，以实现多个智能体的协作路径规划。此外，为了避免收敛到局部极值，引入了贪婪和玻尔兹曼概率选择策略来进行行动选择。为了融合雷达和图像传感器数据，构建了卷积神经网络-长短时记忆（CNN-LSTM）架构，以提取多源测量的特征作为D3QN的输入。同时，在使用机器人操作系统和Gazebo的模拟环境中验证了算法的效能和可靠性。仿真结果显示，所提出的算法为动态场景中的路径规划任务提供了实时解决方案。在平均成功率和准确性方面，所提出的方法优于其他几种深度学习算法，而且收敛速度也得到了提升。

参考文献 | 相关文章 | 计量指标

Select

异步自我感知功能失效下双积分多智能体系统的容错动态一致性

吴治海, 谢林柏

2024 (4): 613-624.
doi: 10.1007/s12204-024-2716-1

摘要 ( 324 )

PDF(540KB) ( 125 )

即使仅有部分智能体遭受自我感知功能失效，双积分多智能体系统也可能无法实现动态一致性；在实际应用中，自我感知功能失效可能是异步的；已经存在的适用于同步自我感知功能失效的容错动态一致性协议不能直接应用到异步自我感知功能失效下的动态一致性当中。考虑到这些事实，本文试图设计一个新的适用于异步自我感知功能失效的容错动态一致性协议。首先，使用多跳通信技术及异步自我感知功能失效分解思想来恢复正常智能体之间网络拓扑的连通性。接着，通过使用失效智能体的历史信息来计算它在其最短跳数正常邻集发生改变的时刻的状态信息，提出了一个新的容错动态一致性协议。然后，理论上证得：使用所提的网络拓扑连通性恢复策略以及带有恰当时变增益的容错动态一致性协议，包含所有正常智能体与所有失效智能体的双积分多智能体系统能够实现动态一致性。最后，对比数值仿真验证了理论结果的有效性。

参考文献 | 相关文章 | 计量指标

Select

带有时延和切换拓扑的二阶非线性多智能体系统事件触发固定时间一致性

邢优靖1, 高金凤1, 刘小平1, 2, 吴平1

2024 (4): 625-639.
doi: 10.1007/s12204-024-2695-2

摘要 ( 386 )

PDF(1059KB) ( 155 )

针对一类具有不确定外部干扰的二阶非线性多智能体系统的固定时间一致性问题，提出了基于事件触发的固定时间一致性协议。首先，基于反步控制的方法设计了虚拟速度，实现了系统的一致性，且收敛时间的上界仅取决于系统参数。其次，提出了一种事件触发机制去解决智能体之间频繁通信的问题，对于每个跟随者给出了基于其状态信息的事件触发条件，该机制对于节省系统通信资源和排除芝诺问题有明显效果。然后，讨论了系统在时延和切换拓扑下的固定时间收敛问题。最后，利用李雅普诺夫稳定性理论对系统的稳定性进行了分析。仿真结果验证了该方法的有效性。

参考文献 | 相关文章 | 计量指标

Select

基于全分布式事件驱动控制的多智能体系统领导-跟随一致性研究

耿宗盛1，赵东东1, 2，周兴文1，闫磊1，阎石1, 2

2024 (4): 640-645.
doi: 10.1007/s12204-024-2718-z

摘要 ( 342 )

PDF(591KB) ( 138 )

致力于研究以无向图表征的线性多智能体系统的领导-跟随一致性。具体而言，构造了一个自适应事件触发协议，此协议仅使用局部相对信息，故能以全分布式方式应用。同时，此协议也是资源友好型的，因为仅当智能体违背了设计的事件触发函数后，协议方能再次更新。针对此项研究，还提出了一个基于李雅普诺夫方法的领导-跟随一致性充分条件，同时证明了设计的协议不会产生芝诺现象。最后，提供了两个数值例子来说明本文方法的有效性。

参考文献 | 相关文章 | 计量指标

Select

基于长周期极坐标系追击问题的多智能体强化学习奖赏函数设计方法

董玉博1, 崔涛1, 周禹帆1, 宋勋2, 祝月2, 董鹏1

2024 (4): 646-655.
doi: 10.1007/s12204-024-2713-4

摘要 ( 477 )

PDF(567KB) ( 309 )

多智能体强化学习最近被应用于解决追击问题。然而，当算法面临训练的时间步数较多的长周期任务时，会遇到算法难以训练收敛的问题，进而导致智能体奖励较低、无法有效学习策略。提出了一种深度强化学习训练方法，采用联合分段多奖励函数设计方法来解决前面提到的收敛问题。联合奖励函数结合了两种不同特性的奖励函数的优点，增强了智能体在长周期任务中的训练效果。然后，提出方法消除了传统二维极坐标观测表示法中三角函数带来的奖励函数非单调行为。实验结果表明，在追逐场景中，提出的方法优于传统的单一奖励函数机制，提高了智能体在追击任务中的策略得分。方法为深度强化学习模型在长周期极坐标系追击问题中面临的收敛难题提供了解决方案，提高了模型训练性能。

参考文献 | 相关文章 | 计量指标

Select

高阶MIMO非线性多智能体系统分布式协同抗干扰控制

金飞宇，陈龙胜，李统帅，石童昕

2024 (4): 656-666.
doi: 10.1007/s12204-023-2673-0

摘要 ( 284 )

PDF(680KB) ( 347 )

对一类具有不确定性和外部动态干扰的高阶多输入多输出(multi-input and multi-output, MIMO)非线性多智能体系统(multi-agent systems, MASs)，研究了协同控制策略以解决MASs的同步跟踪问题。首先，分析了无向通讯拓扑下Laplace矩阵、领导跟随邻接矩阵和MASs一致性误差之间的耦合关系；其次，设计非线性干扰观测器(nonlinear disturbance observers, NDOs)在线估计MASs中的未知复合扰动，并基于NDO输出和动态面控制为高阶MIMO非线性MASs设计了分布式协同抗干扰控制协议；最后，基于Lyapunov稳定理论和仿真试验证明所设计控制策略的可行性和有效性。

参考文献 | 相关文章 | 计量指标

Select

基于多目标松散同步搜索的多目标多智能体异步路径规划

杜海阔1,2, 郭正玉3,4, 章露露1,2, 蔡云泽1,2

2024 (4): 667-677.
doi: 10.1007/s12204-024-2744-x

摘要 ( 397 )

PDF(1177KB) ( 121 )

近年来，多智能体路径规划技术逐渐成熟，并取得了突破性进展。多智能体路径规划的主要难点是状态空间大，算法运行时间长，优化目标多，以及多智能体动作异步。针对上述问题，本文首先介绍了研究的主要问题：多目标多智能体异步路径规划，并提出了多目标松散同步(MO-LS)搜索的算法框架。结合A*和M*，分别提出了MO-LS-A*和MO-LS-M*算法。证明了算法的完备性和最优性，并设计了一系列对比实验以分析影响算法性能的因素，验证了提出的MO-LS-M*算法具有一定的优势。

参考文献 | 相关文章 | 计量指标

Select

基于控制屏障函数的自主移动机器人安全编队分布式模型预测控制

穆建彬，杨海丽，何德峰

2024 (4): 678-688.
doi: 10.1007/s12204-024-2747-7

摘要 ( 427 )

PDF(969KB) ( 244 )

针对不确定扰动环境下自主多移动机器人系统的安全编队问题，设计了一种基于鲁棒控制屏障函数（RCBF）的分布式模型预测控制（DMPC）方法。首先，分析系统在编队过程中的安全性要求，并将其归为避碰和距离连通性保持两部分。基于避碰和连通性保持要求分别设计RCBF约束，并组合得到安全约束。然后，将所设计的安全约束与自主多移动机器人编队控制目标相结合，得到优化问题，并与DMPC方法结合以实现安全编队控制。最后，提出RCBF-DMPC算法，在满足约束和期望目标的前提下，保证算法的迭代可行性和稳定性。并通过仿真实验验证了所设计算法能够满足协同编队要求且保证系统安全性。

参考文献 | 相关文章 | 计量指标

Select

基于切换拓扑和非合作目标的无人机群系统的时变编队合围跟踪控制

武晓晶，曹童瑶，甄然，李志杰

2024 (4): 689-701.
doi: 10.1007/s12204-024-2728-x

摘要 ( 448 )

PDF(1627KB) ( 278 )

本文研究了具有切换拓扑和非合作目标的无人机集群系统的时变编队合围跟踪控制问题，其中无人机集群系统由一个跟踪领导者、多个编队领导者和跟随者组成。编队领导者需要去完成预定的时变编队并追踪上跟踪领导者期望的轨迹，并且跟随者的状态收敛到编队领导者的状态所形成的凸包内。首先，提出了一种包含相邻相对信息的编队合围跟踪协议，且给出了编队跟踪的可行性条件和代数黎卡提方程；然后，通过构造合理的李雅普诺夫函数，证明了所设计控制协议下控制系统的稳定性。最后，通过仿真算例验证了理论结果的有效性。仿真结果表明，编队跟踪误差和合围误差都是收敛的，从而系统可以很好地完成编队合围跟踪控制。实际战场上，战斗无人机需要追逐和攻击敌对无人机，但有时多无人机协同作战进行军事拦截时，就会出现编队合围跟踪控制。

参考文献 | 相关文章 | 计量指标

Select

基于改进CycleGAN的SAR图像舰船尾迹数据增强

鄢丛强1,2, 郭正玉3,4, 蔡云泽 1,2

2024 (4): 702-711.
doi: 10.1007/s12204-024-2746-8

摘要 ( 455 )

PDF(1418KB) ( 167 )

合成孔径雷达（SAR）图像的舰船尾迹研究在海洋船舶目标的探测中具有重要意义。本研究针对SAR图像舰船尾迹数据样本数量少和多样性不足的问题，提出一种基于改进的循环一致性生成对抗网络（CycleGAN）的SAR图像舰船尾迹数据增强方法。改进措施主要包括两个方面：第一，采用最小二乘损失作为对抗损失函数，提高了生成图像的质量，稳定了模型的训练过程；第二，在生成器的解码器中嵌入卷积块注意力模块（CBAM），在微观层面上解决了生成的SAR图像舰船尾迹中信息丢失的问题。实验结果表明，改进后的CycleGAN模型能生成更清晰的SAR图像舰船尾迹样本，在主观和客观方面都优于传统的CycleGAN模型。

参考文献 | 相关文章 | 计量指标

Select

复杂环境及约束下舰载机自动着舰迭代模型预测控制

张啸天1，何德峰1，廖飞2

2024 (4): 712-724.
doi: 10.1007/s12204-023-2690-z

摘要 ( 398 )

PDF(1363KB) ( 162 )

本文研究了舰载机在约束条件、甲板运动、测量噪声和未知干扰下的自动着舰问题。针对飞机的自动着陆控制问题，提出了考虑约束的迭代模型预测控制(MPC)策略。首先，利用LSTM神经网络计算飞机的自适应参考轨迹。然后引入Sage-Husa自适应卡尔曼滤波器和扰动观测器设计复合补偿器。其次，基于拉格朗日理论，提出了一种快速求解MPC滚动时域最优控制问题的迭代优化算法。在此基础上，给出了保证MPC控制下着陆系统稳定性的充分条件。最后，基于F/A-18A舰载机的仿真结果表明，本文所提出的MPC策略与传统的MPC策略相比计算效率提高近56%，满足舰载机着陆的控制性能要求。

参考文献 | 相关文章 | 计量指标

Select

基于A-Star和DWA算法的野外环境路径规划

董德金1,2，董诗音3，章露露1,2，蔡云泽1,2

2024 (4): 725-736.
doi: 10.1007/s12204-024-2731-2

摘要 ( 380 )

PDF(1452KB) ( 124 )

多要素复杂野外环境的路径规划问题仍然是一个挑战。设计了一种将全局规划和局部规划相结合的算法，应用于野外环境路径规划。提出了野外环境地图的建模过程。设计了三种优化策略来克服接触障碍物边缘、冗余节点和扭曲路径等问题，以提高A-Star算法性能，并设计了一种新的加权成本函数来实现不同的规划模式。此外，与传统的动态窗口方法（DWA）相比，改进的DWA避免了局部最优，提高了时间效率。为了对野外环境进行必要的路径重规划，将改进的A-Star与改进的DWA相结合，实现了野外环境中存在未知障碍物和移动障碍物的多要素重规划。改进的融合算法有效地解决了上述问题，节省了时间，仿真结果验证了改进算法的有效性。

参考文献 | 相关文章 | 计量指标

期刊目录