论文分享 | 北方工业大学基于自适应动态规划的多智能体编队控制研究

2024-08-30 19:30:11 1145阅读次数

扫码分享

近年来，多智能体系统由于其分散性、自主性和合作性，使得其在处理复杂任务时表现出很高的效率，能够广泛应用于目标搜索、水下和地外探索、灾难救援等领域，目前在工业界和学术界受到了广泛关注。编队控制和集群问题作为多智能体系统的关键挑战，现已成为研究的焦点。

当前，编队控制还面临着一些挑战，如避开障碍物、输入受到约束和优化指标等。传统的编队控制技术在考虑避障和受限的情况下往往会忽略对最优路径和能量消耗的考虑；同时，由于多智能体系统中智能体之间相互关联的动态特性，要直接获得这一复杂优化问题的解变得极为困难。

自适应动态规划是解决多阶段复杂决策问题优化的有效途径，其利用函数近似结构逼近动态规划方程中的性能指标函数和控制策略，以满足最优性原理，从而时间向前获得最优控制和最优性能指标函数，现已广泛应用于多智能体编队控制领域。

基于此，北方工业大学电气与控制工程学院（无人机学院）研究团队以两轮差速移动多机器人系统为被控对象，利用自适应动态规划方法实现了多智能体编队。此外，团队通过改进神经网络提高了算法的收敛速度，并通过FZMotion光学运动捕捉系统进行了实验验证。

方案设计

首先，研究团队利用自适应动态规划方法分别进行了输入受限、通信约束、增量式自适应动态规划三种情况下的多智能体编队控制行为的算法设计；随后搭建了基于 Turtlebot3 机器人、ROS 和FZMotion光学运动捕捉系统的多智能体编队实验平台，以FZMotion动捕数据作为系统真值，进行了验证实验。

以下为三种情况下的多智能体编队控制行为的框架设定与分析推演：

输入受限下多智能体编队控制及避障

团队基于两轮差速机器人模型，建立了编队误差方程，将与障碍物的碰撞和过大的控制输入视为风险，设计风险模块对风险进行惩罚，设计提出了带有风险惩罚的目标表示启发式动态规划方法（Risk-GrHDP），并经过对比分析，初步验证了设计方法的安全性和快速性。

Risk-GrHDP研究方法框架

通信约束下多智能体编队控制

在通信约束条件下，团队利用启发式动态规划方法构建编队控制策略，随后，针对智能体的前向和反向通道存在的通信约束问题，引入时间戳技术和数据包传输机制，结合网络化预测控制方法，主动补偿随机通信约束，确保通信约束下编队队形的稳定。

基于ADP的预测控制方案框架

基于增量式自适应动态规划的多智能体编队控制

受强化学习中时间差分技术的启发，团队将增量式的思想与自适应动态规划方法相结合。将神经网络的输入数据变为增量来增强模型对数据的敏感性，以提高算法的收敛速度。最后，通过数值仿真验证了所提方法的收敛速度快于传统自适应动态规划方法。

增量式执行依赖启发式动态规划框架

验证实验

为了有效验证上述控制算法的可行性，研究团队设计了编队实验验证。

实验框架与实物实验平台

团队首先搭建了基于 Turtlebot3机器人的多智能体实验平台，采用FZMotion光学运动捕捉系统定位三辆Turtlebot3，使用 ROS 的话题发布与订阅机制进行通信。算法程序在上位机中运行，随后将速度指令发布，每辆 Turtlebot3 通过订阅各自的速度话题来执行速度指令，完成上述三种期望编队任务。