异构多智能体系统的输出同步：一个基于数据的强化学习方法

doi:10.11959/j.issn.2096-6652.202042

异构多智能体系统的输出同步：一个基于数据的强化学习方法

刘莹莹, 王占山

东北大学信息科学与工程学院，辽宁沈阳 110819

Output synchronization of heterogeneous multi-agent system:a reinforcement learning approach based on data

LIU Yingying, WANG Zhanshan

College of Information Science and Engineering, Northeastern University, Shenyang 110819, China

通讯作者: 王占山，zhanshan_wang@163.com

修回日期: 2020-12-01 网络出版日期: 2020-12-15

基金资助:

国家自然科学基金资助项目.  61973070
辽宁省“兴辽英才计划”资助项目.  XLYC1802010
流程工业综合自动化基础研究基金资助项目.  2018ZCX22

Revised: 2020-12-01 Online: 2020-12-15

Fund supported:

The National Natural Science Foundation of China.  61973070
Liaoning Revitalization Talents Program.  XLYC1802010
SAPI Fundamental Research Funds.  2018ZCX22

作者简介 About authors

刘莹莹（1995-），女，东北大学信息科学与工程学院博士生，主要研究方向为数据驱动的系统无模型控制、基于强化学习的系统最优控制、多智能体系统最优控制等。。

王占山（1971-），男，博士，东北大学信息科学与工程学院教授、博士生导师，主要研究方向为神经动力系统稳定性理论、复杂网络同步性与一致性以及数据驱动的智能故障诊断与自适应容错控制等。。

摘要

通过强化学习研究了异构多智能体系统的输出同步问题。根据多智能体系统的拓扑结构，定义一个具有邻居控制输入的性能指标和价值函数。为克服已有控制方法需要系统模型的弊端，提出一个基于系统数据的强化学习算法，使输出同步控制器也可以被应用于模型未知的情况。此外，通过调节价值函数中的权重矩阵，可以减少每个智能体的控制成本。最后，通过一个仿真示例验证了该方法的有效性和定义的价值函数的优越性。

关键词： 多智能体系统 ; 强化学习 ; 输出同步 ; 基于数据

Abstract

The output synchronization of heterogeneous multi-agent system was studied by reinforcement learning.According to the topology of multi-agent system, the performance index and value function with neighbor control input were defined.To overcome the disadvantage of existing control methods that require system model, a reinforcement learning algorithm based on system data was proposed.Hence, the output synchronization controller can also be applied when the system model was unknown.In addition, by adjusting the weight matrix in value function, the control cost of each agent can be reduced.Finally, a simulation example was given to illustrate the effectiveness of proposed method and the superiority of defined value function.

Keywords： multi-agent system ; reinforcement learning ; output synchronization ; based on data

PDF (1066KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘莹莹, 王占山. 异构多智能体系统的输出同步：一个基于数据的强化学习方法. 智能科学与技术学报[J], 2020, 2(4): 394-400 doi:10.11959/j.issn.2096-6652.202042

LIU Yingying. Output synchronization of heterogeneous multi-agent system:a reinforcement learning approach based on data. Chinese Journal of Intelligent Science and Technology[J], 2020, 2(4): 394-400 doi:10.11959/j.issn.2096-6652.202042

1 引言

多智能体系统（multi-agent system，MAS）可以描述一组系统的集体行为，并且有很多重要的应用^[1,2,3]。近些年涌现了大量关于MAS问题的研究^[4,5,6,7,8]。其中，输出同步问题是 MAS 的一个基本问题。在很多实际应用中，每个智能体的动态和维度可能是不同的，因此，研究异构 MAS 的输出同步是十分重要的^[9]。

目前，已经有许多关于异构 MAS 输出同步问题的分布式控制器设计方法的研究^[10,11,12]。大部分控制器设计方法需要求解 MAS 的输出调节方程，并且不可避免地需要系统模型信息。参考文献[11]基于内模原理提出了一种统一的方法来解决异构MAS的输出群同步问题。参考文献[12]通过设计分布式观测器研究了离散MAS的协同输出调节问题。参考文献[11-12]都是基于系统模型得到的结果。然而，在许多实际应用中是无法获取 MAS 的精确模型的。因此，已有的分布式控制方法不能应用于这些系统模型未知的情况。

强化学习起源于“试错学习”，强调使用基于环境的反馈修改行为，它由英国生物和心理学家Conway Morgan正式提出^[13]。随后，Werbos P J将强化学习用于求解单系统的最优调节问题^[14,15]。由于强化学习可以利用系统数据迭代求解最优控制问题，它也被广泛应用于求解MAS问题^[7,16,17]。例如，参考文献[16]利用离策略强化学习算法求解MAS的最优输出同步问题。

作为强化学习的一种，Q学习可以利用系统状态和控制信息求解最优控制问题^[18,19]。因此，可以借助系统数据，利用Q学习求解异构MAS的输出同步问题。参考文献[19]通过Q学习算法求取离散时间异构MAS的最优分布式控制策略。

对于大多数求解异构 MAS 输出同步问题的强化学习算法，其价值函数由追踪误差和智能体本身的控制输入组成^[16,17,19]。这样的价值函数虽然能在一定程度上减少控制成本，但是没有考虑 MAS 拓扑结构对价值函数的影响，即没有考虑邻居智能体对智能体本身的影响。因此需要定义一个包含邻居控制输入信息的性能指标和价值函数，从而减少每个智能体的控制成本。

基于以上讨论，在价值函数中考虑异构 MAS的拓扑信息，并借助系统数据，使用强化学习方法求解异构 MAS 的输出同步问题是十分迫切的。因此，本文定义了一个含有邻居控制输入信息的性能指标，然后基于强化学习中的Q学习提出一个求解MAS控制器的强化学习算法。

2 基本知识和问题描述

本节首先描述图理论和 MAS 的连接拓扑，然后阐述MAS的输出同步问题。

2.1 图理论和MAS的连接拓扑

一般来说，MAS 的连接拓扑可以用图理论描述。构成图 $S = (V, E, A)$ 的3个要素分别是节点集 $V = {1, \dots, N}$ 、边集 $E \in V \times V$ 和邻接矩阵 $A = [a_{i j}], i, j = 1, \dots, N$ 。图 $S$ 的边由v_ij =(j,i)表示，意味着信息由节点 j 流向节点i。如果 $v_{i j} \in E$ ，则a_ij >0，否则a_ij =0。除此之外，节点i的邻居集定义为 $N_{i} = {j | v_{i j} \in E}$ 。图 $S$ 的度矩阵 $D$ 定义为 $D = diag {d_{i}}$ , $d_{i} = \sum_{j = 1}^{N} a_{i j}$ 。由此可得图 $S$ 的拉普拉斯（Laplacian）矩阵 $L = D - A$ 。

如果 MAS 存在领导者，并且每个智能体都可以直接或间接获得领导者的信息，那么图 $S$ 包含了一个生成树。如果领导者直接连接到节点i上，那么牵引增益g_i =1，否则g_i =0。图 $S$ 的牵引矩阵为 $G = diag {g_{i}}, i = 1, \dots, N$ 。

2.2 MAS的输出同步

考虑如下线性离散时间异构MAS：

x_{i} (k + 1) = A_{i} x_{i} (k) + B_{i} u_{i} (k)

y_{i} (k) = C_{i} x_{i} (k), i = 1, \dots, N (1)

其中，N代表智能体的个数， $x_{i} (k) \in ℝ^{n_{i}}$ 、 $u_{i} (k) \in ℝ^{m_{i}}$ 和 $y_{i} (k) \in ℝ^{q}$ 分别代表智能体i的系统状态、控制输入（即分布式控制器）和输出，n_i、m_i、q分别表示 $x_{i}$ 、 $u_{i}$ 、 $y_{i}$ 的维度。系统矩阵 $A_{i} \in ℝ^{n_{i} \times n_{i}}$ 、 $B_{i} \in ℝ^{n_{i} \times m_{i}}$ 、 $C_{i} \in ℝ^{q \times n_{i}}$ 是时不变的。同时，假设 $(A_{i}, B_{i})$ 是可控的。

领导者的动态表示如下：

x_{0} (k + 1) = A_{0} x_{0} (k)

y_{0} (k) = C_{0} x_{0} (k) (2)

其中， $x_{0} (k) \in ℝ^{p}$ 和 $y_{0} (k) \in ℝ^{q}$ 表示领导者的系统状态和输出，p 表示 $x_{0}$ 的维度。系统矩阵 $A_{0} \in ℝ^{p \times p}$ 、 $C_{0} \in ℝ^{q \times p}$ 。

根据式（2）和图 $S$ ，给出MAS输出同步问题的通用假设^[20]，具体如下。

假设 1：领导者的所有特征值都在单位圆上，并且不重复。

假设2：图 $S$ 存在生成树。

对于线性离散时间异构MAS，输出同步问题就是设计一个分布式控制器 $u_{i} (k)$ ，使所有智能体的输出 $y_{i} (k)$ 和领导者的输出 $y_{0} (k)$ 达到同步。追踪误差 $e_{i} (k), i = 1, \dots, N$ 定义为：

e_{i} (k) = y_{i} (k) - y_{0} (k) (3)

并且追踪误差需要满足：

\lim_{k \to \infty} e_{i} (k) = 0, \forall i = 1, \dots, N (4)

3 利用强化学习解决MAS的输出同步问题

在第3.1节定义了一个具有邻居控制输入的性能指标和价值函数，根据定义的价值函数得到MAS的贝尔曼（Bellman）方程。基于Bellman最优原则，得到一个基于系统模型的最优控制表达式。为了在系统模型未知的情况下也可以控制MAS达到同步，在第3.2节基于强化学习中的Q学习提出了一个求解MAS控制器的强化学习算法。

3.1 基于模型的最优控制器

根据式（3）和式（4），定义需要最小化的性能指标：

J_{i} (e_{i} (k), u_{i} (k), u_{j} (k)) =

\sum_{l = k}^{\infty} λ^{l - k} L_{i} [e_{i} (l), u_{i} (l), u_{j} (l)] =

\sum_{l = k}^{\infty} λ^{l - k} [{(y_{i} (l) - y_{0} (l))}^{⊤} W_{i} (y_{i} (l) - y_{0} (l)) +

u_{i}^{⊤} (l) R_{i} u_{i} (l) + \sum_{j \in N_{i}} u_{j}^{⊤} (l) R_{i j} u_{j} (l)] (5)

其中，λ为折扣因子， $W_{i} \in ℝ^{q \times q}$ 、 $R_{i} \in ℝ^{m_{i} \times m_{i}} > 0$ 、 $R_{i j} \in ℝ^{m_{j} \times m_{j}} \geq 0$ 为对称矩阵。由式（5）可知，智能体i的追踪性能不仅取决于其追踪误差和控制输入信息，还取决于与其相连的邻居智能体j的输入信息，这与 MAS 的拓扑结构相关。因此，最小化性能指标可以减少每个智能体的控制成本，并完成 MAS 的共同任务——输出同步。

基于式（5），如果控制策略 $u_{i}$ 是可允许的（即控制策略 $u_{i}$ 是可以得到并输入系统的），则每个智能体的价值函数可以定义为：

V_{i} (k) = J_{i} (e_{i}^{} (k), u_{i} (k), u_{j} (k)) (6)

定义增广状态 $X_{i} (k) = [x_{i} (k)^{⊤}, x_{0} (k)^{⊤}]^{⊤} \in ℝ^{n_{i} + p}$ 、 $Y_{i} (k) = [y_{i} (k)^{⊤}, y_{0} (k)^{⊤}]^{⊤} \in ℝ^{2 q}$ 。根据式（1）和式（2），相应的增广系统为：

X_{i} (k + 1) = {\bar{A}}_{i} X_{i} (k) + {\bar{B}}_{i} u_{i} (k)

Y_{i} (k) = {\bar{C}}_{i} X_{i} (k) (7)

其中，系统矩阵 ${\bar{A}}_{i} = [\begin{matrix} A_{i} & 0 \\ 0 & A_{0} \end{matrix}] \in ℝ^{(n_{i} + p) \times (n_{i} + p)}$ 、 ${\bar{B}}_{i} = [\begin{matrix} B_{i} \\ 0 \end{matrix}] \in ℝ^{(n_{i} + p) \times m_{i}}$ 、 ${\bar{C}}_{i} = [\begin{matrix} C_{i} & 0 \\ 0 & C_{0} \end{matrix}] \in ℝ^{2 q \times (n_{i} + p)}$ 。

根据增广状态 $X_{i} (k)$ ，价值函数可写为：

V_{i} (k) = \sum_{l = k}^{\infty} λ^{l - k} (X_{i}^{⊤} (l) {\bar{W}}_{i} X_{i} (l) ​ + u_{i}^{⊤} (l) R_{i} u_{i} (l) +

\sum_{j \in N_{i}} u_{j}^{⊤} (l) R_{i j} u_{j} (l)) (8)

其中， ${\bar{W}}_{i} = [\begin{matrix} C_{i}^{⊤} W_{i} C_{i} & - C_{i}^{⊤} W_{i} C_{0} \\ - C_{0}^{⊤} W_{i} C_{i} & C_{0}^{⊤} W_{i} C_{0} \end{matrix}] \in ℝ^{(n_{i} + p) \times (n_{i} + p)}$ 。

注释1：不同于已有的研究异构MAS输出同步问题的文章（如参考文献[16-17,19]），本文的价值函数包含邻居智能体 $j (j \in N_{i})$ 的控制输入 $u_{j}$ 和邻居控制权重矩阵 $R_{i j}$ 。可以通过调节 $R_{i j}$ 来调节 $u_{j}$ 在价值函数中的占比。因此，本文可以在减少自身控制成本的同时，减少邻居智能体的控制成本。

对于由线性系统（式（1））和二次价值函数（式（8））构成的线性二次追踪问题，其价值函数在状态上是二次的。此外，因为价值函数（式（8））考虑了邻居智能体的控制输入，所以智能体i的价值函数与由自身状态和邻居状态构成的二次型函数近似。因此，价值函数（式（8））可以近似表示为如下二次型形式：

V_{i} (k) = [\begin{matrix} X_{i} {(k)}^{⊤} & {\sum_{j \in N_{i}} X_{j} (k)}^{⊤} \end{matrix}] P_{i} [\begin{matrix} X_{i} (k) \\ \sum_{j \in N_{i}} X_{j} (k) \end{matrix}] (9)

其中， $P_{i} = [\begin{matrix} P_{i}^{11} & P_{i}^{12} \\ P_{i}^{21} & P_{i}^{22} \end{matrix}] = P_{i}^{⊤} > 0$ 且 $P_{i}^{11} \in ℝ^{(n_{i} + p) \times (n_{i} + p)}$ 、 $P_{i}^{12} \in ℝ^{(n_{i} + p) \times \sum_{j \in N_{i}} (n_{j} + p)}$ 、 $P_{i}^{21} \in ℝ^{\sum_{j \in N_{i}} (n_{j} + p) \times (n_{i} + p)}$ 、 $P_{i}^{22} \in ℝ^{\sum_{j \in N_{i}} (n_{j} + p) \times \sum_{j \in N_{i}} (n_{j} + p)}$ 。注意矩阵 $P_{i}$ 是构成价值函数V_i(k)二次型形式的内核矩阵，下一节将用矩阵 $P_{i}$ 推导出MAS的Q学习算法。

结合Bellman原则，可以得到MAS的Bellman方程：

V_{i} (k) ​ = X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + ​ u_{i}^{⊤} (k) R_{i} ​ u_{i} (k) + ​

\sum_{j \in N_{i}} ​ u_{j}^{⊤} (k) R_{i j} ​ u_{j} (k) ​ + λ V_{i} (k + 1) (10)

根据 Bellman 最优原则，可以得到 MAS 的Bellman最优方程：

V_{i}^{*} (k) ​ = ​ \min_{_{u_{i} (k)}} {​ X_{i}^{⊤} (k) {\bar{W}}_{i} ​ X_{i} (k) ​ + ​ ​ u_{i}^{⊤} (k) R_{i} ​ u_{i} (k) ​ +

\sum_{j \in N_{i}} ​ u_{j}^{⊤} (k) R_{i j} ​ u_{j} (k) + λ V_{i}^{*} (k + 1)} ​ (11)

相应的最优控制为：

u_{i}^{*} (k) = \arg ​ \min_{_{u_{i} (k)}} {X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + ​ u_{i}^{⊤} (k) R_{i} u_{i} (k) + ​

\sum_{j \in N_{i}} u_{j}^{⊤} (k) R_{i j} u_{j} (k) + λ V_{i}^{*} (k + 1)} (12)

为了求得最优控制的具体表达式，将价值函数的二次型形式（式（9））代入式（10），得到：

[\begin{matrix} X_{i} {(k)}^{⊤} & {\sum_{j \in N_{i}} X_{j} (k)}^{⊤} \end{matrix}] P_{i} [\begin{matrix} X_{i} (k) \\ \sum_{j \in N_{i}} X_{j} (k) \end{matrix}] ​ = ​

X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + ​ u_{i}^{⊤} (k) R_{i} u_{i} (k) ​ + \sum_{j \in N_{i}} u_{j}^{⊤} (k) R_{i j} u_{j} (k) ​ +

λ [\begin{matrix} X_{i} {(k + 1)}^{⊤} & {\sum_{j \in N_{i}} X_{j} (k + 1)}^{⊤} \end{matrix}] P_{i} [\begin{matrix} X_{i} (k + 1) \\ \sum_{j \in N_{i}} X_{j} (k + 1) \end{matrix}] (13)

由此定义相应的哈密尔顿（Hamiltonian）函数H_i(k)为：

H_{i} (k) = X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + ​ u_{i}^{⊤} (k) R_{i} ​ u_{i} (k) ​ + \sum_{j \in N_{i}} ​ u_{j}^{⊤} (k) R_{i j} ​ u_{j} (k) + ​

λ [\begin{matrix} X_{i} {(k + 1)}^{⊤} & {\sum_{j \in N_{i}} X_{j} (k + 1)}^{⊤} \end{matrix}] P_{i} [\begin{matrix} X_{i} (k + 1) \\ \sum_{j \in N_{i}} X_{j} (k + 1) \end{matrix}] -

[\begin{matrix} X_{i} {(k)}^{⊤} & {\sum_{j \in N_{i}} X_{j} (k)}^{⊤} \end{matrix}] P_{i} [\begin{matrix} ​ X_{i} (k) \\ \sum_{j \in N_{i}} X_{j} (k) \end{matrix}] (14)

将式（7）代入式（14），通过

\frac{\partial H_{i} (k)}{\partial u_{i} (k)} = 0 (15)

可以求得最优控制的具体表达式为：

u_{_{i}}^{*} (k) = {\bar{K}}_{i} η_{i} (k) =

{\bar{K}}_{i}^{1} X_{i} (k) + {\bar{K}}_{i}^{2} \sum_{j \in N_{i}} X_{j} (k) + {\bar{K}}_{i}^{3} \sum_{j \in N_{i}} u_{j} (k) (16)

其中， ${\bar{K}}_{i}^{}$ 、 ${\bar{K}}_{i}^{1}$ 、 ${\bar{K}}_{i}^{2}$ 、 ${\bar{K}}_{i}^{3}$ 分别为控制器的控制增益

{\bar{K}}_{i}^{1} = - λ (R_{i} + λ {\bar{B}}_{i}^{⊤} P_{i}^{11} {\bar{B}}_{i})^{- 1} {\bar{B}}_{i}^{⊤} P_{i}^{11} {\bar{A}}_{i}

{\bar{K}}_{i}^{2} = - λ (R_{i} + λ {\bar{B}}_{i}^{⊤} P_{i}^{11} {\bar{B}}_{i})^{- 1} {\bar{B}}_{i}^{⊤} P_{i}^{12} \sum_{j \in N_{i}} {\bar{A}}_{j}

{\bar{K}}_{i}^{3} = - λ (R + λ {\bar{B}}_{i}^{⊤} P_{i}^{11} {\bar{B}}_{i})^{- 1} {\bar{B}}_{i}^{⊤} P_{i}^{12} \sum_{j \in N_{i}} {\bar{B}}_{j} (17)

并且 $P_{i}$ 满足式（13）。

由式（17）可知，所获得的控制器是基于系统模型 $(A_{i}, B_{i}, C_{i})$ 的，它无法在系统模型未知的情况下完成 MAS 的输出同步控制。因此，下一节将给出一个基于数据的强化学习算法，通过该算法进一步求解MAS的输出同步问题。

3.2 基于Q学习的MAS强化学习算法

在第3.1节针对模型已知的情况给出了一个需要系统模型的控制器。但是，在一些实际系统中，被控MAS 的精确模型是无法获取的。为了提高系统的适应性和学习性，本节提出了一个基于系统数据的Q学习算法，通过该算法求解MAS的同步控制器。

根据Bellman式（式（10）），定义MAS的Q函数为：

Q_{i} (k) ​ = ​ X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + u_{i}^{⊤} (k) R_{i} u_{i} (k) ​ +

\sum_{j \in N_{i}} u_{j}^{⊤} (k) R_{i j} u_{j} (k) ​ + λ V_{i} (k + 1) (18)

结合增广系统（式（7））和价值函数（式（9）），式（18）的Q函数变为：

Q_{i} (k) ​ = ​ X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + ​ u_{i}^{⊤} (k) R_{i} u_{i} (k) ​ +

\sum_{j \in N_{i}} u_{j}^{⊤} (k) R_{i j} u_{j} (k) + λ s_{i}^{⊤} (k) U^{⊤} P_{i} U_{i} s_{i} (k) =

s_{i}^{⊤} (k) E_{i} s_{i} (k) (19)

其中， $s_{i} (k) = {[\begin{matrix} u_{i}^{⊤} (k) & X_{i}^{⊤} (k) & \sum_{j \in N_{i}} X_{j}^{⊤} (k) & \sum_{j \in N_{i}} u_{j}^{⊤} (k) \end{matrix}]}^{⊤}$ Xj 、 $U_{i} = [\begin{matrix} {\bar{B}}_{i} & {\bar{A}}_{i} & 0 & 0 \\ 0 & 0 & \sum_{j \in N_{i}} {\bar{A}}_{j} & \sum_{j \in N_{i}} {\bar{B}}_{j} \end{matrix}]$ 、 $E_{i} = [\begin{matrix} R_{i} & 0 & 0 & 0 \\ * & {\bar{W}}_{i} & 0 & 0 \\ * & * & 0 & 0 \\ * & * & * & \sum_{j \in N_{i}} R_{i j} \end{matrix}]$ + $λ U_{i}^{⊤} p_{i} U_{i} = [\begin{matrix} E_{u u}^{i} & E_{u X}^{i} & E_{u \ X}^{i} & E_{u \ u}^{i} \\ * & E_{X X}^{i} & E_{X \ X}^{i} & E_{X \ u}^{i} \\ * & * & E_{\ X \ X}^{i} & E_{\ X \ u}^{i} \\ * & * & * & E_{\ u \ u}^{i} \end{matrix}]$ 。

然后根据

\frac{\partial Q_{i} (k)}{\partial u_{i} (k)} = 0 (20)

得到控制器：

u_{i} (k) = K_{i} η_{i} (k) = - {(E_{u u}^{i})}^{- 1} [E_{u X}^{i} E_{u \ X}^{i} E_{u \ u}^{i}] η_{i} (k) (21)

根据式（21），要想得到控制器 $u_{i} (k)$ ，就要先求矩阵 $E_{i}$ 。因为

V_{i}^{*} (k) ​ = ​ \min_{_{u_{i} (k)}} Q_{i} (k) = Q_{i}^{*} (k) (22)

所以Q函数的Bellman方程为：

Q_{i} (k) ​ = ​ X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + ​ u_{i}^{⊤} (k) R_{i} ​ u_{i} (k) + ​

\sum_{j \in N_{i}} ​ u_{j}^{⊤} (k) R_{i j} ​ u_{j} (k) ​ + λ Q_{i} (k + 1) (23)

根据式（19），式（23）变为：

s_{i}^{⊤} (k) E_{i} s_{i} (k) = X_{i}^{⊤} (k) {\bar{W}}_{i} X_{i} (k) ​ + ​ u_{i}^{⊤} (k) R_{i} ​ u_{i} (k) + ​

\sum_{j \in N_{i}} ​ u_{j}^{⊤} (k) R_{i j} ​ u_{j} (k) ​ + λ s_{i}^{⊤} (k + 1) E_{i} s_{i} (k + 1) (24)

由此，可以通过式（24）求得矩阵 $E_{i}$ ，进而求得控制器（式（21））。然而，此时求得的控制器要求每个智能体都能知道领导者的信息 $x_{0} (k)$ ，这在不同的拓扑结构下是无法保证的，因此需要引入一个分布式观测器 $x_{0} (k)$ ：

x_{0}^{i} (k + 1) = A_{0} x_{0}^{i} (k) + c(1 + d_{i} + g_{i})^{- 1} M \times

[\sum_{j = 1}^{N} a_{i j} (x_{0}^{j} (k) - x_{0}^{i} (k)) + g_{i} (x_{0} (k) - x_{0}^{i} (k))] (25)

其中，c是一个正常数， $M$ 是一个待设计的矩阵。通过观测器，未被牵引到领导者的智能体i也可以获得领导者的估计信息。

定义观测误差 ${\tilde{x}}^{i}_{0} (k) = x^{i}_{0} (k) - x_{0} (k)$ ，所以

X_{i} (k) = {\hat{X}}_{i} (k) - {\tilde{X}}_{i} (k) = [\begin{matrix} x_{i} (k) \\ x^{i}_{0} (k) \end{matrix}] - [\begin{matrix} 0 \\ {\tilde{x}}^{i}_{0} (k) \end{matrix}] (26)

基于式（26）， $s_{i} (k)$ 和 $η_{i} (k)$ 可以改写为：

s_{i} (k) = [\begin{matrix} u_{i}^{⊤} (k) \\ {\hat{X}}_{i}^{⊤} (k) \\ \sum_{j \in N_{i}} {\hat{X}}_{j}^{⊤} (k) \\ \sum_{j \in N_{i}} u_{j}^{⊤} (k) \end{matrix}] - [\begin{matrix} 0 \\ {\tilde{X}}_{i}^{⊤} (k) \\ \sum_{j \in N_{i}} {\tilde{X}}_{j}^{⊤} (k) \\ 0 \end{matrix}] = {\hat{s}}_{i} (k) - {\tilde{s}}_{i} (k) (27)

η_{i} (k) = [\begin{matrix} {\hat{X}}_{i} (k) \\ \sum_{j \in N_{i}} {\hat{X}}_{j} (k) \\ \sum_{j \in N_{i}} u_{j} (k) \end{matrix}] - [\begin{matrix} {\tilde{X}}_{i} (k) \\ \sum_{j \in N_{i}} {\tilde{X}}_{j} (k) \\ 0 \end{matrix}] = {\hat{η}}_{i} (k) - {\tilde{η}}_{i} (k) (28)

需要说明的是，本文引入的观测器（式（25））在参考文献[19]中已有研究。考虑到篇幅的限制，笔者进行了简要的描述。根据参考文献[19]，观测误差 ${\tilde{x}}^{i}_{0} (k)$ 是稳定的，因此当k→∞时， ${\tilde{X}}_{i} (k) \to 0$ 。

结合式（21）、式（24）及式（26）~（28），可用如下基于Q学习的强化学习算法求解MAS同步控制器。

算法1 基于Q学习的强化学习算法

步骤1：初始化。设置迭代数l=0，选择任意的控制策略 $u_{i}^{0} (k), i = 1, \dots, N$ 。

步骤2：价值更新。

{\hat{s}}_{i}^{⊤} (k) E^{l + 1}_{i} {\hat{s}}_{i} (k) = {\hat{X}}_{i}^{⊤} (k) {\bar{W}}_{i} {\hat{X}}_{i} (k) ​ + u_{i}^{l} (k)^{⊤} R_{i} u_{i} {^{l}}_{i} (k) ​ +

\sum_{j \in N_{i}} u_{j}^{l} (k)^{⊤} R_{i j} u^{l}_{j} (k) ​ + λ {\hat{s}}_{i}^{⊤} (k + 1) E^{l}_{i} {\hat{s}}_{i} (k + 1) (29)

步骤3：策略提升。

u_{i}^{l + 1} (k) = K_{i}^{l + 1} {\hat{η}}_{i} (k) =

- {({(E_{u u}^{i})}^{l + 1})}^{- 1} {[\begin{matrix} E_{u X}^{i} & E_{u \ X}^{i} & E_{u \ u}^{i} \end{matrix}]}^{l + 1} {\hat{η}}_{i} (k) (30)

步骤4：判断终止条件。设ε是一个小的正值，如果 $| (K_{i})^{l + 1} - (K_{i})^{l} | \leq ε$ ，停止迭代，否则l=l+1，并跳转到步骤2。

注释2：从算法1可以看出，式（30）基于系统数据求解异构 MAS 的输出同步问题。因此，本文通过强化学习中的 Q 学习克服了已有研究需要系统模型的弊端^[12,13]。

4 仿真示例

本节给出一个仿真示例来验证所提方法的有效性。对于线性离散时间异构MAS（式（1）），N=3，其中，

A_{1} = [2], B_{1} = [3], C_{1} = [1],

A_{2} = [\begin{matrix} - 1 & 2 \\ 2.2 & 1.7 \end{matrix}], B_{2} = [\begin{matrix} 2 \\ 1.6 \end{matrix}], C_{2} = [\begin{matrix} 1 & 2 \end{matrix}],

A_{3} = [\begin{matrix} 1 & 1 \\ 10 & 3 \end{matrix}], B_{3} = [\begin{matrix} 3 \\ 2 \end{matrix}], C_{3} = [\begin{matrix} 1 & 1 \end{matrix}] (31)

对于领导者动态（式（2）），其中，

A_{0} = [\begin{matrix} cos (0.1) & sin (0.1) \\ - sin (0.1) & cos (0.1) \end{matrix}], C_{0} = [\begin{matrix} 1 & 1 \end{matrix}] (32)

从式（31）和式（32）可以看出，系统动态矩阵 $A_{i}, i = 1, \dots, N$ 和领导者动态矩阵 $A_{0}$ 的维度和数值是不同的，因此可以通过上述示例验证异构MAS的输出同步问题。MAS的有向拓扑如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 MAS的有向拓扑

从以上描述可知，n₁ =1、n₂=n₃ = 2、q =1、m ₁=m₂ =m₃=1、p=2，则由图1可知， $A = [\begin{matrix} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{matrix}]$ 、 $D = [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}]$ 、 $G = [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{matrix}]$ 。

式（15）中参数如下：λ=0.9、 $R_{i} = 10$ 、 $W_{i} = 40$ , $i = 1, \dots, N$ 、 $R_{13} = 10$ 、 $R_{21} = 10$ 、 $R_{32} = 10$ 。

基于以上信息，通过算法1可以获得系统的控制律。图2和图3分别是控制律作用于系统上的输出和跟踪误差。最终，智能体的输出 $y_{i} (k), i = 1, \dots, N$ 追踪到了领导者的输出 $y_{0} (k)$ ，跟踪误差趋于0，从而解决了异构 MAS 的输出同步问题，验证了本文方法的有效性。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 智能体的输出 $y_{i} (k)$ 和领导者的输出 $y_{0} (k)$

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 跟踪误差 $e_{i} (k)$

为了进一步验证注释 1，选取 $R_{13} = 0.01$ 、 $R_{21} = 0.01$ 、 $R_{32} = 0.01$ ，即智能体i的价值函数中几乎没有邻居智能体的输入。图4，图5，图6展示了MAS控制过程中不同 $R_{i j}, j \in N_{i}$ 下控制输入的变化。

由图4，图5，图6可知，小权重 $R_{i j} = 0.01$ 对应大的控制输入幅值，大权重 $R_{i j} = 10$ 对应小的控制输入幅值。因此，可以通过调节 $R_{i j}$ 减少每个智能体的控制成本，从而验证了本文定义的具有邻居控制输入的性能指标和价值函数的优越性。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 不同权重矩阵下 $u_{1} (k)$ 的变化

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 不同权重矩阵下 $u_{2} (k)$ 的变化

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 不同权重矩阵下 $u_{3} (k)$ 的变化

5 结束语

本文研究了异构MAS的输出同步问题。首先，通过定义一个具有邻居控制输入的性能指标和价值函数，得到MAS的Bellman方程；然后，根据最优原则得到基于模型的 MAS 输出同步问题的控制器；为了使控制器也可以应用于模型未知的情况，提出一种基于Q学习的强化学习算法；最后，给出一个仿真示例，并验证了本文方法的有效性。通过调节权重矩阵，体现了本文定义的价值函数的优越性。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

X W

, SOH

Y C

, XIE

L H

,et al.

Cooperative output regulation of heterogeneous linear multi-agent networks via H_∞performance allocation

[J]. IEEE Transactions on Automatic Control, 2019,64(2): 683-696.

[本文引用: 1]

[2]

孙长银, 穆朝絮 .

多智能体深度强化学习的若干关键科学问题

[J]. 自动化学报, 2020,7(46): 1301-1312.

[本文引用: 1]

SUN

C Y

, MU

C X

Important scientific problems of multi-agent deep reinforcement learning

[J]. Acta Automatica Sinica, 2020,7(46): 1301-1312.

[本文引用: 1]

[3]

裴国旭, 杜晓明, 薛昭 ,等.

多智能体系统在军事仿真领域的应用现状

[J]. 飞航导弹, 2017(2): 46-49,73.

[本文引用: 1]

PEI

G X

, DU

X M

, XUE

,et al.

Application status of multi-agent system in military simulation field

[J]. Aerodynamic Missile Journal, 2017(2): 46-49,73.

[本文引用: 1]

[4]

ABDELKADER

, ABDELHAMID

Distributed output regulation of heterogeneous linear multi-agent systems with communication constraints

[J]. Automatica, 2018,91: 152-158.

[本文引用: 1]

[5]

史乐, 李辉, 原江波 .

基于消息通信的多智能体系统的应用

[J]. 计算机应用, 2008,28(2): 531-534.

[本文引用: 1]

SHI

, LI

, YUAN

J B

Multi-agent system based on the message communicaiton

[J]. Journal of Computer Applications, 2008,28(2): 531-534.

[本文引用: 1]

[6]

QIN

J H

, MA

Q C

, SHI

,et al.

Recent advances in consensus of multi-agent systems:a brief survey

[J]. IEEE Transactions on Industrial Electronics, 2017,64(6): 4972-4983.

[本文引用: 1]

[7]

ZHANG

H G

, JIANG

, LUO

Y H

,et al.

Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method

[J]. IEEE Transactions on Industrial Electronics, 2017,64(5): 4091-4100.

[本文引用: 2]

[8]

WANG

, YANG

G H

Fault-tolerant consensus tracking control for linear multi-agent systems under switching directed network

[J]. IEEE Transactions on Cybernetics, 2020,50(5): 1921-1930.

[本文引用: 1]

[9]

ZHANG

J C

, ZHU

F L

Observer-based output consensus of a class of heterogeneous multi-agent systems with unmatched disturbances

[J]. Communications in Nonlinear Science and Numerical Simulation, 2018,56: 240-251.

[本文引用: 1]

[10]

LIU

Adaptive cooperative output regulation for a class of nonlinear multi-agent systems

[J]. IEEE Transactions on Automatic Control, 2015,60(6): 1677-1682.

[本文引用: 1]

[11]

, QIN

, ZHENG

W X

,et al.

Output group synchronization for networks of heterogeneous linear systems under internal model principle

[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2018,65(5): 1684-1695.

[本文引用: 3]

[12]

YAN

Y M

, HUANG

Cooperative output regulation of discrete-time linear time-delay multi-agent systems

[J]. IET Control Theory ＆ Applications, 2016,10(16): 2019-2026.

[本文引用: 4]

[13]

王飞跃, 曹东璞, 魏庆来 .

强化学习:迈向知行合一的智能机制与算法

[J]. 智能科学与技术学报, 2020,2(2): 101-106.

[本文引用: 2]

WANG

F Y

, CAO

D P

, WEI

Q L

Reinforcement learning:toward actionknowledge merged intelligent mechanisms and algorithms

[J]. Chinese Journal of Intelligent Science and Technology, 2020,2(2): 101-106.

[本文引用: 2]

[14]

LEWIS

F L

, VRABIE

Reinforcement learning and adaptive dynamic programming for feedback control

[J]. IEEE Circuits and Systems Magazine, 2009,9(3): 32-50.

[本文引用: 1]

[15]

LIU

Y Y

, WANG

Z S

, SHI

H_∞ tracking control for linear discrete-time systems via reinforcement learning

[J]. International Journal of Robust and Nonlinear Control, 2020,30(1): 282-301.

[本文引用: 1]

[16]

MODARES

, NAGESHRAO

S P

, LOPES

G A D

,et al.

Optimal model-free output synchronization of heterogeneous systems using off-policy reinforcement learning

[J]. Automatica, 2016,71: 334-341.

[本文引用: 4]

[17]

MODARES

, LEWIS

F L

, KANG

,et al.

Optimal synchronization of heterogeneous nonlinear systems with unknown dynamics

[J]. IEEE Transactions on Automatic Control, 2018,63(1): 117-131.

[本文引用: 3]

[18]

KIUMARSI

, LEWIS

F L

, MODARES

,et al.

Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics

[J]. Automatica, 2014,50: 1167-1175.

[本文引用: 1]

[19]

KIUMARSI

, LEWIS

F L

Output synchronization of heterogeneous discrete-time systems:A model-free optimal approach

[J]. Automatica, 2017,84: 86-94.

[本文引用: 6]

[20]

YANG

Y L

, MODARES

, WUNSCH

D C

,et al.

Leader-follower output synchronization of linear heterogeneous systems with active leader using reinforcement learning

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018,29(6): 2139-2153.

[本文引用: 1]

Cooperative output regulation of heterogeneous linear multi-agent networks via H_∞performance allocation

2019

... 多智能体系统（multi-agent system，MAS）可以描述一组系统的集体行为，并且有很多重要的应用^[1,2,3].近些年涌现了大量关于MAS问题的研究^[4,5,6,7,8].其中，输出同步问题是 MAS 的一个基本问题.在很多实际应用中，每个智能体的动态和维度可能是不同的，因此，研究异构 MAS 的输出同步是十分重要的^[9]. ...

多智能体深度强化学习的若干关键科学问题

2020

多智能体深度强化学习的若干关键科学问题

2020

多智能体系统在军事仿真领域的应用现状

2017

多智能体系统在军事仿真领域的应用现状

2017

Distributed output regulation of heterogeneous linear multi-agent systems with communication constraints

2018

基于消息通信的多智能体系统的应用

2008

基于消息通信的多智能体系统的应用

2008

Recent advances in consensus of multi-agent systems:a brief survey

2017

Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method

2017

... 强化学习起源于“试错学习”，强调使用基于环境的反馈修改行为，它由英国生物和心理学家Conway Morgan正式提出^[13].随后，Werbos P J将强化学习用于求解单系统的最优调节问题^[14,15].由于强化学习可以利用系统数据迭代求解最优控制问题，它也被广泛应用于求解MAS问题^[7,16,17].例如，参考文献[16]利用离策略强化学习算法求解MAS的最优输出同步问题. ...

Fault-tolerant consensus tracking control for linear multi-agent systems under switching directed network

2020

Observer-based output consensus of a class of heterogeneous multi-agent systems with unmatched disturbances

2018

Adaptive cooperative output regulation for a class of nonlinear multi-agent systems

2015

... 目前，已经有许多关于异构 MAS 输出同步问题的分布式控制器设计方法的研究^[10,11,12].大部分控制器设计方法需要求解 MAS 的输出调节方程，并且不可避免地需要系统模型信息.参考文献[11]基于内模原理提出了一种统一的方法来解决异构MAS的输出群同步问题.参考文献[12]通过设计分布式观测器研究了离散MAS的协同输出调节问题.参考文献[11-12]都是基于系统模型得到的结果.然而，在许多实际应用中是无法获取 MAS 的精确模型的.因此，已有的分布式控制方法不能应用于这些系统模型未知的情况. ...

Output group synchronization for networks of heterogeneous linear systems under internal model principle

2018

... .大部分控制器设计方法需要求解 MAS 的输出调节方程，并且不可避免地需要系统模型信息.参考文献[11]基于内模原理提出了一种统一的方法来解决异构MAS的输出群同步问题.参考文献[12]通过设计分布式观测器研究了离散MAS的协同输出调节问题.参考文献[11-12]都是基于系统模型得到的结果.然而，在许多实际应用中是无法获取 MAS 的精确模型的.因此，已有的分布式控制方法不能应用于这些系统模型未知的情况. ...

... ]通过设计分布式观测器研究了离散MAS的协同输出调节问题.参考文献[11-12]都是基于系统模型得到的结果.然而，在许多实际应用中是无法获取 MAS 的精确模型的.因此，已有的分布式控制方法不能应用于这些系统模型未知的情况. ...

Cooperative output regulation of discrete-time linear time-delay multi-agent systems

2016

... ]基于内模原理提出了一种统一的方法来解决异构MAS的输出群同步问题.参考文献[12]通过设计分布式观测器研究了离散MAS的协同输出调节问题.参考文献[11-12]都是基于系统模型得到的结果.然而，在许多实际应用中是无法获取 MAS 的精确模型的.因此，已有的分布式控制方法不能应用于这些系统模型未知的情况. ...

... -12]都是基于系统模型得到的结果.然而，在许多实际应用中是无法获取 MAS 的精确模型的.因此，已有的分布式控制方法不能应用于这些系统模型未知的情况. ...

... 注释2：从算法1可以看出，式（30）基于系统数据求解异构 MAS 的输出同步问题.因此，本文通过强化学习中的 Q 学习克服了已有研究需要系统模型的弊端^[12,13]. ...

强化学习:迈向知行合一的智能机制与算法

2020

强化学习:迈向知行合一的智能机制与算法

2020

Reinforcement learning and adaptive dynamic programming for feedback control

2009

H_∞ tracking control for linear discrete-time systems via reinforcement learning

2020

Optimal model-free output synchronization of heterogeneous systems using off-policy reinforcement learning

2016

... .例如，参考文献[16]利用离策略强化学习算法求解MAS的最优输出同步问题. ...

... 对于大多数求解异构 MAS 输出同步问题的强化学习算法，其价值函数由追踪误差和智能体本身的控制输入组成^[16,17,19].这样的价值函数虽然能在一定程度上减少控制成本，但是没有考虑 MAS 拓扑结构对价值函数的影响，即没有考虑邻居智能体对智能体本身的影响.因此需要定义一个包含邻居控制输入信息的性能指标和价值函数，从而减少每个智能体的控制成本. ...

... 注释1：不同于已有的研究异构MAS输出同步问题的文章（如参考文献[16-17,19]），本文的价值函数包含邻居智能体

j (j \in N_{i})

的控制输入

u_{j}

和邻居控制权重矩阵

R_{i j}

.可以通过调节

R_{i j}

来调节

u_{j}

在价值函数中的占比.因此，本文可以在减少自身控制成本的同时，减少邻居智能体的控制成本. ...

Optimal synchronization of heterogeneous nonlinear systems with unknown dynamics

2018

... 注释1：不同于已有的研究异构MAS输出同步问题的文章（如参考文献[16-17,19]），本文的价值函数包含邻居智能体

j (j \in N_{i})

的控制输入

u_{j}

和邻居控制权重矩阵

R_{i j}

.可以通过调节

R_{i j}

来调节

u_{j}

在价值函数中的占比.因此，本文可以在减少自身控制成本的同时，减少邻居智能体的控制成本. ...

Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics

2014

... 作为强化学习的一种，Q学习可以利用系统状态和控制信息求解最优控制问题^[18,19].因此，可以借助系统数据，利用Q学习求解异构MAS的输出同步问题.参考文献[19]通过Q学习算法求取离散时间异构MAS的最优分布式控制策略. ...

Output synchronization of heterogeneous discrete-time systems:A model-free optimal approach

2017

... .因此，可以借助系统数据，利用Q学习求解异构MAS的输出同步问题.参考文献[19]通过Q学习算法求取离散时间异构MAS的最优分布式控制策略. ...

... 注释1：不同于已有的研究异构MAS输出同步问题的文章（如参考文献[16-17,19]），本文的价值函数包含邻居智能体

j (j \in N_{i})

的控制输入

u_{j}

和邻居控制权重矩阵

R_{i j}

.可以通过调节

R_{i j}

来调节

u_{j}

在价值函数中的占比.因此，本文可以在减少自身控制成本的同时，减少邻居智能体的控制成本. ...

... 需要说明的是，本文引入的观测器（式（25））在参考文献[19]中已有研究.考虑到篇幅的限制，笔者进行了简要的描述.根据参考文献[19]，观测误差

{\tilde{x}}^{i}_{0} (k)

是稳定的，因此当k→∞时，

{\tilde{X}}_{i} (k) \to 0

. ...

... ]中已有研究.考虑到篇幅的限制，笔者进行了简要的描述.根据参考文献[19]，观测误差

{\tilde{x}}^{i}_{0} (k)

是稳定的，因此当k→∞时，

{\tilde{X}}_{i} (k) \to 0

. ...

Leader-follower output synchronization of linear heterogeneous systems with active leader using reinforcement learning

2018

... 根据式（2）和图

S

，给出MAS输出同步问题的通用假设^[20]，具体如下. ...

〈

〉