智能科学与技术学报, 2020, 2(4): 394-400 doi: 10.11959/j.issn.2096-6652.202042

专刊:深度强化学习

异构多智能体系统的输出同步:一个基于数据的强化学习方法

刘莹莹, 王占山

东北大学信息科学与工程学院,辽宁 沈阳 110819

Output synchronization of heterogeneous multi-agent system:a reinforcement learning approach based on data

LIU Yingying, WANG Zhanshan

College of Information Science and Engineering, Northeastern University, Shenyang 110819, China

通讯作者: 王占山,zhanshan_wang@163.com

修回日期: 2020-12-01   网络出版日期: 2020-12-15

基金资助: 国家自然科学基金资助项目.  61973070
辽宁省“兴辽英才计划”资助项目.  XLYC1802010
流程工业综合自动化基础研究基金资助项目.  2018ZCX22

Revised: 2020-12-01   Online: 2020-12-15

Fund supported: The National Natural Science Foundation of China.  61973070
Liaoning Revitalization Talents Program.  XLYC1802010
SAPI Fundamental Research Funds.  2018ZCX22

作者简介 About authors

刘莹莹(1995-),女,东北大学信息科学与工程学院博士生,主要研究方向为数据驱动的系统无模型控制、基于强化学习的系统最优控制、多智能体系统最优控制等。 。

王占山(1971-),男,博士,东北大学信息科学与工程学院教授、博士生导师,主要研究方向为神经动力系统稳定性理论、复杂网络同步性与一致性以及数据驱动的智能故障诊断与自适应容错控制等。 。

摘要

通过强化学习研究了异构多智能体系统的输出同步问题。根据多智能体系统的拓扑结构,定义一个具有邻居控制输入的性能指标和价值函数。为克服已有控制方法需要系统模型的弊端,提出一个基于系统数据的强化学习算法,使输出同步控制器也可以被应用于模型未知的情况。此外,通过调节价值函数中的权重矩阵,可以减少每个智能体的控制成本。最后,通过一个仿真示例验证了该方法的有效性和定义的价值函数的优越性。

关键词: 多智能体系统 ; 强化学习 ; 输出同步 ; 基于数据

Abstract

The output synchronization of heterogeneous multi-agent system was studied by reinforcement learning.According to the topology of multi-agent system, the performance index and value function with neighbor control input were defined.To overcome the disadvantage of existing control methods that require system model, a reinforcement learning algorithm based on system data was proposed.Hence, the output synchronization controller can also be applied when the system model was unknown.In addition, by adjusting the weight matrix in value function, the control cost of each agent can be reduced.Finally, a simulation example was given to illustrate the effectiveness of proposed method and the superiority of defined value function.

Keywords: multi-agent system ; reinforcement learning ; output synchronization ; based on data

PDF (1066KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘莹莹, 王占山. 异构多智能体系统的输出同步:一个基于数据的强化学习方法. 智能科学与技术学报[J], 2020, 2(4): 394-400 doi:10.11959/j.issn.2096-6652.202042

LIU Yingying. Output synchronization of heterogeneous multi-agent system:a reinforcement learning approach based on data. Chinese Journal of Intelligent Science and Technology[J], 2020, 2(4): 394-400 doi:10.11959/j.issn.2096-6652.202042

1 引言

多智能体系统(multi-agent system,MAS)可以描述一组系统的集体行为,并且有很多重要的应用[1,2,3]。近些年涌现了大量关于MAS问题的研究[4,5,6,7,8]。其中,输出同步问题是 MAS 的一个基本问题。在很多实际应用中,每个智能体的动态和维度可能是不同的,因此,研究异构 MAS 的输出同步是十分重要的[9]

目前,已经有许多关于异构 MAS 输出同步问题的分布式控制器设计方法的研究[10,11,12]。大部分控制器设计方法需要求解 MAS 的输出调节方程,并且不可避免地需要系统模型信息。参考文献[11]基于内模原理提出了一种统一的方法来解决异构MAS的输出群同步问题。参考文献[12]通过设计分布式观测器研究了离散MAS的协同输出调节问题。参考文献[11-12]都是基于系统模型得到的结果。然而,在许多实际应用中是无法获取 MAS 的精确模型的。因此,已有的分布式控制方法不能应用于这些系统模型未知的情况。

强化学习起源于“试错学习”,强调使用基于环境的反馈修改行为,它由英国生物和心理学家Conway Morgan正式提出[13]。随后,Werbos P J将强化学习用于求解单系统的最优调节问题[14,15]。由于强化学习可以利用系统数据迭代求解最优控制问题,它也被广泛应用于求解MAS问题[7,16,17]。例如,参考文献[16]利用离策略强化学习算法求解MAS的最优输出同步问题。

作为强化学习的一种,Q学习可以利用系统状态和控制信息求解最优控制问题[18,19]。因此,可以借助系统数据,利用Q学习求解异构MAS的输出同步问题。参考文献[19]通过Q学习算法求取离散时间异构MAS的最优分布式控制策略。

对于大多数求解异构 MAS 输出同步问题的强化学习算法,其价值函数由追踪误差和智能体本身的控制输入组成[16,17,19]。这样的价值函数虽然能在一定程度上减少控制成本,但是没有考虑 MAS 拓扑结构对价值函数的影响,即没有考虑邻居智能体对智能体本身的影响。因此需要定义一个包含邻居控制输入信息的性能指标和价值函数,从而减少每个智能体的控制成本。

基于以上讨论,在价值函数中考虑异构 MAS的拓扑信息,并借助系统数据,使用强化学习方法求解异构 MAS 的输出同步问题是十分迫切的。因此,本文定义了一个含有邻居控制输入信息的性能指标,然后基于强化学习中的Q学习提出一个求解MAS控制器的强化学习算法。

2 基本知识和问题描述

本节首先描述图理论和 MAS 的连接拓扑,然后阐述MAS的输出同步问题。

2.1 图理论和MAS的连接拓扑

一般来说,MAS 的连接拓扑可以用图理论描述。构成图S=(V,E,A)的3个要素分别是节点集V={1,,N}、边 集 EV×V 和 邻 接 矩 阵A=[aij],i,j=1,,N 。图S的边由vij =(j,i)表示,意味着信息由节点 j 流向节点i。如果vijE,则aij >0,否则aij =0。除此之外,节点i的邻居集定义为Ni={j|vijE}。图S的度矩阵D 定义为D=diag{di} ,di=j=1Naij 。由此可得图S的拉普拉斯(Laplacian)矩阵L=DA

如果 MAS 存在领导者,并且每个智能体都可以直接或间接获得领导者的信息,那么图S包含了一个生成树。如果领导者直接连接到节点i上,那么牵引增益gi =1,否则gi =0。图S的牵引矩阵为G=diag{gi},i=1,,N

2.2 MAS的输出同步

考虑如下线性离散时间异构MAS:

xi(k+1)=Aixi(k)+Biui(k)

yi(k)=Cixi(k),i=1,,N     (1)

其中,N代表智能体的个数,xi(k)niui(k)miyi(k)q分别代表智能体i的系统状态、控制输入(即分布式控制器)和输出,ni、mi、q分别表示xiuiyi的维度。系统矩阵Aini×niBini×miCiq×ni 是时不变的。同时,假设(Ai,Bi)是可控的。

领导者的动态表示如下:

x0(k+1)=A0x0(k)

y0(k)=C0x0(k)     (2)

其中, x0(k)py0(k)q 表示领导者的系统状态和输出,p 表示 x0 的维度。系统矩阵A0p×pC0q×p

根据式(2)和图S,给出MAS输出同步问题的通用假设[20],具体如下。

假设 1:领导者的所有特征值都在单位圆上,并且不重复。

假设2:图S存在生成树。

对于线性离散时间异构MAS,输出同步问题就是设计一个分布式控制器ui(k),使所有智能体的输出yi(k)和领导者的输出y0(k)达到同步。追踪误差ei(k),i=1,,N 定义为:

ei(k)=yi(k)y0(k)     (3)

并且追踪误差需要满足:

limkei(k)=0,i=1,,N     (4)

3 利用强化学习解决MAS的输出同步问题

在第3.1节定义了一个具有邻居控制输入的性能指标和价值函数,根据定义的价值函数得到MAS的贝尔曼(Bellman)方程。基于Bellman最优原则,得到一个基于系统模型的最优控制表达式。为了在系统模型未知的情况下也可以控制MAS达到同步,在第3.2节基于强化学习中的Q学习提出了一个求解MAS控制器的强化学习算法。

3.1 基于模型的最优控制器

根据式(3)和式(4),定义需要最小化的性能指标:

Ji(ei(k),ui(k),uj(k))=

l=kλlkLi[ei(l),ui(l),uj(l)]=

l=kλlk[(yi(l)y0(l))Wi(yi(l)y0(l))+

ui(l)Riui(l)+jNiuj(l)Rijuj(l)]     (5)

其中,λ为折扣因子, Wiq×qRimi×mi>0Rijmj×mj0为对称矩阵。由式(5)可知,智能体i的追踪性能不仅取决于其追踪误差和控制输入信息,还取决于与其相连的邻居智能体j的输入信息,这与 MAS 的拓扑结构相关。因此,最小化性能指标可以减少每个智能体的控制成本,并完成 MAS 的共同任务——输出同步。

基于式(5),如果控制策略ui是可允许的(即控制策略 ui是可以得到并输入系统的),则每个智能体的价值函数可以定义为:

Vi(k)=Ji(ei(k),ui(k),uj(k))     (6)

定义增广状态Xi(k)=[xi(k),x0(k)]ni+pYi(k)=[yi(k),y0(k)]2q。根据式(1)和式(2),相应的增广系统为:

Xi(k+1)=A¯iXi(k)+B¯iui(k)

Yi(k)=C¯iXi(k)     (7)

其中,系统矩阵 A¯i=[Ai00A0](ni+p)×(ni+p)B¯i=[Bi0](ni+p)×miC¯i=[Ci00C0]2q×(ni+p)

根据增广状态Xi(k),价值函数可写为:

Vi(k)=l=kλlk(Xi(l)W¯iXi(l)+ui(l)Riui(l)+

jNiuj(l)Rijuj(l))     (8)

其中,W¯i=[CiWiCiCiWiC0C0WiCiC0WiC0](ni+p)×(ni+p)

注释1:不同于已有的研究异构MAS输出同步问题的文章(如参考文献[16-17,19]),本文的价值函数包含邻居智能体 j(jNi)的控制输入uj和邻居控制权重矩阵Rij。可以通过调节Rij来调节uj在价值函数中的占比。因此,本文可以在减少自身控制成本的同时,减少邻居智能体的控制成本。

对于由线性系统(式(1))和二次价值函数(式(8))构成的线性二次追踪问题,其价值函数在状态上是二次的。此外,因为价值函数(式(8))考虑了邻居智能体的控制输入,所以智能体i的价值函数与由自身状态和邻居状态构成的二次型函数近似。因此,价值函数(式(8))可以近似表示为如下二次型形式:

Vi(k)=[Xi(k)jNiXj(k)]Pi[Xi(k)jNiXj(k)]     (9)

其中, Pi=[Pi11Pi12Pi21Pi22]=Pi>0Pi11(ni+p)×(ni+p)Pi12(ni+p)×jNi(nj+p)Pi21jNi(nj+p)×(ni+p)Pi22jNi(nj+p)×jNi(nj+p)。注意矩阵Pi 是构成价值函数Vi(k)二次型形式的内核矩阵,下一节将用矩阵Pi推导出MAS的Q学习算法。

结合Bellman原则,可以得到MAS的Bellman方程:

Vi(k)=Xi(k)W¯iXi(k)+ui(k)Riui(k)+

jNiuj(k)Rijuj(k)+λVi(k+1)     (10)

根据 Bellman 最优原则,可以得到 MAS 的Bellman最优方程:

Vi*(k)=minui(k){Xi(k)W¯iXi(k)+ui(k)Riui(k)+

jNiuj(k)Rijuj(k)+λVi*(k+1)}     (11)

相应的最优控制为:

ui*(k)=argminui(k){Xi(k)W¯iXi(k)+ui(k)Riui(k)+

jNiuj(k)Rijuj(k)+λVi*(k+1)}     (12)

为了求得最优控制的具体表达式,将价值函数的二次型形式(式(9))代入式(10),得到:

[Xi(k)jNiXj(k)]Pi[Xi(k)jNiXj(k)]=

Xi(k)W¯iXi(k)+ui(k)Riui(k)+jNiuj(k)Rijuj(k)+

λ[Xi(k+1)jNiXj(k+1)]Pi[Xi(k+1)jNiXj(k+1)]     (13)

由此定义相应的哈密尔顿(Hamiltonian)函数Hi(k)为:

Hi(k)=Xi(k)W¯iXi(k)+ui(k)Riui(k)+jNiuj(k)Rijuj(k)+

λ[Xi(k+1)jNiXj(k+1)]Pi[Xi(k+1)jNiXj(k+1)]

[Xi(k)jNiXj(k)]Pi[Xi(k)jNiXj(k)]     (14)

将式(7)代入式(14),通过

Hi(k)ui(k)=0     (15)

可以求得最优控制的具体表达式为:

ui*(k)=K¯iηi(k)=

K¯i1Xi(k)+K¯i2jNiXj(k)+K¯i3jNiuj(k)     (16)

其中,K¯iK¯i1K¯i2K¯i3分别为控制器的控制增益

K¯i1=λ(Ri+λB¯iPi11B¯i)1B¯iPi11A¯i

K¯i2=λ(Ri+λB¯iPi11B¯i)1B¯iPi12jNiA¯j

K¯i3=λ(R+λB¯iPi11B¯i)1B¯iPi12jNiB¯j     (17)

并且Pi满足式(13)。

由式(17)可知,所获得的控制器是基于系统模型(Ai,Bi,Ci)的,它无法在系统模型未知的情况下完成 MAS 的输出同步控制。因此,下一节将给出一个基于数据的强化学习算法,通过该算法进一步求解MAS的输出同步问题。

3.2 基于Q学习的MAS强化学习算法

在第3.1节针对模型已知的情况给出了一个需要系统模型的控制器。但是,在一些实际系统中,被控MAS 的精确模型是无法获取的。为了提高系统的适应性和学习性,本节提出了一个基于系统数据的Q学习算法,通过该算法求解MAS的同步控制器。

根据Bellman式(式(10)),定义MAS的Q函数为:

Qi(k)=Xi(k)W¯iXi(k)+ui(k)Riui(k)+

jNiuj(k)Rijuj(k)+λVi(k+1)     (18)

结合增广系统(式(7))和价值函数(式(9)),式(18)的Q函数变为:

Qi(k)=Xi(k)W¯iXi(k)+ui(k)Riui(k)+

 jNiuj(k)Rijuj(k)+λsi(k)UPiUisi(k)=

si(k)Eisi(k)     (19)

其中, si(k)=[ui(k)Xi(k)jNiXj(k)jNiuj(k)]Xj 、Ui=[B¯iA¯i0000jNiA¯jjNiB¯j]Ei=[Ri000*W¯i00**00***jNiRij] +λUipiUi=[EuuiEuXiEu\XiEu\ui*EXXiEX\XiEX\ui**E\X\XiE\X\ui***E\u\ui]

然后根据

Qi(k)ui(k)=0     (20)

得到控制器:

ui(k)=Kiηi(k)=(Euui)1[EuXiEu\XiEu\ui]ηi(k)     (21)

根据式(21),要想得到控制器ui(k),就要先求矩阵Ei。因为

Vi*(k)=minui(k)Qi(k)=Qi*(k)     (22)

所以Q函数的Bellman方程为:

Qi(k)=Xi(k)W¯iXi(k)+ui(k)Riui(k)+

jNiuj(k)Rijuj(k)+λQi(k+1)     (23)

根据式(19),式(23)变为:

si(k)Eisi(k)=Xi(k)W¯iXi(k)+ui(k)Riui(k)+

jNiuj(k)Rijuj(k)+λsi(k+1)Eisi(k+1)     (24)

由此,可以通过式(24)求得矩阵Ei,进而求得控制器(式(21))。然而,此时求得的控制器要求每个智能体都能知道领导者的信息x0(k),这在不同的拓扑结构下是无法保证的,因此需要引入一个分布式观测器x0(k)

x0i(k+1)=A0x0i(k)+c(1+di+gi)1M×

[j=1Naij(x0j(k)x0i(k))+gi(x0(k)x0i(k))]     (25)

其中,c是一个正常数,M是一个待设计的矩阵。通过观测器,未被牵引到领导者的智能体i也可以获得领导者的估计信息。

定义观测误差 x˜i0(k)=xi0(k)x0(k) ,所以

Xi(k)=X^i(k)X˜i(k)=[xi(k)xi0(k)][0x˜i0(k)]     (26)

基于式(26),si(k)ηi(k)可以改写为:

si(k)=[ui(k)X^i(k)jNiX^j(k)jNiuj(k)][0X˜i(k)jNiX˜j(k)0]=s^i(k)s˜i(k)     (27)

ηi(k)=[X^i(k)jNiX^j(k)jNiuj(k)][X˜i(k)jNiX˜j(k)0]=η^i(k)η˜i(k)     (28)

需要说明的是,本文引入的观测器(式(25))在参考文献[19]中已有研究。考虑到篇幅的限制,笔者进行了简要的描述。根据参考文献[19],观测误差x˜i0(k)是稳定的,因此当k→∞时,X˜i(k)0

结合式(21)、式(24)及式(26)~(28),可用如下基于Q学习的强化学习算法求解MAS同步控制器。

算法1 基于Q学习的强化学习算法

步骤1:初始化。设置迭代数l=0,选择任意的控制策略ui0(k),i=1,,N

步骤2:价值更新。

s^i(k)El+1is^i(k)=X^i(k)W¯iX^i(k)+uil(k)Riuili(k)+

jNiujl(k)Rijulj(k)+λs^i(k+1)Elis^i(k+1)     (29)

步骤3:策略提升。

uil+1(k)=Kil+1η^i(k)=

((Euui)l+1)1[EuXiEu\XiEu\ui]l+1η^i(k)     (30)

步骤4:判断终止条件。设ε是一个小的正值,如果 |(Ki)l+1(Ki)l|ε,停止迭代,否则l=l+1,并跳转到步骤2。

注释2:从算法1可以看出,式(30)基于系统数据求解异构 MAS 的输出同步问题。因此,本文通过强化学习中的 Q 学习克服了已有研究需要系统模型的弊端[12,13]

4 仿真示例

本节给出一个仿真示例来验证所提方法的有效性。对于线性离散时间异构MAS(式(1)),N=3,其中,

A1=[2],B1=[3],C1=[1],

A2=[122.21.7],B2=[21.6],C2=[12],

A3=[11103],B3=[32],C3=[11]     (31)

对于领导者动态(式(2)),其中,

A0=[cos(0.1)sin(0.1)sin(0.1)cos(0.1)],C0=[11]     (32)

从式(31)和式(32)可以看出,系统动态矩阵Ai,i=1,,N和领导者动态矩阵A0的维度和数值是不同的,因此可以通过上述示例验证异构MAS的输出同步问题。MAS的有向拓扑如图1所示。

图1

图1   MAS的有向拓扑


从以上描述可知,n1 =1、n2=n3 = 2、q =1、m 1=m2 =m3=1、p=2,则由图1可知,A=[001100010]D=[100010001]G=[100010000]

式(15)中参数如下:λ=0.9、Ri=10Wi=40, i=1,,NR13=10R21=10R32=10

基于以上信息,通过算法1可以获得系统的控制律。图2图3分别是控制律作用于系统上的输出和跟踪误差。最终,智能体的输出yi(k),i=1,,N追踪到了领导者的输出y0(k),跟踪误差趋于0,从而解决了异构 MAS 的输出同步问题,验证了本文方法的有效性。

图2

图2   智能体的输出yi(k)和领导者的输出y0(k)


图3

图3   跟踪误差ei(k)


为了进一步验证注释 1,选取R13=0.01R21=0.01R32=0.01,即智能体i的价值函数中几乎没有邻居智能体的输入。图4图5图6展示了MAS控制过程中不同Rij,jNi 下控制输入的变化。

图4图5图6可知,小权重Rij=0.01对应大的控制输入幅值,大权重Rij=10对应小的控制输入幅值。因此,可以通过调节Rij减少每个智能体的控制成本,从而验证了本文定义的具有邻居控制输入的性能指标和价值函数的优越性。

图4

图4   不同权重矩阵下u1(k)的变化


图5

图5   不同权重矩阵下u2(k)的变化


图6

图6   不同权重矩阵下u3(k)的变化


5 结束语

本文研究了异构MAS的输出同步问题。首先,通过定义一个具有邻居控制输入的性能指标和价值函数,得到MAS的Bellman方程;然后,根据最优原则得到基于模型的 MAS 输出同步问题的控制器;为了使控制器也可以应用于模型未知的情况,提出一种基于Q学习的强化学习算法;最后,给出一个仿真示例,并验证了本文方法的有效性。通过调节权重矩阵,体现了本文定义的价值函数的优越性。

The authors have declared that no competing interests exist.
作者已声明无竞争性利益关系。

参考文献

LI X W , SOH Y C , XIE L H ,et al.

Cooperative output regulation of heterogeneous linear multi-agent networks via Hperformance allocation

[J]. IEEE Transactions on Automatic Control, 2019,64(2): 683-696.

[本文引用: 1]

孙长银, 穆朝絮 .

多智能体深度强化学习的若干关键科学问题

[J]. 自动化学报, 2020,7(46): 1301-1312.

[本文引用: 1]

SUN C Y , MU C X .

Important scientific problems of multi-agent deep reinforcement learning

[J]. Acta Automatica Sinica, 2020,7(46): 1301-1312.

[本文引用: 1]

裴国旭, 杜晓明, 薛昭 ,.

多智能体系统在军事仿真领域的应用现状

[J]. 飞航导弹, 2017(2): 46-49,73.

[本文引用: 1]

PEI G X , DU X M , XUE Z ,et al.

Application status of multi-agent system in military simulation field

[J]. Aerodynamic Missile Journal, 2017(2): 46-49,73.

[本文引用: 1]

ABDELKADER A , ABDELHAMID T .

Distributed output regulation of heterogeneous linear multi-agent systems with communication constraints

[J]. Automatica, 2018,91: 152-158.

[本文引用: 1]

史乐, 李辉, 原江波 .

基于消息通信的多智能体系统的应用

[J]. 计算机应用, 2008,28(2): 531-534.

[本文引用: 1]

SHI L , LI H , YUAN J B .

Multi-agent system based on the message communicaiton

[J]. Journal of Computer Applications, 2008,28(2): 531-534.

[本文引用: 1]

QIN J H , MA Q C , SHI Y ,et al.

Recent advances in consensus of multi-agent systems:a brief survey

[J]. IEEE Transactions on Industrial Electronics, 2017,64(6): 4972-4983.

[本文引用: 1]

ZHANG H G , JIANG H , LUO Y H ,et al.

Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method

[J]. IEEE Transactions on Industrial Electronics, 2017,64(5): 4091-4100.

[本文引用: 2]

WANG X , YANG G H .

Fault-tolerant consensus tracking control for linear multi-agent systems under switching directed network

[J]. IEEE Transactions on Cybernetics, 2020,50(5): 1921-1930.

[本文引用: 1]

ZHANG J C , ZHU F L .

Observer-based output consensus of a class of heterogeneous multi-agent systems with unmatched disturbances

[J]. Communications in Nonlinear Science and Numerical Simulation, 2018,56: 240-251.

[本文引用: 1]

LIU L .

Adaptive cooperative output regulation for a class of nonlinear multi-agent systems

[J]. IEEE Transactions on Automatic Control, 2015,60(6): 1677-1682.

[本文引用: 1]

MA Q , QIN J , ZHENG W X ,et al.

Output group synchronization for networks of heterogeneous linear systems under internal model principle

[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2018,65(5): 1684-1695.

[本文引用: 3]

YAN Y M , HUANG J .

Cooperative output regulation of discrete-time linear time-delay multi-agent systems

[J]. IET Control Theory & Applications, 2016,10(16): 2019-2026.

[本文引用: 4]

王飞跃, 曹东璞, 魏庆来 .

强化学习:迈向知行合一的智能机制与算法

[J]. 智能科学与技术学报, 2020,2(2): 101-106.

[本文引用: 2]

WANG F Y , CAO D P , WEI Q L .

Reinforcement learning:toward actionknowledge merged intelligent mechanisms and algorithms

[J]. Chinese Journal of Intelligent Science and Technology, 2020,2(2): 101-106.

[本文引用: 2]

LEWIS F L , VRABIE D .

Reinforcement learning and adaptive dynamic programming for feedback control

[J]. IEEE Circuits and Systems Magazine, 2009,9(3): 32-50.

[本文引用: 1]

LIU Y Y , WANG Z S , SHI Z .

H tracking control for linear discrete-time systems via reinforcement learning

[J]. International Journal of Robust and Nonlinear Control, 2020,30(1): 282-301.

[本文引用: 1]

MODARES H , NAGESHRAO S P , LOPES G A D ,et al.

Optimal model-free output synchronization of heterogeneous systems using off-policy reinforcement learning

[J]. Automatica, 2016,71: 334-341.

[本文引用: 4]

MODARES H , LEWIS F L , KANG W ,et al.

Optimal synchronization of heterogeneous nonlinear systems with unknown dynamics

[J]. IEEE Transactions on Automatic Control, 2018,63(1): 117-131.

[本文引用: 3]

KIUMARSI B , LEWIS F L , MODARES H ,et al.

Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics

[J]. Automatica, 2014,50: 1167-1175.

[本文引用: 1]

KIUMARSI B , LEWIS F L .

Output synchronization of heterogeneous discrete-time systems:A model-free optimal approach

[J]. Automatica, 2017,84: 86-94.

[本文引用: 6]

YANG Y L , MODARES H , WUNSCH D C ,et al.

Leader-follower output synchronization of linear heterogeneous systems with active leader using reinforcement learning

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018,29(6): 2139-2153.

[本文引用: 1]

/