智能科学与技术学报 ›› 2022, Vol. 4 ›› Issue (1): 75-83.doi: 10.11959/j.issn.2096-6652.202214

• 专题:群体智能 • 上一篇    下一篇

基于动态自选择参数共享的合作多智能体强化学习算法

王涵, 俞扬, 姜远   

  1. 计算机软件新技术国家重点实验室(南京大学),江苏 南京 210023
  • 修回日期:2022-01-14 出版日期:2022-03-15 发布日期:2022-03-01
  • 作者简介:王涵(1992− ),女,计算机软件新技术国家重点实验室(南京大学)博士生,主要研究方向为机器学习、强化学习
    俞扬(1982− ),男,计算机软件新技术国家重点实验室(南京大学)教授,主要研究方向为人工智能、机器学习、强化学习、演化学习
    姜远(1976− ),女,博士,计算机软件新技术国家重点实验室(南京大学)教授,主要研究方向为人工智能、机器学习
  • 基金资助:
    国家自然科学基金资助项目(61876077)

A cooperative multi-agent reinforcement learning algorithm based on dynamic self-selection parameters sharing

Han WANG, Yang YU, Yuan JIANG   

  1. State Key Laboratory for Novel Software Technology at Nanjing University, Nanjing 210023, China
  • Revised:2022-01-14 Online:2022-03-15 Published:2022-03-01
  • Supported by:
    The National Natural Science Foundation of China(61876077)

摘要:

在多智能体强化学习的研究中,参数共享作为学习过程中一种信息集中的方式,可以有效地缓解不稳定性导致的学习低效性。但是,在实际应用中智能体使用同样的策略往往会带来不利影响。为了解决此类过度共享的问题,提出了一种新的方法来赋予智能体自动识别可能受益于共享参数的智能体的能力,并且可以在学习过程中动态地选择共享参数的对象。具体来说,智能体需要将历史轨迹编码为可表示其潜在意图的隐信息,并通过与其余智能体隐信息的对比选择共享参数的对象。实验表明,提出的方法在多智能体系统中不仅可以提高参数共享的效率,同时保证了策略学习的质量。

关键词: 多智能体系统, 强化学习, 参数共享

Abstract:

In multi-agent reinforcement learning, parameter sharing can effectively alleviate the inefficiency of learning caused by non-stationarity.However, maintaining the same policy forall agents during learning may have detrimental effects.To solve this problem, a new approach was introduced to give agents the ability to automatically identify agents that may benefit from parameter sharing and dynamically share parameters them during learning.Specifically, agents needed to encode empirical trajectories as implicit information that can represent their potential intentions, and selected peers to share parameters by comparing their intentions.Experiments show that the proposed method not only can improve the efficiency of parameter sharing, but also ensure the quality of policy learning in multi-agent system.

Key words: multi-agent system, reinforcement learning, parameter sharing

中图分类号: 

No Suggested Reading articles found!