深度强化学习算法与应用研究现状综述

深度强化学习算法与应用研究现状综述

刘朝阳, 穆朝絮, 孙长银

An overview on algorithms and applications of deep reinforcement learning

Zhaoyang LIU, Chaoxu MU, Changyin SUN

表1 几类DRL的应用领域及研究意义

应用领域	分类方式	参考文献	研究意义
视频游戏	Atari 2600	[5,14-17,24]	将DRL应用在多种游戏环境中，提升DRL算法的通用性
	ViZDoom、StarCraftII等	[25-34]	将DRL应用到复杂的游戏场景中，提升智能体的决策能力
导航	迷宫导航	[35-40]	根据应用场景设计迷宫环境，采用DRL处理特定的导航问题
	室内导航	[41-45]	采用 DRL 算法训练智能体在室内环境进行导航，并尝试将虚拟环境中训练好的智能体应用到现实环境中
	街景导航	[46-49]	采用DRL处理城市与城市之间的长距离导航，并提升DRL算法的泛化能力
多智能体协作	独立学习者协作	[50-53,54,55,56,57-59]	协作智能体在训练时使用独立DRL的方式，方便进行数量上的扩展
	集中式评价器协作	[60-64]	协作智能体在训练时通过集中式的评价器获取其他智能体的信息，解决环境非静态问题
	通信协作	[65-69]	利用 DRL 处理多智能体之间可以通信的情况，并采用通信促进智能体之间的协作
推荐系统	推荐算法	[70-73]	利用 DRL 进行推荐可以实时地对推荐策略进行调整，从而满足用户的动态偏好，并且推荐算法能够得到长期的回报