深度强化学习算法与应用研究现状综述
刘朝阳, 穆朝絮, 孙长银

An overview on algorithms and applications of deep reinforcement learning
Zhaoyang LIU, Chaoxu MU, Changyin SUN
表1 几类DRL的应用领域及研究意义
应用领域 分类方式 参考文献 研究意义
视频游戏 Atari 2600 [5,14-17,24] 将DRL应用在多种游戏环境中,提升DRL算法的通用性
ViZDoom、StarCraftII等 [25-34] 将DRL应用到复杂的游戏场景中,提升智能体的决策能力
导航 迷宫导航 [35-40] 根据应用场景设计迷宫环境,采用DRL处理特定的导航问题
室内导航 [41-45] 采用 DRL 算法训练智能体在室内环境进行导航,并尝试将虚拟环境中训练好的智能体应用到现实环境中
街景导航 [46-49] 采用DRL处理城市与城市之间的长距离导航,并提升DRL算法的泛化能力
多智能体协作 独立学习者协作 [50-53,54,55,56,57-59] 协作智能体在训练时使用独立DRL的方式,方便进行数量上的扩展
集中式评价器协作 [60-64] 协作智能体在训练时通过集中式的评价器获取其他智能体的信息,解决环境非静态问题
通信协作 [65-69] 利用 DRL 处理多智能体之间可以通信的情况,并采用通信促进智能体之间的协作
推荐系统 推荐算法 [70-73] 利用 DRL 进行推荐可以实时地对推荐策略进行调整,从而满足用户的动态偏好,并且推荐算法能够得到长期的回报