智能科学与技术学报 ›› 2020, Vol. 2 ›› Issue (4): 314-326.doi: 10.11959/j.issn.2096-6652.202034

• 专刊:深度强化学习 • 上一篇    下一篇

深度强化学习算法与应用研究现状综述

刘朝阳1, 穆朝絮1, 孙长银2   

  1. 1 天津大学电气自动化与信息工程学院,天津 300072
    2 东南大学自动化学院,江苏 南京 210096
  • 修回日期:2020-12-03 出版日期:2020-12-15 发布日期:2020-12-01
  • 作者简介:刘朝阳(1996- ),男,天津大学电气自动化与信息工程学院博士生,主要研究方向为强化学习、多智能体强化学习。
    穆朝絮(1984- ),女,博士,天津大学电气自动化与信息工程学院教授,主要研究方向为强化学习、自适应学习系统、非线性控制和优化。
    孙长银(1975-),男,博士,东南大学自动化学院教授,中国自动化学会会士,中国自动化学会人工智能与机器人教育专业委员会主任。主要研究方向为智能控制与优化、强化学习、神经网络、数据驱动控制。担任 IEEE Transactions on Neural Networks and Learning Systems、IEEE/CAA Journal of Automatica Sinica、《自动化学报》《控制理论与应用》《智能科学与技术学报》等高质量学术期刊编委。2011年获得国家杰出青年科学基金。“智能机器人感知与控制”江苏高等学校优秀科技创新团队带头人,2016 年全国优秀科技工作者,第三批国家“万人计划”科技创新领军人才,中国科学技术协会第九次全国代表大会代表,“自主无人系统协同控制理论及应用”国家自然科学基金委员会创新研究群体学术带头人,科学技术部科技创新2030—“新一代人工智能”重大项目“人在回路的混合增强智能”首席科学家,江苏省前沿引领技术基础研究专项领衔科学家。
  • 基金资助:
    国家自然科学基金资助项目(61773284)

An overview on algorithms and applications of deep reinforcement learning

Zhaoyang LIU1, Chaoxu MU1, Changyin SUN2   

  1. 1 School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China
    2 School of Automation, Southeast University, Nanjing 210096, China
  • Revised:2020-12-03 Online:2020-12-15 Published:2020-12-01
  • Supported by:
    The National Natural Science Foundation of China(61773284)

摘要:

深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。

关键词: 人工智能, 深度强化学习, 值函数, 策略梯度, 导航, 协作, 复杂环境, 泛化性, 鲁棒性

Abstract:

Deep reinforcement learning (DRL) is mainly applied to solve the perception-decision problem, and has become an important research branch in the field of artificial intelligence.Two kinds of DRL algorithms based on value function and policy gradient were summarized, including deep Q network, policy gradient as well as related developed algorithms.In addition, the applications of DRL in video games, navigation, multi-agent cooperation and recommendation field were intensively reviewed.Finally, a prospect for the future research of DRL was made, and some research suggestions were given.

Key words: artificial intelligence, deep reinforcement learning, value function, policy gradient, navigation, cooperation, complex environment, generalization, robustness

中图分类号: 

No Suggested Reading articles found!